ES2321075T3

ES2321075T3 - Sistemas, metodos y software para la clasificacion de documentos.

Info

Publication number: ES2321075T3
Application number: ES02786640T
Authority: ES
Inventors: Khalid Al-Kofahi; Peter Jackson; Timothy Earl Travers; Alex Tyrell
Original assignee: Thomson Reuters Global Resources ULC
Current assignee: Thomson Reuters Global Resources ULC
Priority date: 2001-11-02
Filing date: 2002-11-01
Publication date: 2009-06-02
Anticipated expiration: 2022-11-01
Also published as: US7580939B2; JP2005508542A; CN1701324A; US20060010145A1; CA2737943A1; AU2002350112B2; CA2470299A1; CA2470299C; AU2002350112A1; WO2003040875A3; US20030101181A1; AU2009202974A1; WO2003040875A2; AU2002350112B8; EP1464013A2; DE60231005D1; JP5392904B2; CA2737943C; JP2013178851A; CN1701324B

Abstract

Un sistema informatizado (100) para clasificar textos de entrada (126, 128) en un sistema de clasificación por objetivos que tiene dos o más clases de objetivos (122.1, 124.1, 126.1, 128.1), comprendiendo el sistema: medios (131, 132, 133, 134) para determinar para cada una de las clases de objetivos al menos una primera y una segunda puntuación basadas en el texto de entrada y en la clase de objetivos, usando los respectivos métodos primero y segundo de clasificación; y que se caracterizan por comprender: medios (135) para determinar, para cada una de las clases de objetivos, una puntuación compuesta correspondiente en base a la primera puntuación escalada mediante un primer peso específico de clase para la clase de objetivos, y a la segunda puntuación escalada mediante un segundo peso específico de clase para la clase de objetivos; y medios (136, 137) para determinar para cada una de las clases de objetivos si se ha de clasificar o recomendar la clasificación del texto de entrada a la clase de objetivos en base a la correspondiente puntuación compuesta y a un umbral de decisión específico de la clase para la clase de objetivos.

Description

Sistemas, métodos y software para la clasificación de documentos.

Campo técnico

El presente invento se refiere a sistemas, métodos y software para la clasificación de textos y documentos, tales como notas marginales de opiniones judiciales.

Antecedentes

El sistema legal Americano (de los EE.UU.) así como algunos otros sistemas legales de todo el mundo, se basa fundamentalmente en las opiniones judiciales escritas -los pronunciamientos por escrito de los jueces- para articular o interpretar las leyes que regulan la resolución de disputas. Cada opinión judicial es importante no solamente para resolver una disputa legal particular, sino también para la resolución de disputas similares en el futuro. Debido a esto, los jueces y los abogados, dentro de nuestro sistema legal, están buscando continuamente en un cuerpo que crece constante-
mente de opiniones pasadas, o casos legales anteriores, lo que sea más relevante para la resolución de nuevas disputas.

Para facilitar esas búsquedas, compañías tales como la West Publishing Company de St. Paul, Minnesota (EE.UU.) (integrada en el Grupo West), no solamente recogen y publican las opiniones judiciales de tribunales en los EE.UU., sino que también resumen y clasifican las opiniones basadas en los principios o temas legales que contengan las mismas. El Grupo West, por ejemplo, crea y clasifica las notas marginales -breves resúmenes de los puntos sustentados en opiniones judiciales- usando su sistema patentado West Key Number^{TM} (West Key Number -o Número Clave de West- es una marca comercial del Grupo West).

El sistema West Key Number es una clasificación jerárquica de más de 20 millones de notas marginales incluidas en más de 90.000 clases o categorías legales diferenciadas. Cada clase tiene no solamente un nombre descriptivo, sino también un código único alfa numérico, conocido su Número Clave de clasificación.

Además de los sistemas de clasificación sumamente detallados, tales como el Sistema de Número de Clave West, los jueces y abogados llevan a cabo investigaciones usando productos, tales como los Informes Legales Americanos (ALR), que proporcionan un análisis hecho por profesionales especializados de un amplio espectro de temas legales. De hecho, los ALR incluyen aproximadamente 14.000 artículos diferenciados, conocidos como anotaciones, que cada uno ilustra acerca de un tema legal independiente, tal como de excepción de cosa juzgada y de libertad de opinión. Cada una de las anotaciones incluye también citas y/o notas marginales que identifican opiniones judiciales relevantes para facilitar nuevas búsquedas legales.

Para asegurar su puesta al día como herramientas de búsqueda legal, las anotaciones de los ALR son actualizadas continuamente, citando opiniones (o casos) judiciales recientes. Sin embargo, la actualización es una tarea costosa, ya que los tribunales de todo el país emiten colectivamente cientos de nuevas opiniones cada día, y que la técnica convencional para identificar cuáles de esos casos son candidatos idóneos para las citas, es ineficaz e inexacta.

En particular, la técnica convencional implica seleccionar casos que tengan notas marginales en ciertas clases del Sistema de Números Clave West como candidatos para citas en las correspondientes anotaciones. Los casos candidatos son luego enviados a editores profesionales para revisión manual y determinación final de cuáles deban ser citados en las anotaciones correspondientes. Desafortunadamente, esta representación simplista de clases de anotaciones no solamente remite a los editores muchos casos irrelevantes, sino que también falla al enviar muchos que son relevantes, con lo que se aumenta la carga de trabajo de los editores al mismo tiempo que se limita la precisión de las anotaciones actualizadas.

En consecuencia, surge la necesidad de herramientas que faciliten la clasificación o la asignación de opiniones judiciales a las anotaciones de los ALR y otras herramientas de búsqueda de antecedentes legales.

Larkey L.S. y otros, en su comunicación titulada "Combining classifiers in text categorization" (Combinación de Clasificadores por categorías de textos) 19ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en la Recuperación de Información, Zurich, Suiza, 18-22 Agosto. 1996, vol. De edición especial. páginas 289-297, XP002231517 SIGIR Forum, 1996, ACM, USA ISSN: 0163-5840, describe un sistema de clasificación de textos por categorías de la técnica anterior. Los preámbulos de las reivindicaciones independientes están basados en este documento.

Resumen de ejemplos de realizaciones

Para satisfacer estas y otras necesidades, los presentes inventores han ideado sistemas, métodos y software que facilitan la clasificación de textos o documentos de acuerdo con un sistema de clasificación por objetivos. Por ejemplo, uno de esos sistemas ayuda a clasificar las notas marginales en las anotaciones de los ALR, otro ayuda a clasificar las notas marginales en secciones de Jurisprudencia Americana (otra referencia legal de estilo enciclopédico); y todavía otro ayuda a clasificar las notas marginales en el Sistema de Número Clave de West. Sin embargo, esas y otras realizaciones son aplicables a la clasificación de otros tipos de documentos, tales como los correos electrónicos.

De acuerdo con un primer aspecto del presente invento, se proporciona un sistema informatizado para clasificar textos de entrada en un sistema de clasificación por objetivos que tiene dos o más clases de objetivos, comprendiendo el sistema

*: medios para determinar, para cada una de las clases de objetivos, al menos una primera y una segunda puntuación basadas en el texto de entrada y en la clase de objetivo, usando respectivos métodos de clasificación primero y segundo, y que se caracterizan por comprender:

*: medios para determinar para cada una de las clases de objetivo una puntuación compuesta correspondiente, basada en la primera puntuación escalada mediante un peso específico de la primera clase para la clase de objetivo y en la segunda puntuación escalada mediante un peso específico de la segunda clase para la clase de objetivo; y

*: medios para determinar para cada una de las clases de objetivo si se debe clasificar o recomendar la clasificación del texto de entrada a la clase de objetivo en base a la correspondiente puntuación compuesta y un umbral de decisión específico de clase para la clase de objetivo.

De acuerdo con un segundo aspecto del presente invento, se proporciona un método ejecutado por ordenador para clasificar un texto de entrada en un sistema de clasificación por objetivos que tiene dos o más clases de objetivos, comprendiendo el método, para cada clase de objetivo:

*: Determinar puntuaciones primera y segunda en base al texto de entrada y a la clase de objetivo usando respectivos métodos de clasificación primero y segundo y caracterizado por:

: para cada clase de objetivo:

*: Determinar una puntuación compuesta en base a la primera puntuación escalada mediante un peso específico de la primera clase para la clase objetivo, y la segunda puntuación escalada mediante un segundo peso específico de la segunda clase para la clase de objetivo; y

*: Determinar si se debe identificar el texto de entrada para clasificación en la clase de objetivo en base a la puntuación compuesta y un umbral de decisión de clase específico para la clase de objetivo.

Más en particular, algunos de los sistemas que sirven de ejemplos clasifican o ayudan a la clasificación manual de un texto de entrada, determinando para ello un conjunto de puntuaciones compuestas, correspondiendo cada puntuación compuesta a una clase de objetivo respectiva en el sistema de clasificación por objetivos. La determinación de cada puntuación compuesta implica, preferiblemente, el cálculo y la aplicación de pesos específicos de clase a los al menos dos tipos siguientes de puntuación:

*: un primer tipo basado en la similitud del texto de entrada con un texto asociado a una respectiva de las clases por objetivos;

*: un segundo tipo basado en la similitud de un conjunto de clases no determinadas por objetivos, asociadas con el texto de entrada y un conjunto de clases no determinadas por objetivos asociadas con una respectiva de las clase de objetivos;

*: un tercer tipo basado en la probabilidad de una de las clases de objetivos, dado un conjunto de una o más clases no determinadas por objetivos asociadas con el texto de entrada: y

*: un cuarto tipo basado en la probabilidad del texto de entrada dados el texto asociado con una respectiva de la clase de objetivos.

Estos sistemas que sirven de ejemplos evalúan después las puntuaciones compuestas usando criterios de decisión específicos según las clases, tales como por umbrales, para asignar o recomendar la asignación finalmente del texto de entrada (o de un documento u otra estructura de datos asociada con el texto de entrada) en una o más de la clasificación por objetivos.

Breve descripción de los dibujos

La Figura 1 es un diagrama de un sistema 100 de clasificación que sirve de ejemplo, en el que se ha incorporado lo que enseña el invento, incluyendo una interfaz de usuario única 114;

La Figura 2 es un organigrama que ilustra un método que sirve de ejemplo incorporado en el sistema de clasificación 100 de la Figura 1;

La Figura 3 es un diagrama de una nota marginal 310 que sirve de ejemplo y de un modelo 320 correspondiente de par de nombre-palabra;

La Figura 4 es un facsímile de una interfaz 400 de usuario gráfica que sirve de ejemplo que forma una parte de un sistema de clasificación 100.

La Figura 5 es un diagrama de otro sistema de clasificación 500 que sirve de ejemplo, que es similar al sistema 100 pero que incluye clasificadores adicionales; y

Figura 6 es un diagrama de otro sistema de clasificación 600 que sirve de ejemplo, el cual es similar al sistema 100 pero en el que se omiten algunos clasificadores.

\vskip1.000000\baselineskip

Descripción detallada de ejemplos de realizaciones

En esta descripción, en la que se hace referencia a las Figuras antes identificadas y que las incorpora, se describen una o más realizaciones específicas de uno o más inventos. Esas realizaciones, que se ofrecen no como limitadoras, sino únicamente como ejemplos, y para dar a conocer los uno o más inventos, se han representado y descrito con detalle suficiente para hacer posible que quienes sean expertos en la técnica implementen o pongan en práctica el invento. Por consiguiente, en donde sea apropiado para una clara exposición del invento, se ha podido omitir cierta información ya conocida por quienes sean expertos en la técnica.

En la descripción se incluyen muchos términos con significados derivados de su uso en la técnica o de su uso dentro del contexto de la descripción. Sin embargo, como otra ayuda, se presentan las siguientes definiciones como ejemplos.

El término "documento" se refiere a cualquier colección o disposición accesible de datos legibles a máquina.

En la expresión "base de datos" se incluye cualquier colección o disposición lógica de documentos.

Bajo la denominación de "nota marginal" se designa un resumen o extracto de texto electrónico concerniente a un punto legal dentro de una opinión judicial expresada por escrito. El número de notas marginales asociado con una opinión (o caso) judicial, depende del número de temas que en la misma se aborden.

\vskip1.000000\baselineskip

Ejemplo de Sistema para la Clasificación de Notas Marginales en los Informes Legales Americanos

En la Figura 1 se ha representado un diagrama de un sistema de clasificación de documentos 100 que sirve de ejemplo para clasificar o recomendar la clasificación automáticamente de documentos electrónicos de acuerdo con esquema de clasificación de documentos. La realización que sirve de ejemplo clasifica o recomienda la clasificación de casos, citas de casos, o notas marginales asociadas, en una o más de las categorías representadas por 13.779 anotaciones de ALR. (El número total de anotaciones está aumentando a un ritmo del orden de 20-30 anotaciones al mes). Sin embargo, el presente invento no está limitado a ningún tipo particular de documentos ni de tipo de sistema de clasificación.

Aunque la realización que sirve de ejemplo se presenta como un conjunto interconectado de componentes separados, algunas otras realizaciones implementan su funcionalidad usando un número mayor o menor de componentes. Además, algunas realizaciones acoplan entre sí uno o más de los componentes a través de un área local o de un área amplia. (Algunas realizaciones implementan una o más partes del sistema 100 usando uno o más ordenadores o servidores principales) Por lo tanto, el presente invento no queda limitado a ninguna separación funcional particular.

El sistema 100 incluye una base de datos 110 de anotaciones de ALR, una base de datos 120 de notas marginales, y un procesador 130 de clasificación, una base de datos 140 de clasificación preliminar, y estaciones de trabajo 150 editoriales.

La base de datos 110 de anotaciones ALR (más generalmente una base de datos de documentos electrónicos clasificados de acuerdo con un esquema de clasificación por objetivos) incluye un conjunto de 13.779 anotaciones, las cuales son presentadas en general mediante la anotación 112. La realización que sirve de ejemplo contempla cada anotación como una clase o categoría. Cada anotación, tal como la anotación 112, incluye un conjunto de una o más citas de casos, tales como las citas 112.1 y 112.2.

Cada cita identifica a, o está asociada con, al menos una opinión judicial, o generalmente con un documento electrónico), tal como la opinión judicial electrónica (o caso) 115. La opinión judicial 115 incluye a, y/o está asociada con una o más notas marginales en la base de datos 120 de notas marginales, tales como las notas marginales 122 y 124. (En la realización que sirve de ejemplo, una opinión o caso judicial típico tiene aproximadamente 6 notas marginales asociadas, aunque no son raros los casos que tienen 50 o más de éstas).

A continuación se reproduce una nota marginal de muestra y su identificador de clase de Número Clave de West asignado.

Ejemplo de Nota Marginal

En una acción llevada de acuerdo con el Acta de Procedimiento Administrativo (APA) la investigación es doble: en primer lugar el tribunal examina el estatuto orgánico para determinar si la intención del Congreso fuera la de que una parte agraviada siga una línea administrativa particular antes de que pueda disponer de autorización judicial; si ese estatuto generativo no da respuesta, el tribunal pregunta entonces si las regulaciones de una agencia requieren recurso a la autoridad de una agencia superior.

Ejemplo de Identificador de Clase de Número Clave

15AK229 - LEY Y PROCEDIMIENTO ADMINISTRATIVO - SEPARACIÓN DE PODERES ADMINISTRATIVO Y OTROS - PODERES JUDICIALES

En la base de datos 120, cada nota marginal está asociada con uno o más identificadores de clase, los cuales están basados, por ejemplo, en el Sistema de Clasificación de Número Clave de West. (Para más detalles sobre el Sistema de Número Clave de West, véase el Análisis de West de la Ley Americana: Guía del "American Digest System", Edición 2000, Grupo West, 1999, la cual queda aquí incorporada por su referencia). Por ejemplo, la nota marginal 122 está asociada con las clases o los identificadores de clase 122.1, 122.2, y 122.3, la nota marginal 124 está asociada con las clases o los identificadores de clase 124.1 y 124.2.

En el sistema que sirve de ejemplo, la base de datos 120 de notas marginales incluye aproximadamente 20 millones de notas marginales y crece a un ritmo de aproximadamente 12.000 notas marginales por semana, aproximadamente el 89% de las notas marginales están asociadas con un solo identificador de clase, aproximadamente el 10% con dos identificadores de clase, y aproximadamente el 1% con más de dos identificadores de clase.

Además, la base de datos 120 de notas marginales incluye un cierto número de notas marginales, tales como la notas marginales 126 y 128, que no están todavía asignadas o asociadas con una anotación ALR en la base de datos 110. Las notas marginales, sin embargo, están asociadas con identificadores de clase. Concretamente, la nota marginal 126 está asociada con los identificadores de clase 126.1 y 126.2, y la nota marginal 128 está asociada con el identificador de clase 128.1.

El procesador de clasificación 130 está acoplado tanto a la base de datos 110 de anotación de ALR, como a la base de datos 120 de notas marginales. El procesador de clasificación 130 incluye clasificadores 131, 132, 133, y 134, un generador de puntuación compuesta 135, un elemento de toma de decisiones de asignación 136, y un módulo de criterio de decisión 137. El procesador 130 determina si uno o más casos asociados con las notas marginales en la base de datos 120 de notas marginales deberá ser asignado a, o citado en, una o más de las anotaciones de la base de datos de anotaciones 110. El procesador 130 está también acoplado a la base de datos 140 de clasificación preliminar.

La base de datos 40 de clasificación preliminar almacena y/o organiza las recomendaciones de asignación o de cita. Dentro de la base de datos 140 las recomendaciones pueden ser organizadas como una sola cola de "primero que entra primero que sale" (FIFO), como múltiples colas FIFO basadas en anotaciones individualizadas o en subconjuntos de anotaciones. Las recomendaciones son finalmente distribuidas al centro de trabajo 150.

El centro de trabajo 150 comunica con la base de datos de clasificación preliminar 140, así como con la base de datos de anotaciones 110, y ayuda finalmente a que los usuarios actualicen manualmente las anotaciones ALR en la base de datos 110 en base a las recomendaciones almacenadas en la base de datos 140. Concretamente, el centro de trabajo 150 incluye las estaciones de trabajo 152, 154 y 156. La estación de trabajo 152, que es sustancialmente idéntica a las anotaciones de trabajo 154 y 156, incluye una interfaz de gráfico-usuario 152.1, y dispositivos de interfaz con el usuario, tales como un teclado y un ratón (no representados).

En general, el sistema 100 que sirve de ejemplo opera como sigue. La base de datos 120 de notas marginales recibe un nuevo conjunto de notas marginales (tales como las notas marginales 126 y 128) para casos sobre los que se ha decidido recientemente, y el procesador de clasificación 130 determina si uno o más de los casos asociados con las notas marginales son suficientemente relevantes para cualquiera de las anotaciones dentro del ALR para justificar la recomendación de asignaciones de las notas marginales (o los casos asociados) a una o más de las anotaciones. (En algunas otras realizaciones se asignan directamente las notas marginales o los casos asociados a las anotaciones). Las recomendaciones de asignación son almacenadas en la base de datos de clasificación preliminar 140, y más adelante son recuperadas por, o presentadas a editores en el centro de trabajo 150 por medio de interfaces de gráfico-usuario en las estaciones de trabajo 152, 154 y 156, para aceptación o rechazo. Las recomendaciones aceptadas son añadidas como citas a las respectivas anotaciones en la base de datos 110 de anotaciones ALR, y las recomendaciones rechazadas no lo son. Sin embargo, tanto las recomendaciones aceptadas como las rechazadas, son realimentadas al procesador de clasificación 130 para incrementar el entrenamiento o la sincronización de sus criterios de decisión.

Más en particular, en la Figura 2 se ha representado un organigrama 200 que ilustra con mayor detalle un método que sirve de ejemplo del sistema operativo 100. El organigrama 200 incluye una serie de bloques de proceso 210-250. Aunque en la realización que sirve de ejemplo están dispuestos en serie, en otras realizaciones se pueden reordenar los bloques, omitir uno o más bloques, y/o ejecutar dos o más bloques en paralelo usando múltiples procesadores, o bien un solo procesador organizado como dos o más máquinas o subprocesadores virtuales. Además, en todavía otras realizaciones se implementan los bloques como uno o más módulos de circuito integrado o de equipo físico interconectados específicos con señales de control y de datos relacionadas comunicadas entre y a través de los módulos. Por consiguiente, el flujo del proceso que sirve de ejemplo es aplicable a implementaciones de software, de soporte lógico inalterable (firmware) de equipo físico (hardware), e híbridas.

En el resto de la descripción se hace uso del siguiente sistema de notación. Las letras minúsculas a, h y k, designan, respectivamente, una anotación, una nota marginal, y una clase o un identificador de clase, tal como una clase o identificador de clase del Número Clave de West. Las letras mayúsculas A, H y K designan, respectivamente, el conjunto de todas las anotaciones, el conjunto de todas las notas marginales, y el conjunto de todas las clasificaciones por números clave. Además, las variables que designan cantidades vectoriales están en forma de letras mayúsculas en negrillas, y los elementos de los correspondientes vectores se han designado con letras minúsculas. Por ejemplo, V designa un vector, y v designa un elemento del vector V.

En el bloque 210, el método que sirve de ejemplo comienza por representar las anotaciones en la base de datos de anotaciones 110 (en la Figura 1) como vectores de características basadas en el texto. En particular, Esto implica representar cada anotación a como un vector, V_{a}, de característica de una columna, basado en los pares de nombres y/o nombre-palabra que se encuentran en las notas marginales para los casos citados dentro de la anotación. (En otras realizaciones se representan las notas marginales como bigramas o frases de nombres).

Aunque es posible usar en la anotación todas las notas marginales asociadas con los casos citados, en la realización que sirve de ejemplo se seleccionan del conjunto de todas las notas marginales asociadas con los casos citados aquéllas que sean las más relevantes para la anotación que esté siendo representada. Para cada anotación, esto implica construir un vector característico usando todas las notas marginales en todos los casos citados en la anotación, y seleccionar de cada caso una, dos o tres notas marginales basadas en la similitud entre las notas marginales en un caso citado y las de la anotación de la cita, y designando como relevantes la nota o notas más similares. Para determinar las notas marginales más relevantes, en la realización que sirve de ejemplo se hace uso de clasificadores 131-134 para calcular puntuaciones de similitud, se promedian las cuatro puntuaciones para cada nota marginal, y se define como más relevante la nota marginal de más alta puntuación, más aquéllas que tengan una puntuación de al menos un 80% de la puntuación más alta. El valor del 80% fue elegido empíricamente.

Una vez seleccionadas, las notas marginales asociadas (o, alternativamente, el texto real de las anotaciones) se representan como un conjunto de pares de nombres, de nombre-nombre, de nombre-verbo, y de nombre-adjetivo, que contengan Las palabras de un par de s no han de estar necesariamente adyacentes, pero están dentro de un número específico de palabras o caracteres cada una de la otra, es decir, dentro de una ventana de palabras o de caracteres particular. El tamaño de la ventana es ajustable, y puede tomar valores desde 1 hasta el número total de palabras o caracteres en las notas marginales. Aunque las ventanas más grandes tienden a proporcionar mejores actuaciones, en la realización que sirve de ejemplo no se observó cambio alguno en las actuaciones para ventanas de más de 32 palabras no omitidas ni abreviadas. Por conveniencia, sin embargo, el tamaño de la se ha establecido el tamaño de la ventana que sirve de ejemplo en el tamaño de la nota marginal real. La realización que sirve de ejemplo excluye las palabras que se omiten o se abrevian (por ser usadas muy generalmente y darse por sobreentendidas) y hace uso de la forma de la raíz de todas las palabras. En el Apéndice A se da una lista con ejemplos de esas palabras que se omiten o se abrevian; sin embargo, en otras realizaciones se hace uso de otras listas de palabras que se omiten o se abrevian.

En la Figura 3 se ha representado un ejemplo de una nota marginal 310 y de una representación de nombre-palabra 320 de acuerdo con la realización que sirve de ejemplo. También se han representado un texto 330 de clasificación por Número Clave de West, y el identificador de clase.

En un vector V_{a} de anotación particular, se define el peso, o la magnitud, de cualquier elemento particular v_{a} como

1

donde idf^{'}_{a} designa la frecuencia del término (es decir, el número total de ocurrencias del término o del par de nombre-palabra asociado con la anotación a. En la realización que sirve de ejemplo, ese es el número de ocurrencias del término dentro del conjunto de notas marginales asociadas con la anotación). idf^{'}_{a} designa la frecuencia inversa de documento para el término o el par de nombre-palabra asociado. idf^{'}_{a} se define como

2

donde N es el número total de notas marginales (por ejemplo, 20 millones) de la colección, y df^{'}_{a} es el número de notas marginales (o documentos más generales) que contienen el término o el par de nombre-palabra. La notación de números primos ' indica que esos parámetros de frecuencia están basados en texto sustituto, por ejemplo, en el texto de notas marginales asociadas, frente al texto de la propia anotación. (Sin embargo, en otras realizaciones se puede hacer uso de todas las partes del texto procedentes de la anotación, solas o en combinación con un texto sustituto, tal como el de las notas marginales u otros documentos con los que guarden relación).

Incluso aunque en la realización que sirve de ejemplo se hace uso de notas marginales asociadas con una anotación frente al texto de la propia anotación, los vectores de anotación-texto pueden incluir gran número de elementos. Ciertamente, algunos vectores de anotación pueden incluir cientos de miles de términos o de pares de nombre-palabra, teniendo la mayoría de ellos una baja frecuencia de término. Por consiguiente, no solo para reducir el número de términos a un número manejable, sino también para evitar el problema de las palabras raras que se sabe que existe en los modelos de vector-espacio, en la realización que sirve de ejemplo se excluyen los términos de bajo peso.

Concretamente, en la realización que sirve de ejemplo se excluyen tantos términos de bajo peso como sea necesario para conseguir un límite inferior absoluto de 500 términos, o bien una reducción del 75% de la longitud de cada vector de anotación. El efecto de este proceso en el número de términos en un vector de anotación depende de su distribución del peso. Por ejemplo, si los términos tienen pesos similares, se excluirán aproximadamente el 75% de los términos. Sin embargo, para anotaciones con distribuciones de peso sesgadas, pudieran ser excluidos tan solo un 10% de los términos. En la realización que sirve de ejemplo, este proceso disminuyó el número total de términos únicos para todos los vectores de anotación, desde aproximadamente 70 millones hasta aproximadamente 8 millones de términos.

En algunas otras realizaciones se usan otros métodos para limitar el tamaño del vector. Por ejemplo, en algunas realizaciones se aplica un umbral fijo al número de términos por categoría, o a la frecuencia del término, a la frecuencia del documento, o al peso. Estos métodos son eficaces en general cuando las categorías de que se trata no varían significativamente en el espacio de la característica. Todavía en otras realizaciones se efectúa la selección de la característica en base a medidas tales como la de información mutua. Estos métodos, sin embargo, son caros de informatizar. El método que sirve de ejemplo trata de conseguir un equilibrio entre esos dos extremos.

El bloque 220, ejecutado después de la representación de las anotaciones como vectores característicos basados en el texto, implica modelar una o más notas marginales de entrada procedentes de la base de datos 120 (en la Figura 1) como un conjunto de vectores de nota marginal-texto correspondientes. Las notas marginales de entrada incluyen las notas marginales que han sido añadidas recientemente a la base de datos 120 de notas marginales, o que, por otra parte,
no han sido previamente revisadas en cuanto a su relevancia para las anotaciones de los ALR en la base de datos 110.

La realización que sirve de ejemplo representa cada nota marginal h de entrada como un vector V_{h}, con cada elemento v_{h}, como los elementos de los vectores de anotación, asociados con un término o un par de nombre-palabra en la nota marginal se define v_{h} como

3

donde tf_{h}, designa la frecuencia (es decir, el número total de ocurrencias) del término par de nombre-palabra asociado en la nota marginal de entrada, e idf_{H} designa la frecuencia de documento inversa del término o par de nombre-palabra asociado dentro de todas las notas marginales.

En el bloque 230, el método que sirve de ejemplo continúa con la operación del procesador de clasificación 130 (en la Figura 1). En la Figura 2 se ha representado que el propio bloque 230 comprende sub-bloques de proceso 231-237.

El bloque 231, el cual representa la operación del clasificador 131, implica calcular un conjunto de puntuaciones de similitud basadas en la similitud de texto en cada texto de nota marginal de entrada con el texto asociado con cada anotación. Concretamente, en la realización que sirve de ejemplo se mide esa similitud como el coseno del ángulo comprendido entre el vector V_{h} de nota marginal y el vector V_{a} de anotación.

Matemáticamente esto se expresa como

4

donde "\cdot" designa el operador convencional de punto - o de producto interior, y V_{a}^{'} y V_{h}^{'} designan que los respectivos vectores V_{a} y V_{h} han sido modificados para incluir elementos correspondientes a los términos o pares de nombre-palabra hallados, tanto en el texto de la anotación como en la nota marginal. En otras palabras, el producto del punto se calcula en base a la intersección de los términos o pares de nombre-palabra. ||X|| designa la longitud del argumento del vector. En esta realización, las magnitudes se calculan en base a todos los elementos del vector.

El bloque 232, el cual representa la operación del clasificador 132, implica determinar un conjunto de puntuaciones de similitud basadas en la similitud de los identificadores de clase (u otros meta-datos) asociados con la nota marginal de entrada con los asociados con cada una de las anotaciones. Antes de que sea efectuada esa determinación, cada anotación a está representada como un vector de anotación-clase V^{C}_{a} indicando cada elemento v^{C}_{a} el peso
de un identificador de clase asignado a las notas marginales citadas mediante la anotación. Cada elemento v^{C}_{a} viene definido por

5

donde tf^{C}_{a} designa la frecuencia del identificador de clase asociado, e idf^{C}_{a}. La expresión idf^{C}_{a} se define como:

6

donde N_{c} es el número total de clases o de identificadores de clase. En la realización que sirve de ejemplo, N_{c} es 91997, el número total de clases en el Sistema de Números Clave de West. df^{c} es la frecuencia del identificador de clase entre el conjunto de identificadores de clase para la anotación a. A diferencia de los vectores de anotación-texto que sirven de ejemplo, los cuales están basados en un conjunto seleccionado de notas marginales de anotación, los vectores de clase de anotación usan todos los identificadores de clase asociados con todas las notas marginales que están asociadas con la anotación. En algunas realizaciones se pueden usar pares de identificador de clase, aunque en la implementación que sirve de ejemplo se comprobó que eran contraproducentes.

Análogamente, cada nota marginal de entrada está también representada como un vector de clase de nota margi-
nal V^{C}_{h}, indicando cada elemento el peso de una clase o identificador de clase asignado a la nota marginal. Cada elemento V^{C}_{h} se define como

7

en que tf^{C}_{h} designa la frecuencia del identificador de clase, e idf^{C}_{h} designa la frecuencia de documento inversa del identificador de clase. idf^{C}_{h} se define como

8

donde N_{c} es el número total de clases o de identificadores de clase, y df_{h} es la frecuencia de la clase o del identificador de clase entre el conjunto de clases o de identificadores de clase asociados con la anotación.

Una vez establecidos los vectores de anotación-clase y de nota marginal-clase, el procesador de clasificación 130 calcula cada puntuación S_{2} de similitud como el coseno del ángulo entre ellos. Esto viene expresado por

9

Para notas marginales que tengan más de un identificador de clase asociado, la realización que sirve de ejemplo considera cada identificador de clase por separado de los otros para esa nota marginal, usando finalmente el que proporcione la máxima similitud de clase-identificador. Se usa ese criterio de máxima similitud ya que, en algunos casos, una nota marginal puede tener dos o más identificadores de clase (o clasificaciones de Número de Clave) asociados, indicando que se discuten dos o más puntos legales. Sin embargo, en la mayoría de casos solamente es relevante uno de los identificadores de clase para una anotación dada.

En el bloque 233, el clasificador 133 determina un conjunto de puntuaciones de similitud S3 en base a la probabilidad de que una nota marginal está asociada con una anotación dada procedente de estadísticas de clase-identificador (o de otros meta-datos).Esa probabilidad se obtiene aproximadamente mediante la expresión

10

donde {k}_{h} designa el conjunto de identificadores de clase asignados a la nota marginal h. Cada probabilidad de clase condicional de anotación P(k/a) se estima mediante la expresión.

11

donde tf_{(k,a)} es la frecuencia del término del identificador de clase k-ésimo entre los identificadores asociados con las notas marginales de anotación a; |a| designa el número total de identificadores de clase única asociados con la anotación a (es decir, el número de muestras o número cardinal del conjunto); y \sum\limits_{k{'}\in a}tf_{(k{'},a)} designa la suma de las frecuencias del término para todos los identificadores de clase.

La determinación que sirve de ejemplo de puntuaciones de similitud S_{3} se basa en la hipótesis de que los identificadores de clase se asignan a una nota marginal cada uno independientemente de los demás, y que solamente es realmente relevante un identificador de clase en {k}_{h} para la anotación a. Aunque la hipótesis de una clase no es válida para muchas anotaciones, mejora las actuaciones generales del sistema.

Como alternativa, se pueden multiplicar las probabilidades de identificador de clase condicional (clasificaciones por Número Clave) para la anotación, pero con ello se penalizan efectivamente las anotaciones de múltiples Números Clave (asignaciones de clase), comparadas con las clasificaciones de un solo Número Clave. En algunas otras realizaciones se hace uso de la regla de Bayes para incorporar probabilidades a priori en el clasificador 133. Sin embargo, algunos experimentos realizados con ese enfoque sugieren que las actuaciones del sistema son probablemente inferiores a las que se obtienen de esta implementación que ha servido de ejemplo.

La inferioridad puede deberse al hecho de que las anotaciones se crean en tiempos diferentes, y el hecho de que una anotación tenga más citas que otra no significa necesariamente que sea más probable que se produzca para una nota marginal dada. Ciertamente, un mayor número de citas pudiera únicamente reflejar que una anotación ha estado en existencia durante más tiempo y/o que ha sido actualizada con más frecuencia que otra. Por consiguiente, otras realizaciones pudieran usar las probabilidades anteriores en base a la frecuencia con la que se asignen números de clase a las anotaciones.

En el bloque 234, el clasificador 134 determina un conjunto de puntuaciones de similitud S_{4}, basadas en P(a|h), la probabilidad de cada anotación dada al texto de la nota marginal de entrada. Para deducir una expresión práctica para calcular P(a|h), en la realización que sirve de ejemplo se supone en primer lugar que una nota marginal de entrada h está completamente representada por un conjunto de descriptores T, estando cada descriptor t asignado a una nota marginal con una cierta probabilidad P(t|h). Entonces, en base a la teoría de la probabilidad total y al teorema de Bayes, P(a|h@) viene expresada como

12

Suponiendo que un descriptor es independiente de los identificadores de clase asociados con una nota marginal, se puede aceptar la aproximación:

13

y calcular las puntuaciones de similitud S_{4} mediante la expresión

14

donde P(t|h) viene expresada aproximadamente por

15

tf_{(t,h)} designa la frecuencia del término t en la nota marginal, y \sum\limits_{r{'}\in T}tf_{(r{'},h)} designa la suma de las frecuencias de todos los términos de la nota marginal. P(a|t) se define de acuerdo con el teorema de Bayes como

16

donde P(a) designa la probabilidad anterior para la anotación a, y P(t|a), la probabilidad de un discriminador t dada en la anotación a, se estima como

17

y \sum\limits_{a{'}\in A} designa la suma de todas las anotaciones a' en el conjunto de anotaciones A. Puesto que se ha supuesto que todas las probabilidades anteriores de anotación P(a) y P(a') son iguales, se calcula P(a|t) usando la expresión

18

El bloque 235, el cual representa la operación del generador de puntuación compuesta 135, implica calcular un conjunto de puntuaciones de similitud compuestas CS^{h}_{a} en base a los conjuntos de puntuaciones de similitud determinadas en los bloques 231-235 por los clasificadores 131-135,indicando cada puntuación compuesta la similitud de la nota marginal de entrada h con cada anotación a. Más en particular, el generador 135 calcula cada puntuación compuesta CS^{h}_{a} de acuerdo con la expresión

19

donde S^{h}_{a,i} designa la puntuación de similitud del generador de puntuación de similitud i-ésimo para la nota marginal de entrada h y la anotación a, y w_{ia} es un peso asignado al generador de puntuación de similitud i-ésimo y a la anotación a. La ejecución del método que sirve de ejemplo continúa después en el bloque 236.

En el bloque 236, el elemento de toma de decisiones de asignación 136 recomienda que la nota marginal de entrada, o un documento, tal como un caso, asociado con la nota marginal, sea clasificada o incorporada en una o más de las anotaciones basadas en el conjunto de puntuaciones completas y de criterios de decisión dentro del módulo 137 de criterios de decisión. En las realizaciones que sirven de ejemplos, la nota marginal se asigna a anotaciones de acuerdo con la siguiente regla de decisión:

(20)si CS > I^{'}_{a} recomendar entonces la asignación de h o D_{h} a la anotación a,

donde \Gamma_{a} es un umbral de una anotación específica del módulo 137 de criterio de decisión y D_{h} designa un documento, tal como una opinión legal, asociado con la nota marginal. (En la realización que sirve de ejemplo, cada anotación de ALR incluye el texto de notas marginales asociadas y su cita de caso completa).

Los pesos de anotación-clasificador w_{ia}, para i = 1 a 4, a \epsilon A, y los umbrales de anotación \Gamma_{a}, a \epsilon A, se aprenden durante una fase de sintonización. Los pesos, 0 \leq w_{ia} \leq 1, reflejan la confianza del sistema en la capacidad de cada puntuación de similitud para encaminarse a la anotación a. Análogamente, los umbrales de anotación \Gamma_{a}, a \epsilon A, son también aprendidos y reflejan la homogeneidad de una anotación. En general, las anotaciones que tratan de tópicos estrechos tienden a tener umbrales más altos que las que tratan de tópicos que tienen múltiples relaciones.

En esta realización de ALR, los umbrales reflejan que, más del 90% de las notas marginales (o de los documentos asociados) no están asignados a ninguna anotación. Concretamente, la realización que sirve de ejemplo estima los pesos óptimos de anotación-clasificador y los umbrales de anotación a través de una búsqueda exhaustiva en un espacio de cinco dimensiones. El espacio está individualizado para hacer que sea manejable la búsqueda. Los pesos óptimos son aquellos que corresponden a una máxima precisión a los niveles de llamada de al menos el 90%.

Concretando más, esto implica ensayar cada combinación de cuatro variables de peso, y ensayar, para cada combinación, 20 posibles valores de umbral en el intervalo de [0,1]. Después se selecciona la combinación de peso y umbral que produzca la mejor precisión y llamada. La realización que sirve de ejemplo excluye cualquier combinación de peso-umbral que dé por resultado menos del 90% de llamada.

Para obtener niveles de precisión más altos, la realización que sirve de ejemplo requiere, efectivamente, asignaciones para competir por sus anotaciones o clasificaciones de objetivo asignadas. Esa competencia implica el uso de la siguiente regla:

(21)Asignar H a a, si CS_{a}^{h} > \alpha \hat{S}

donde \alpha designa un valor determinado empíricamente mayor que cero y menor que 1, por ejemplo, de 0,8; \hat{S} designa la máxima puntuación de similitud compuesta asociada con una nota marginal en {H_{a}}, el conjunto de notas marginales asignadas a la anotación a.

El bloque 240 implica procesar recomendaciones de clasificación procedentes del procesador 130 de clasificación. Para este fin, el procesador 130 transfiere las recomendaciones de clasificación a la base de datos 140 de clasificación preliminar (representada en la Figura 1). La base de datos 140 clasifica la recomendación en base a la anotación, la jurisdicción, u otros criterios relevantes, y las almacena en, por ejemplo, una sola cola de "primero que entra primero que sale" (FIFO), como una cola FIFO múltiple basada en anotaciones simples o en subconjuntos de anotaciones.

Después se comunican una o más de las recomendaciones mediante petición o automáticamente, al centro de trabajo 150, concretamente a las estaciones de trabajo 152, 154, y 156. Cada una de las estaciones de trabajo presenta, automáticamente o en respuesta a la activación por el usuario, una o más interfaces de gráfico-usuario, tal como la interfaz de gráfico-usuario 152.1.

En la Figura 4 se ha representado una forma que sirve de ejemplo de interfaz 152.1 de gráfico-usuario. La interfaz 152.1 incluye ventanas presentadas o regiones simultáneamente 410, 420, 430,y botones 440-490.

La ventana 410 presenta una lista de recomendaciones 412 de identificadores de notas marginales procedentes de la base de datos 140 de clasificación preliminar. Cada identificador de nota marginal está asociado lógicamente con al menos un identificador de anotación (representado en la ventana 430). Cada uno de los identificadores de nota marginal relacionados es seleccionable usando un dispositivo de selección, tal como un teclado, o un ratón, o un micrófono. Al efectuar la selección, es destacado automáticamente, por ejemplo, mediante presentación de vídeo inversa, un identificador 412.1 de nota marginal de la lista 412. En respuesta, la ventana 420 presenta una nota marginal 422 y una cita de caso 424, que están ambas asociadas entre sí y con el identificador 412.1 de nota marginal destacado. En otra respuesta, la ventana 430 presenta al menos una parte o sección de un contorno de anotación (o jerarquía de clasificación) 432, asociado con la anotación designada por el identificador de anotación asociado con la nota marginal 412.1.

El botón 440, etiquetado como de "Nueva Sección" permite a un usuario crear una nueva sección o subsección en el contorno de la anotación. Esa característica es útil, ya que en algunos casos, una sugerencia de nota marginal es buena, pero no encaja en la sección existente de la anotación. Creando la nueva sección o subsección, se permite así una expansión conveniente de la anotación.

El botón 450 actúa para producir y para suprimir la presentación de un cajetín de texto en el que se describan las asignaciones de nota marginal hechas en la anotación actual durante la sesión actual. En la realización que sirve de ejemplo, el cajetín de texto presenta cada asignación en una forma de texto breve, tal como de <anotación o identificador de clase><identificador de subsección o de sección><identificador de nota marginal>. Esta característica es especialmente conveniente para contornos de anotación mayores que excedan del tamaño de la ventana 430 y requieran hacer desfilar el contenido de la ventana.

El botón 460, etiquetado como de "Borrar la Asignación", permite a un usuario borrar la asignación o desclasificar una nota marginal a una anotación particular. Así, si un usuario cambia de idea en relación con una clasificación anterior, no guardada, el usuario puede anular la clasificación. En algunas realizaciones, las notas marginales identificadas en la ventana 410 se dan por entendido que son asignadas a la sección de anotación particular presentada en la ventana 430, a no ser que el usuario decida que la asignación es incorrecta o inapropiada. (En algunas realizaciones, la aceptación de una recomendación implica la creación automática de hiper enlaces que enlazan la anotación con el caso y el caso con la anotación).

El botón 470, etiquetado como de "Siguiente Anotación", permite que un usuario produzca la presentación del conjunto de notas marginales recomendadas para su asignación a la siguiente anotación. Concretamente, ello implica no solamente recuperar las notas marginales del almacenamiento 140 de clasificación preliminar y presentarlas en la ventana 410, sino también presentar el contorno de la anotación relevante dentro de la ventana 430.

El botón 480 etiquetado como de "Saltar la Anotación", permite a un usuario saltar la anotación actual y sus sugerencias en su totalidad y avanzar al siguiente conjunto de sugerencias y anotación asociada. Esta característica es de particular utilidad cuando un editor desea que otro editor revise las asignaciones a una anotación particular, o si el editor desea revisar esa anotación en otro momento, por ejemplo, después de leer o estudiar el texto completo de la anotación. Las sugerencias permanecen en la base de datos 140 de clasificación preliminar hasta que son revisadas o bien retiradas. (En algunas realizaciones, las sugerencias se sellan con la hora y pueden se sustituidas por sugerencias más actuales, o bien suprimidas automáticamente después de transcurrido un período de tiempo previamente establecido, dependiendo el período de tiempo, en algunas variantes de la anotación particular).

El botón 490, etiquetado como de "Salida", permite a un editor finalizar una sesión editorial. Al finalizar, las aceptaciones y las recomendaciones se guardan en la base de datos 110 de anotaciones de ALR.

En la Figura 2 se muestra que después de procesar la clasificación preliminar, continúa la ejecución del método que sirve de ejemplo, en el bloque 250. El bloque 250 implica actualizar los criterios de decisión de clasificación. En la realización que sirve de ejemplo, eso implica contar los números de recomendaciones de clasificación aceptadas y rechazadas para cada anotación, y ajustar los umbrales de decisión específicos de anotación y/o los pesos de clasificador apropiadamente. Por ejemplo, si el 80% de las recomendaciones de clasificación para una anotación dada son rechazadas durante un día, una semana, un mes, un trimestre o un año, la realización que sirve de ejemplo puede elevar el umbral de decisión asociado con la anotación para reducir el número de recomendaciones. A la inversa, si el 80% son aceptadas, se puede bajar el umbral para asegurar que son consideradas un número suficiente de recomendaciones.

Ejemplo de Sistema para Clasificar Notas Marginales para la Jurisprudencia Americana

En la Figura 5 se muestra una variante del sistema 100 en forma de un ejemplo de sistema de clasificación 500 adaptado para facilitar la clasificación de documentos en una o más de las 135.000 secciones de la Jurisprudencia Americana (AmJur). Análogamente a como se hace en una anotación de ALR, cada sección de la AmJur cita casos relevantes, tal como éstos son entendidos por los tribunales. También, la actualización de la AmJur es labor que lleva tiempo.

Comparándolo con el sistema 100, el sistema de clasificación 500 incluye seis clasificadores: los clasificadores 131-134 y los clasificadores 510 y 520, un generador 530 de puntuación compuesta, y el elemento de toma de decisiones de asignación 540. Los clasificadores 131-134 son idénticos a los usados en el sistema 100, con la excepción de que operan sobre datos de la AmJur, frente a hacerlo con los datos de los ALR.

Los clasificadores 510 y 520 procesan el texto de la sección de la AmJur en sí mismo, en vez de un texto sustituto basado en las notas marginales citadas dentro de la sección de la AmJur. Más concretamente, el clasificador 510 opera usando las fórmulas en que se basa el clasificador 131 para generar mediciones similares basadas en los tf-idfs (frecuencia de término - frecuencia de documento inversa) de pares de nombre-palabra en un texto de la sección de la AmJur. Y el clasificador 520 opera usando las fórmulas en que se basa el clasificador 134 para generar mediciones de similitud en base a las probabilidades de un texto de sección dadas a la nota marginal de entrada.

Una vez calculadas las mediciones, cada clasificador asigna a cada sección de la AmJur una puntuación de similitud basada en una clasificación numérica de su respectivo conjunto de mediciones de similitud. Así, para cualquier nota marginal de entrada, cada uno de los seis clasificadores clasifica efectivamente las 135.000 secciones de la AmJur de acuerdo con sus similitudes con la nota marginal. Dadas las diferencias en los clasificadores y los datos en que se basan sus puntuaciones, es improbable que los seis clasificadores clasifiquen la sección de la AmJur más relevante en el puesto más alto; las diferencias en los clasificadores y en los datos que éstos usan sugieren generalmente que eso no se producirá. En la Tabla 1 se ha representado un listado clasificado parcial de secciones de la AmJur, en el que se muestra como para cada clasificador se ha puntuado, o clasificado, su similitud con una nota marginal dada.

TABLA 1 Listado Clasificado Parcial de Seccione de la Am-Jur Basado en la Media de Seis Puntuaciones de Similitud

20

El generador 530 de puntuación compuesta genera una puntuación de similitud compuesta para cada sección de la AmJur basada en su correspondiente conjunto de seis puntuaciones de similitud. En la realización que sirve de ejemplo, ello implica calcular la media de las seis puntuaciones para cada sección de la AmJur. Sin embargo, en otras realizaciones se puede calcular un promedio ponderado uniformemente o no uniformemente de los seis puestos o de un subconjunto de los seis puestos. Todavía en otras realizaciones se puede seleccionar el máximo, el mínimo o la moda como puntuación compuesta para la sección de la AmJur. Después de generar las puntuaciones compuesta, el generador de puntuación compuesta envía los datos que identifican la sección de la AmJur asociados con la puntuación compuesta más alta, la puntuación compuesta más alta, y la nota marginal de entrada, al elemento de toma de decisiones de asignación 540.

El elemento de toma de decisiones de asignación 540 proporciona una parte fija de recomendaciones de clasificación de nota marginal a la base de datos 140 de clasificación preliminar, en base al número total de notas marginales de entrada por cada período de tiempo fijo. El número y el período de tiempo fijo que regulan el número de recomendaciones se determinan de acuerdo con los parámetros que están dentro del módulo 137 de criterios de decisión. Por ejemplo, en una realización se clasifican todas las notas marginales que llegan durante el período de tiempo, en base a sus puntuaciones compuestas, y se recomiendan solamente aquellas notas marginales que puntúan en el 16% superior.

En algunos casos, más de una nota marginal puede tener una puntuación compuesta que sea igual a un umbral de corte dado, tal como el del 16% superior. Para garantizar unan mayor precisión en esas circunstancias, en la realización que sirve de ejemplo se reordenan todos los pares de nota marginal-sección que coincidan con el umbral de corte, usando las seis puntuaciones de clasificador reales.

Esto implica convertir las seis puntuaciones de clasificador para un par particular de nota marginal-sección en seis puntuaciones Z, y multiplicar después las seis puntuaciones Z para un par particular de nota marginal-sección para producir una sola medida de la similitud (las puntuaciones Z se obtienen suponiendo que cada puntuación de clasificador tiene una distribución normal, estimando la desviación media y la desviación típica de la distribución, y restando luego la media de la puntuación del clasificador y dividiendo el resultado por la desviación típica). Los pares de nota marginal-sección que satisfagan los criterios de aceptación son luego reordenados, o reclasificados, de acuerdo con esta nueva medida de la similitud, con tantos como sean necesarios para conseguir el número deseado de recomendaciones totales que sean enviadas a la base de datos 140 de clasificación preliminar. (En otras realizaciones se puede aplicar esa "reordenación" a todos los pares de nota marginal-sección, y filtrarlos después en base a los criterios de aceptación necesarios, para obtener el número deseado de recomendaciones).

Ejemplo de Sistema para Clasificar Notas Marginales en el Sistema de Números Clave de West

En la Figura 5 se ha representado otra variante del sistema 100 en forma de un ejemplo de sistema de clasificación 500 adaptado para facilitar la clasificación de las notas marginales de entrada en clases del Sistema de Números Clave de West. El Sistema de Números Clave es un sistema de clasificación jerárquica con 450 clases de nivel superior, las cuales están además subdivididas en 92.000 subclases, que cada una tiene un identificador de clase único. En comparación con el sistema 100,el sistema 600 incluye clasificadores 131 y 134, un generador 610 de puntuación compuesta, y un elemento de toma de decisiones de asignación 620.

De acuerdo con las realizaciones anteriores, los clasificadores 131 y 134 modelan cada nota marginal de entrada como un vector de características de los pares de nombre-palabra y cada identificador de clase como un vector de características de pares de nombre-palabra extraídos de las notas marginales asignadas al mismo. El clasificador 131 genera puntuaciones de similitud en base a los productos tf-identificador para pares de nombre-palabra en las notas marginales asignadas a cada identificador de clase y a una nota marginal de entrada dada. Y el clasificador 134 genera puntuaciones de similitud basadas en las probabilidades de un identificador de clase dadas a la nota marginal de entrada. Por consiguiente, el sistema 600 genera más de 184.000 puntuaciones de similitud, representando cada puntuación la similitud de la nota marginal de entrada con uno respectivo de los más de 92.000 identificadores de clase en el Sistema de Números Clave de West, usando uno respectivo de los clasificadores.

El generador de puntuación compuesta 610 combina las dos medidas de similitud para cada posible par de nota marginal-identificador de clase, para generar una puntuación de similitud compuesta respectiva. En la realización que sirve de ejemplo, esto implica definir, para cada clase o identificador de clase, dos histogramas acumulativos normalizados (uno por cada clasificador) basados en las notas marginales ya asignadas a la clase. Estos histogramas se aproximan a las correspondientes funciones de densidad acumulativas, permitiendo que se pueda determinar la probabilidad de que un porcentaje dado de los identificadores puntúen por debajo de una cierta puntuación de similitud.

Más en particular, los dos histogramas normalizados acumulativos para el identificador de clase c, basados en los clasificadores 131 y 134, se han designado, respectivamente por F^{1}_{c} y F^{2}_{c} y se han estimado de acuerdo con

21

y

22

donde c designa una clase o identificador de clase particular;

s = 0, 0,01, 0,02, 0,03, ..., 1,0; F(s < 0) = 0; M_{c} designa el número de notas marginales clasificadas en, o asociadas con, la clase o el intervalo de clase c; |{B}| designa el número de elementos en el conjunto B h_{i}, i = 1, ..., M_{c} designa el conjunto de notas marginales ya clasificadas o asociadas con la clase o el identificador de clase c; S^{1}_{i} designa la puntuación de similitud para la nota marginal h_{i} y el identificador de clase c, medida por el clasificador 131, y S^{2}_{i} designa la puntuación de similitud para la nota marginal h_{i} y el identificador de clase c, medida por el clasificador 134. (En este contexto, cada puntuación de similitud indica la similitud de una nota marginal asignada dada con todas las notas marginales asignadas a la clase c. En otras palabras |{h_{i}|S^{1}_{i} = s}| designa el número de notas marginales asignadas a la clase c que han recibido una puntuación de s del clasificador 131 y |{h_{i}|S^{2}_{i} = s}| designa el número de notas marginales asignadas a la clase c que han recibido una puntuación de s del clasificador 134.

Por lo tanto, para cada posible valor de puntuación (entre 0 y 11 con un espaciamiento de puntuación particular), Cada histograma proporciona el porcentaje de notas marginales asignadas que puntúan más alto y más bajo que esa puntuación particular. Por ejemplo, para el clasificador 131, el histograma para el identificador de clase c podría mostrar que el 60% del conjunto de notas marginales asignadas al clasificador c puntuaron más alto que 0,7, en comparación con el conjunto de notas marginales en su totalidad; mientras que para el clasificador 134 el histograma podría mostrar que el 50% de las notas marginales asignadas puntuaron más alto que 0,7.

A continuación, el generador de puntuación compuesta 610 convierte cada puntuación para la nota marginal de entrada en una puntuación de similitud normalizada usando el correspondiente histograma, y calcula cada puntuación compuesta para cada clase en base a las puntuaciones normalizadas. En la realización que sirve de ejemplo, esa conversión implica representar cada puntuación de clasificador en el correspondiente histograma, para determina su probabilidad acumulativa, y multiplicar después las probabilidades acumulativas de los respectivos pares de puntuaciones asociados con una clase c dada, para calcular la respectiva puntuación de similitud compuesta. El conjunto de puntuaciones compuestas para la nota marginal de entrada son luego procesadas por el elemento de toma de decisiones de asignación 620.

El elemento de toma de decisiones de asignación 620 envía un número fijo de los identificadores de clase de puntuación superior a la base de datos 140 de clasificación preliminar. En las realizaciones que sirven de ejemplos se sugiere que los identificadores de clase tengan las cinco puntuaciones de similitud compuesta más altas por cada nota marginal de entrada.

Ejemplos de otras aplicaciones

Los componentes de los diversos sistemas que sirven de ejemplos pueden ser combinados en miles de formas para formar otros sistemas de clasificación de mayor o de menor complejidad. Además, los componentes y los sistemas pueden ser adaptados especialmente para otros tipos de documentos que no sean las notas marginales. Ciertamente, los componentes y sistemas y las enseñanzas y los principios de operación incorporados son relevantes para virtualmente cualquier contexto de clasificación de textos o de datos.

Por ejemplo, se pueden aplicar uno o más de los sistemas que sirven de ejemplos y de las variantes relacionadas para clasificar mensajes electrónicos de voz y de correo. Algunos sistemas de clasificación de correo pueden incluir uno o más clasificadores en combinación con reglas convencionales, los cuales clasifican los mensajes como útiles o como SPAM (Correo basura) en base a que el remitente esté en su guía de direcciones, sean del mismo dominio que el destinatario, etc.

Apéndice A

Ejemplos de Palabras que se Omiten o se Abrevian

a a.m., ab, alrededor, encima, en consecuencia, a través, ab, después, más tarde, más adelante, de nuevo, contra, hace, ah, adelante, ¿no soy yo?, todo, permite, casi, solo, a lo largo, ya, está bien, también, también, aunque, siempre, soy, entre, uno/a, y, y/o, de nuevo, otro, ante, cualquiera, cualquier persona, de cualquier persona, en cualquier caso, no más, alguno, de alguno, algo de algo, en cualquier momento, de cualquier momento, de cualquier modo, en todo caso, en alguna parte, de alguna parte, de cualquier modo, parece, aproximadamente, son, no son, alrededor, como, asociado/a, en, disponible, fuera, terrible, por un tiempo, b banco, ser, se hizo, porque, se hacen, se hace, se está haciendo, sido, antes, de antemano, en nombre de, detrás, estando, debajo, junto a, además, el mejor, mejor, entre, más allá, ambos breve, pero por, por el, c vino, puede, no puede, causar, causa, cierto, ciertamente, cetera, cf, ch, cambio, cambia, cit, cl, claramente, cmt, co, concerniente, por consiguiente, considerar, contener, conteniendo, contiene, contra, correspondiente, podría, no podría, curso, curia, actualmente, d día, días dba, de, des, descrito, di, did, no lo hice, diferente, buceadores, hacer, hace, no hace, haciendo, no, hecho, bajo, hacia abajo, dr, du, durante, e por ejemplo, cada, ed, eds, eg, ocho, dieciocho, ochenta, uno u otro, una vez, otra cosa, en otro lugar, bastante, especialmente, et, etc, incluso, siempre, siempre más, cada, todo el mundo, de todo el mundo, cada uno, de cada uno en cada lugar, todo, de todo, en todas partes, de todas partes, ejemplo, excepto, f facie, facto, lejos, pocos, menos, fé, fides, seguido, siguiente, sigue, para, forma, anterior, anteriormente, yendo directamente al punto, inmediatamente, con mayor razón, fro, desde, más, además, g obtener, obtiene, obteniendo, dado, da, ir, va, yendo, ido, obtener, obtenido, h tenía, no tenía, sucede, apenas, tiene no tiene, teniendo, él, él debería, él deberá, él es, hola, por consiguiente, en consecuencia, ella, aquí, aquí está, aquí alrededor, aquí en los alrededores, después de eso, antes de eso, por la presente, aquí mismo, en lo que sigue, en lo que antecede, aquí más abajo, de aquí, para aquí, de aquí en adelante, aquí más abajo, aquí incluido, que aquí consta, junto con la presente, su (de ella), ella misma, hey, hola, él, él mismo, su (de él), por aquí, hasta la fecha, hoc, hon, como, no obstante, sin embargo, como quiera que sea, ciento, i yo debería, yo deberé, yo estoy, yo he, es decir, ibid, ibídem, id, es decir, si, ignorado, ii, iii, illus, inmediato, en, por cuanto, inc, ciertamente, indicar, indicado, indica, infra, inicio, en la medida en que, en vez, int, el, dentro, intra, hacia dentro, ipsa, es, no es, ello, ello es, su, sí mismo, iv, ix, j jr, judicata, justo, k mantener, mantenido, clase de, saber, sabido, sabe, l la, último, más tarde, tardío, tarde, le, el mínimo, les, menos, a menos que, dejar, dejemos, como, igualmente, tapa, m señora, muchos, puede, puede ser, mi, mientras tanto, entre tanto, mero, podría, millón, más, además, el que más, mayormente, motu, señor, señora, señorita, mucho, debe, mi, mí mismo, n nombre, a saber, cero, cerca, necesario, ni, nunca, nunca más, no obstante, nuevo, siguiente, no, ninguno, nadie, de ningún modo, nom, ninguno, ni, normalmente, nos, no, nada, novo, ahora, en/a ninguna parte, o en punto, de, ofa, fuera, de su, frecuentemente, a menudo, del, de este, oh, sobre, una vez, uno, de uno, unos, uno mismo, solamente, encima de, sobre, op, o, otro, otros, de otro modo, debería, nuestro, el nuestro, nosotros mismos, fuera, en el exterior, sobre, sobre todo, en general, propio, p post-meridiam, p.s., par, para, pars, paras, una parte, particular, particularmente, por aquí y por allá, per, por ventura, tanto por ciento, por casualidad, a la fuerza, quizás, página, páginas, situado, por favor, plus, posible, pp, probablemente, proporciona, q bastante, r rata, más bien, realmente, rel, relativamente, rem, res, resp, respectivamente, derecho, s sa, dicho, mismo, dice, se, segundo, visto, enviado, serio, varios, deberá, tu deberás, ella, ella deberá, él deberá, debería, no debería, desde, señor, así, alguno, alguien, de alguien, de algún modo, algo, de algo, alguna vez, algunas veces, algo, en alguna parte, de alguna parte, especificado, especificar, especificando, aún, tal, diversos, sup, t tomar, tomado, tam, que, ese, eso es, el, su, el suyo, ellos, ellos mismos, entonces, de allí, desde entonces, desde ahí en adelante, hay después, por ello, para eso, por lo tanto, de ahí, ahí, de ese, ahí encima, hay, a ello, de aquí en adelante, en seguida, en ese punto, con ello, estos, ellos, they'll, cosa, cosas, tercero, este, allí, a través, a fondo, aquellos, aunque, tres, a través de, así, atestiguar, junto, demasiado hacia, en dirección a, u uh, a menos que, hasta, arriba, sobre, hacia arriba, usado, útil, usando, usualmente, v v.s, valor, varios muy vi, vía, vii, viii, virtualmente, vs, w fue, no fue, camino, nosotros, nosotros deberíamos, nosotros deberemos, nosotros estamos, nosotros tenemos que, bien, fue, estaban, no estaban, qué, qué será, qué es, cualquiera, de cualquier tipo, cuando, desde cuando, siempre que, dónde, después de lo cual, mientras que, en vista de lo cual, por esa razón, de dónde, en que, de lo cual, en que, donde quiera que esté, a qué lugar, según lo que, con lo cual, sobre lo cual, en cualquier caso, con lo que, si, el cual, cualquiera que sea, mientras, a dónde, quien, quién sería, quién será, quién es, quienquiera que sea, totalidad, totalmente, en su totalidad, quien, de quién es, cuyo, por qué, será, con, dentro, sin, no será, sería, no sería, x, y todos ustedes, todos vosotros, ye, sí, vosotros (ustedes) todos, sí, sin embargo, tu/usted, usted será, usted es, usted ha, suyo, el de usted, usted mismo, ustedes mismos, z.

Conclusión

Como avance en la técnica, los inventores han presentado varios ejemplos de sistemas métodos y software que facilitan la clasificación de textos, tales como notas marginales o casos legales asociados, en un sistema de clasificación, tal como el representado por las anotaciones en los casi 14.000 ALR. El sistema que sirve de ejemplo clasifica o efectúa recomendaciones de clasificación en base a las similitudes de texto y de clase y a relaciones probabilísticas. El sistema proporciona también una interfaz de gráfico-usuario para facilitar el procesado editorial de las clasificaciones recomendadas y actualizar así automáticamente las colecciones de documentos, tales como los Informes Legales Americanos (ALR), la Jurisprudencia Americana y muchos otros.

Las realizaciones descritas en lo que antecede están destinadas únicamente a ilustrar y a dar a conocer una o más formas de poner en práctica o implementar el presente invento, y no a limitar su campo ni su alcance. El alcance real del invento, el cual abarca todas las formas de poner en práctica o implementar las enseñanzas del invento, queda definido únicamente por las reivindicaciones que siguen.

Claims

```
\global\parskip0.950000\baselineskip
```
1. Un sistema informatizado (100) para clasificar textos de entrada (126, 128) en un sistema de clasificación por objetivos que tiene dos o más clases de objetivos (122.1, 124.1, 126.1, 128.1), comprendiendo el sistema:

* medios (131, 132, 133, 134) para determinar para cada una de las clases de objetivos al menos una primera y una segunda puntuación basadas en el texto de entrada y en la clase de objetivos, usando los respectivos métodos primero y segundo de clasificación; y que se caracterizan por comprender:

* medios (135) para determinar, para cada una de las clases de objetivos, una puntuación compuesta correspondiente en base a la primera puntuación escalada mediante un primer peso específico de clase para la clase de objetivos, y a la segunda puntuación escalada mediante un segundo peso específico de clase para la clase de objetivos; y

* medios (136, 137) para determinar para cada una de las clases de objetivos si se ha de clasificar o recomendar la clasificación del texto de entrada a la clase de objetivos en base a la correspondiente puntuación compuesta y a un umbral de decisión específico de la clase para la clase de objetivos.
2. Un método implementado por ordenador para clasificar textos de entrada (126, 128) en un sistema de clasificación por objetivos que tiene dos o más clases de objetivos (122.1, 124.1, 126.1, 128.1), comprendiendo el método:

para cada clase de objetivo:

* determinar puntuaciones primera y segunda en base al texto de entrada y a la clase de objetivos, usando respectivos métodos de clasificación primero y segundo; y que se caracterizan por:

para cada clase de objetivo:

* determinar una puntuación compuesta en base a la primera puntuación escalada mediante un primer peso específico de clase para la clase de objetivos, y a la segunda puntuación escalada mediante un segundo peso específico de clase para la clase de objetivos; y

* determinar si se ha de identificar el texto de entrada para clasificación en la clase de objetivos en base a la puntuación compuesta, y un umbral de decisión específico de la clase para la clase de objetivos.
3. El método según la reivindicación 2:

* en el que la determinación de las puntuaciones primera y segunda para cada clase de objetivo comprende:

\medcirc

determinar la primera puntuación en base a la similitud de al menos una o más partes del texto de entrada con el texto asociado con la clase de objetivos; y

\medcirc

determinar la segunda puntuación en base a la similitud de un conjunto de una o más clases no de objetivos asociadas con el texto de entrada, con un conjunto de una o más clases no de objetivos asociadas con la clase de objetivos;

* en que el método comprende además determinar, para cada clase de objetivos:

\medcirc

una tercera puntuación basada en la probabilidad de la clase de objetivos dada a un conjunto de una o más clases no de objetivos asociadas con el texto de entrada; y

\medcirc

una cuarta puntuación basada en la probabilidad de la clase de objetivos dada a al menos una parte del texto de entrada; y

* en que la puntuación compuesta está además basada en la tercera puntuación escalada mediante un tercer peso específico de clase para la clase de objetivos y la cuarta puntuación escalada mediante un cuarto peso específico de clase para la clase de objetivos.
4. El método según la reivindicación 2:

* en el que el texto de entrada está asociado con primeros meta-datos y cada clase de objetivos está asociada con segundo meta-datos; y

* en el que al menos una de las puntuaciones primera y segunda está basada en los primeros meta-datos y en los segundos meta-datos.
5. El método según la reivindicación 4, en el que los primeros meta-datos comprenden un primer conjunto de clases no por objetivos que están asociadas con el texto de entrada, y los segundos meta-datos comprenden un segundo conjunto de clases no por objetivos que están asociadas con la clase de objetivos.
```
\global\parskip1.000000\baselineskip
```
6. El método según la reivindicación 2, que comprende:

para cada clase de objetivos (122.1, 124.1, 126-1, 128.1):

* proporcionar al menos un primer y un segundo pesos específicos de clase y un umbral de decisión específico de clase; y

* usar al menos un primer y un segundo métodos de clasificación para determinar las respectivas puntuaciones primera y segunda en base al texto de entrada y a la clase de objetivos.
7. El método según la reivindicación 2 ó 6, en el que una al menos de las puntuaciones primera y segunda está basada en un conjunto de uno o más pares de nombre-palabra asociados con el texto de entrada y un conjunto de uno o más pares de nombre-palabra asociados con la clase de objetivos, en que al menos un par de nombre-palabra de cada conjunto incluye un nombre y una palabra no adyacentes.
8. El método según la reivindicación 6, en el que proporcionar cada primer y cada segundo peso específico de clase y umbral de decisión específico de clase comprende buscar una combinación de pesos específicos de clase primero y segundo y umbrales de decisión específicos de clase que produzcan un nivel predeterminado de precisión para un nivel predeterminado de llamada, basado en el texto clasificado en el sistema de clase de objetivos.
9. El método según la reivindicación 6, en el que un sistema de clasificación no de objetivos incluye dos o más clases no de objetivos, y una al menos una de las puntuaciones primera y segunda está basada en una o más de las clases no de objetivos, que están asociadas con el texto de entrada y una o más de las clases no de objetivos que están asociadas con la clase de objetivos.
10. El método según la reivindicación 9:

* en el que el texto de entrada es una nota marginal (126, 128) para un documento legal; y

* en el que el sistema de clase de objetivos y el sistema de clasificación no por objetivos son sistemas de clasificación legal.
11. El método según la reivindicación 6, en el que el sistema de clasificación por objetivos incluye más de 1000 clases de objetivos.
12. El método según la reivindicación 6, que comprende además:

* presentar una interfaz de usuario gráfico (152.1) que incluye regiones primera y segunda (410, 420), presentando o identificando la primera región al menos una parte del texto de entrada, y presentando la segunda región información relativa al sistema de clasificación por objetivos y al menos una clase de objetivos en la cual se recomendaba la clasificación del texto de entrada; y

* presentar una característica seleccionable (412) en la interfaz de usuario gráfica, en que la selección de la característica inicia la clasificación del texto de entrada en esa una clase de objetivos.
13. Un medio legible a máquina que comprende instrucciones para implementar el método de la reivindicación 2 ó 6.
14. El método según la reivindicación 2, en el que las puntuaciones primera y segunda se seleccionan del grupo consistente en:

* una puntuación basada en la similitud de al menos una o más partes del texto de entrada con texto asociado con la clase de objetivos;

* una puntuación basada en la similitud de un conjunto de una o más clases no de objetivos asociadas con el texto de entrada, y un conjunto de una o más clases no de objetivos asociadas con la clase de objetivo;

* una puntuación basada en la probabilidad de la clase de objetivos dada a un conjunto de una o más clases no de objetivos asociadas con el texto de entrada; y

* una puntuación basada en la probabilidad de la clase de objetivos dada a una parte al menos del texto de entrada.
15. El método según la reivindicación 14, en el que cada clase de objetivos (122.1, 124.1, 126.1, 128.1) es un documento y el texto asociado con la clase de objetivos comprende texto del documento o texto de otro documento asociado con la clase de objetivos.
```
\newpage
```
16. El método según la reivindicación 2, que comprende además:

* actualizar el umbral específico de clase para una de las clases de objetivos en base a la aceptación o rechazo de clasificaciones recomendadas del texto de entrada.
17. El método según la reivindicación 2, que comprende además:

* identificar uno o más pares de nombre-palabra en una parte de texto.
18. El método según la reivindicación 17, en el que la identificación de uno o más pares de nombre-palabra en la parte de texto comprende:

* identificar un primer nombre en la parte de texto; y

* identificar una o más palabras dentro de un número predeterminado de palabras del primer nombre.
19. El método según la reivindicación 18, en el que la identificación de una o más palabras dentro de un número predeterminado de palabras del primer nombre comprende excluir un conjunto de una o más palabras de las que se omiten o se abrevian generalmente.
20. El método según la reivindicación 17, en el que la parte de texto es un párrafo.
21. El método según la reivindicación 17, que comprende además:

* determinar una o más puntuaciones basadas en las frecuencias de uno o más de los pares de nombre-palabra identificados en la parte de texto, y uno o más pares de nombre-palabra en texto asociado con una de las clases de objetivos.
22. El método según la reivindicación 21, en el que la determinación de una o más puntuaciones basadas en uno o más de los pares de nombre-palabra identificados, y uno o más pares de nombre-palabra en otro texto asociado con una de las clases de objetivos, comprende:

* determinar un peso respectivo para cada par de nombre-palabra identificado, con el peso respectivo basado en el producto de una frecuencia del término del par de palabra-nombre identificado en el texto, y una frecuencia de documento inversa de los pares de nombre-palabra en el otro texto asociado con una de las clases de objetivos.
23. El método según la reivindicación 2, que comprende además:

* identificar un primer conjunto de pares de nombre-palabra en el texto de entrada, incluyendo el primer conjunto al menos un par de nombre-palabra formado por un nombre y una palabra no adyacentes en el texto de entrada;

* identificar dos o más segundos conjuntos de pares de nombre-palabra, incluyendo cada segundo conjunto al menos un par de nombre-palabra formado por un nombre y una palabra no adyacentes en texto asociado con una respectiva de las clases de objetivos:

* determinar un conjunto de puntuaciones basadas en los conjuntos primero y segundo de pares de nombre-palabra; y

* clasificar o recomendar la clasificación del texto de entrada en una o más de las clases de objetivos, en base al conjunto de puntuaciones.