BRPI0203479B1

BRPI0203479B1 - Sistema para enriquecer conteúdo de documento

Info

Publication number: BRPI0203479B1
Application number: BRPI0203479-4A
Authority: BR
Inventors: Gregory T Grefenstette; James G Shanahan; Christer Fernstrom; Laurence Hubert; Nicolas Guerin
Original assignee: Xerox Corp
Priority date: 2001-08-13
Filing date: 2002-08-13
Publication date: 2015-06-09
Also published as: US20030033287A1; JP2003114906A; JP4365074B2; US6732090B2; BR0203479A; EP1284461A1

Description

Relatório Descritivo da Patente de Invenção para "SISTEMA PARA ENRIQUECER CONTEÚDO DE DOCUMENTO".

Antecedentes da Invenção A invenção refere-se, de maneira geral, ao gerenciamento e ao uso de documentos, e, em particular ao gerenciamento e ao uso aperfeiçoados de documentos que podem atuar como agentes, gerando solicitações para informação, procurando, recuperando e empacotando então respostas para enriquecer os documentos, enquanto facilitam a compreensão de leitura, as relações de entendimento com outros documentos, e a criação de conteúdo. Em particular, esta invenção refere-se a um servidor de metado-cumento com personalidades definíveis pelo usuário. O gerenciamento do conhecimento através do gerenciamento de documentos forma uma parte importante do ciclo de vida de criação e compartilhamento de conhecimento. Um modelo típico de criação e compartilhamento de conhecimento é cíclico, consistindo em três etapas principais: da sintetização (pesquisa, agrupamento, aquisição e assimilação), do compartilhamento (apresentação, publicação/distribuição), e de serviços (facilitar o uso de documentos para a formação de decisão, criatividade inovativa). A maioria dos sistemas considera os documentos como objetos estáticos que apenas adquirem novo conteúdo, quando influenciados por um usuário autorizado. A decisão de um usuário ler e modificar um documento ou executar um programa no mesmo que pode mudar seus conteúdos (por exemplo, com a adição de hiperligações), é necessária para que o documento adquira nova informação. Esta vista do documento como um repositório passivo leva à situação comum na qual documentos permanecem estáticos, a menos que um usuário esteja defronte a uma tela pilotando o sistema. Não obstante estes processos existentes para estaticamente e ativamente enriquecer o conteúdo de documentos, continua a existir a necessidade de se prover uma arquitetura aperfeiçoada de enriquecimento de documento que permite o uso ubíquo de serviços de enriquecimento de documento. Tal arquitetura aperfeiçoada de enriquecimento de documento vantajosamente proveria processos para facilitar o uso de tais serviços com a conexão, o monitoramento e a sugestão automáticos de tais serviços para usuários.

Sumário da Invenção De acordo com a invenção, é provido um sistema, e um processo para o mesmo, para enriquecer conteúdo de documentos. O sistema inclui uma interface de usuário para especificar uma personalidade que define um conjunto de solicitações de serviço de documento que identificam os temas de enriquecimento. Um usuário-gerenciador recebe o conteúdo de documentos e a personalidade especificada na interface do usuário. O usuário-gerenciador forma um metadocumento com o conteúdo de documento e a personalidade. Um escalonamento seleciona uma solicitação de serviço de documento a partir do conjunto para iniciar e gerenciar a comunicação com um provedor de serviço para satisfazer o serviço de documento selecionado. Um gerenciador de conteúdo integra os resultados originários do serviço de documento selecionado no metadocumento como marca de documento. A interface do usuário, o usuário-gerenciador, o escalonamento, e o gerenciador de conteúdo operam juntos para gerar ou recomendar novas personalidades ou modificar as personalidades existentes com o uso de uma ou mais na combinação de um conjunto de computações algébricas, um conjunto de referências de documento, um conjunto de personalidades predefinidas, um conjunto de personalidades de aprendizado, um nível de conhecimento, e uma classificação de personalidades.

Breve Descrição dos Desenhos Estes e outros aspectos da invenção se tornarão evidentes a partir da seguinte descrição lida em conjunção com os desenhos anexos, nos quais numerais de referência semelhantes foram aplicados a partes semelhantes e nos quais: A Figura 1 é uma vista esquemática de um metadocumento, de acordo com uma concretização da invenção. A Figura 2 ilustra um diagrama de bloco de um sistema que incorpora um servidor de metadocumento. A Figura 3 é uma vista esquemática de enriquecimento de meta-documento, de acordo com uma concretização da invenção. A Figura 4 ilustra um exemplo de enriquecimento de metadocu-mento, conforme ilustrado na Figura 3. A Figura 5 ilustra uma interface de cliente para acessar o servidor de metadocumento mostrado na Figura 2. A Figura 6 ilustra uma ampliação da janela 1014 mostrada na Figura 5 para uma personalidade de arquitetura na qual são selecionadas personalidades de casas de fardos de feno e casas de pneumáticos. A Figura 7 ilustra um exemplo de uma janela de propriedades 1210 que é exibida quando o botão de configuração de propriedades 1022 é selecionado na Figura 5. A Figura 8 ilustra uma concretização de uma interface de cliente para criar e/ou modificar personalidades. A Figura 9 ilustra uma janela de cliente para especificar propriedades de pesquisas executadas no serviço de recuperação de informação definido na Figura 8. A Figura 10 ilustra outra concretização de uma interface de cliente para criar e/ou modificar personalidades. A Figura 11 ilustra uma interface de cliente para criar e/ou modificar personalidades através da execução de operações para grupos de personalidades. A Figura 12 é um diagrama de fluxo que ilustra etapas para gerar uma personalidade. A Figura 13 ilustra um exemplo de um documento expandido 1800, desenvolvido com o abaixamento de dois níveis. A Figura 14 ilustra um formulário que pode ser usado para criar serviços. A Figura 15 ilustra quatro serviços que podem ser gerados com o uso do formulário mostrado na Figura 14. A Figura 16 é um diagrama de fluxo que descreve um processo para filtrar serviços no procedimento 1716, na Figura 12. A Figura 17 ilustra uma representação gráfica de um processo de seleção para selecionar serviços com a mais alta medida de similaridade. A Figura 18 é um diagrama de fluxo que descreve outro processo para filtrar serviços no procedimento 1716, na Figura 12. A Figura 19 é um digrama de fluxo que descreve uma concretização para identificar uma resposta de uma pergunta exemplificativa. A Figura 20 ilustra uma lista de exemplos de serviços disponíveis, quando uma personalidade de aprendizado de linguagem é selecionada para enriquecer conteúdo de documento. A Figura 21 ilustra uma lista de exemplo de serviços disponíveis, quando uma personalidade de aprendizado de linguagem é selecionada para enriquecer conteúdo de documento. A Figura 22 ilustra uma interface de cliente para seletivamente especificar personalidade e/ou comportamentos de serviço para entidades reconhecidas no conteúdo especificado ou documentos. A Figura 23 ilustra um categorizador de texto. A Figura 24 ilustra um recomendador de personalidade.

Descrição Detalhada A. Definição dos Termos Os termos definidos abaixo apresentam significados indicados por todo este pedido, incluindo as reivindicações: "Anotar" é usado aqui para indicar a criação de uma referência entre uma entidade em um documento, ou região de um documento, e algum conjunto de links, segmento de texto, imagens, ou dados embutidos (por exemplo, glifos). "Recuperação de Conteúdo" é usado aqui para indicar uma anotação que consiste em conteúdo obtido com o seguimento de uma série de um ou mais links e com a recuperação de seu conteúdo, cujo conteúdo pode ser filtrado ou reformatado depois da recuperação.

Um "documento" é usado aqui para indicar um registro de informação eletrônico (por exemplo, digital) ou físico (por exemplo, papel). Em sua forma eletrônica, um documento pode incluir dados de imagem, dados de áudio, ou dados de vídeo: Os dados de imagem podem incluir texto, gráficos ou mapas de bits. "Marca" de documento é usado aqui para indicar a anotação aplicada a um documento.

Uma "alma de documento" é usada aqui para indicar uma personalidade que permanece conectada a um documento por um período prolongado de tempo que pode ser indefinido ou pré-especificado de duração finita. "Enriquecer" é usado aqui para indicar uma anotação de um documento de acordo com uma personalidade predefinida. "Entidade" é usado aqui para indicar algo reconhecido em um documento (por exemplo, o nome de uma pessoa, uma localização, um termo médico, uma entidade de gráficos que pode incluir dados de imagem, dados gráficos, dados de áudio ou dados de vídeo) que pode se apresentar na forma de uma imagem, texto, dados embutidos, HTML, etc. "Espaço de informação" é usado aqui para indicar todo o conjunto de anotações associadas com uma entidade, um segmento de documento, um documento, ou um conjunto de documentos.

Um "Léxico" é usado aqui para indicar uma estrutura de dados, programa, objeto ou dispositivo que indica um conjunto de palavras que podem ocorrer em um conjunto de linguagem natural. Um léxico pode ser considerado como "aceitando" uma palavra que ele indica, e essas palavras podem assim ser denominadas de "aceitáveis" ou podem ser mencionadas como "constantes" do léxico ou "que ocorrem" no léxico.

Uma "ligação" é usada aqui para indicar, por meio de exemplo, um URL (Localizador de Recursos Uniformes) associado com um segmento de texto ou um segmento de imagem.

Uma "personalidade" é usada aqui para indicar um conjunto temático de serviços que pode ser aplicado para enriquecer um documento.

Um "serviço" é usado aqui para indicar um programa que apresenta uma nova marca com base no conteúdo e nos metadados em um documento em seu estado comum. Por exemplo, o programa pode identificar entidades em um documento* e anotar cada entidade com dados associados a essa entidade (por exemplo, em um banco de dados). Por exemplo, um serviço pode enriquecer um documento com informação externa e/ou acrescentar novos serviços.

Um "segmento de texto" é usado aqui para indicar uma seqüên-cia contínua de bytes em um documento, ou um grupo de tais segmentos. B. Características Gerais Um diagrama de bloco de um metadocumento ou "alma de documento" 100 é mostrado na Figura 1. O metadocumento 100 inclui um identificador 101, uma porção de conteúdo 102, que é um documento criado por um usuário ou obtido por um usuário, e uma personalidade 104. A personalidade 104 é um conjunto de uma ou mais solicitações de serviço de documento 106 e um banco de dados de entidade 111.0 banco de dados da entidade pode incluir um ou mais bancos de dados de entidade separados, onde cada banco de dados de entidade identifica uma classe de entidades (por exemplo, nomes de pessoas, nomes de cidade, nomes de estabelecimentos comerciais, etc.). Em uma concretização, a personalidade 104 não inclui o banco de dados de entidade 111, mas, ao invés disso, inclui solicitações de serviço de documento que identificam entidades. Em outra concretização, o banco de dados de entidade 111 registra entidades centrais de documento (isto é, entidades que se referem exclusivamente ao conteúdo de documento 102) que são especificadas por um usuário ou pelo sistema. Será apreciado por aqueles versados na técnica que as solicitações de serviço de documento 106 e o(s) banco(s) de dados de entidade 111 que faz(em) parte do metadocumento 100 podem incluir o conteúdo de uma solicitação de serviço de documento e um banco de dados de entidade e/ou podem incluir referências a uma solicitação de serviço de documento e um banco de dados de entidade (por exemplo, no banco de dados de serviços 210). O identificador 101 pode incluir outros dados administrativos, tais como criador, proprietário, tamanho, permissões de acesso, etc. B.1 O Ciclo de Gerenciamento de Conhecimento A Figura 2 ilustra um sistema de gerenciamento de metadocu- mento 201, dentro do qual é produzido o metadocumento 100 como resultado de um processo de cristalização de conhecimento, onde o processo pode durar por toda a existência do documento. Tipicamente, a vida de um metadocumento começa com um foco e uma finalidade que ajudam a direcionar e a aprimorar a fase de síntese. Durante a fase de síntese, o metadocumento 100 prevê as necessidades de informação do escritor ou do leitor, seja independentemente através de um conjunto predefinido de solicitações de serviço de documento, seja seguindo as instruções específicas ou customizadas, e executa as tarefas, às vezes, monótonas de pesquisar, agrupar, assimilar, e organizar a informação relevante ao conteúdo do documento.

As ações da fase de síntese ocorrem através da ativação de uma ou mais solicitações de serviço de documento 106. As solicitações de serviço de documento 106 podem ser ativadas, enquanto o usuário está criando ou trabalhando no metadocumento 100, ou quando o usuário pôs de lado o metadocumento 100, de modo que as solicitações de serviço possam se beneficiar do tempo ocioso do computador, da largura de faixa de rede desocupada, etc. A ativação de uma solicitação de serviço de documento 106, enquanto o usuário trabalha no documento, tem a vantagem adicional de permitir que o metadocumento seja instruído a cerca das preferências do usuário. As solicitações de serviço de documento 106 podem ser ativadas automaticamente por um escalonamento 204 ou manualmente por um usuário. A próxima fase no ciclo de gerenciamento de conhecimento refere-se ao compartilhamento da informação produzida durante a fase de sintetização. Tipicamente, a fase de compartilhamento consiste na integração da informação agrupada durante a fase de sintetização nos conteúdos do metadocumento 100 em um formato útil para o usuário, pessoa, ou comunidade que venha a usar o documento. O conteúdo do documento pode ser adicionalmente intensificado pelo usuário com a atribuição de uma personalidade ao documento que marca o documento com informação que facilita o entendimento do conteúdo ou que regularmente fornece mais atualizações recentes relacionadas ao conteúdo. A etapa de serviços final no ciclo trata de atualizações periódicas, por meio das quais o metadocumento executa as solicitações de serviço predefinidas em nome do usuário. Por exemplo, o metadocumento pode manter atualizada a informação da temperatura de uma cidade identificada. B.2 Serviços Com referência, novamente, à Figura 2, um ou mais metadocu-mentos 100 são armazenados em um servidor de metadocumento 200 no banco de dados de metadocumento 202. Em uma concretização alternativa, as referências do documento (por exemplo, os URLs) são armazenadas em um banco de dados de metadocumento 202 e seu conteúdo mencionado no servidor de arquivo da rede 220. Cada metadocumento 100 no servidor de metadocumento 200 é dotado de um conjunto de solicitações de serviço de documento cujo cada metadocumento 100 é exercitado sob o controle de um escalonamento ou daemon de escalonamento 204, que desperta cada metadocumento no banco de dados 202 de acordo com algum horário predeterminado. O escalonamento 204 pode ser implementado em um mecanismo de software que acessa as solicitações de serviço de documento 106, banco de dados de entidade 111, e conteúdo em um metadocumento 100.

Conforme ilustrado na Figura 3, depois que o escalonamento 204 desperta o metadocumento 100, o metadocumento 100 informa o escalonamento 204 de seu conjunto atual de solicitações de serviço de documento 301. Dependendo dos recursos (por exemplo, provedores de serviço que podem cumprir ou satisfazer uma solicitação de serviço de documento específica) disponíveis ao servidor de metadocumento 200, o escalonamento 204 escolhe uma solicitação de serviço de documento 106 para cumprir (indicado pela seta 300). Subseqüentemente, o escalonamento 204 chama provedores de serviço 206 identificados com o uso de banco de dados de serviços 210 para satisfazer essas solicitações. O banco de dados de serviços 210 inclui "processos de provedor de serviço" para consulta e provedores de serviço de seleção (incluindo dados de autenticação associados com cada serviço), "processos de entidade" para identificar entidades no conteúdo do documento que usa todo o banco de dados 111 ou bancos de dados de entidade no banco de dados de serviços 210 ou disponíveis como um serviço de rede 206, "processos de notificação" para notificar um usuário de novo enriquecimento, expressões regulares, léxicos, e um categorizador. Em outras concretizações, o banco de dados de serviços 210 também inclui processos de gerenciamento de direitos de conteúdo. O cumprimento de uma solicitação de serviço de documento indica o acesso a um provedor de serviço a partir do banco de dados de serviços 210 (por exemplo, selecionando um provedor de serviço a partir de uma lista de possíveis provedores de serviço) que inclui alguns processos (ou programas) que são chamados pelo escalonamento para acessar o conteúdo de documento 102 (indicado pela seta 302) e a marca de documento 108 (indicada pela seta 304). Os resultados recebidos dos provedores de serviço 206 são integrados novamente no metadocumento original 100 pelo gerenciador de conteúdo 208. Isto é, estes processos terminam com a produção de marca específica de documento 108 (indicada pela seta 306) e/ou novas solicitações de serviço de documento 106 (indicadas pela seta 308), ambas as quais sendo acrescentadas ao metadocumento 100 pelo gerenciador de conteúdo 208. B.3 Personalidades O servidor de metadocumento 200 apresenta uma solução ao longo para a criação e o compartilhamento de conhecimento com base no documento em uma maneira customizável. A customização é provida pelo mecanismo de personalidades dentro de um servidor de metadocumento. As personalidades são atribuídas a um documento, auxiliando assim um usuário na aquisição, compartilhamento e utilização de conhecimento; isto cria uma visão documental do mundo em oposição a uma visão global como nos portais atuais do Web. Uma ou mais personalidades podem ser conectadas a um documento. Cada personalidade tematicamente e/ou contextualmente codifica uma coleção de solicitações de serviço de documento 106 que permitirá que o documento atue de maneira autônoma em nome do criador ou leitor, prevendo as necessidades de informação tanto do escritor como do leitor de documentos, mantendo o documento conectado e atualizado com o resto do mundo da informação.

Um metadocumento 100, por exemplo, pode receber uma personalidade 104 que é: (a) inquisitiva: um conjunto de solicitações de serviço de documento para descobrir mais informação a cerca dos conceitos presentes no conteúdo de documento, encontrar biografias de pessoas mencionadas no conteúdo, (b) poliglota: procura saber as traduções das palavras, termos e locuções contidos no documento, (c) privada: marcada para manter os metadados do documento invisíveis a outros documentos, (d) científica: procura por versões online dos documentos citados no conteúdo de documento, ou (e) genealógica: procura por documentos que contenham conteúdos similares como si própria. B.4 Processos para Identificar e Usar Entidades Conforme mostrado na Figura 3, uma personalidade 104 identifica uma ou mais solicitações de serviço 106. Cada solicitação de serviço inclui processos para: (a) reconhecer entidades no conteúdo do documento 102; e (b) acessar um serviço que usa as entidades reconhecidas.

As entidades incluem nomes próprios (por exemplo, pessoas, lugares, organizações, etc.), tempos, localizações, quantidades, citações (por exemplo, títulos de livro), endereços, etc. As entidades podem ser reconhecidas com o uso de uma variedade de técnicas conhecidas que podem incluir qualquer expressão ou uma combinação de expressões regulares, léxicos, palavras-chaves, e regras. Um léxico é tipicamente um banco de dados de tuplas da forma <entity-string, part-of-speeche-tag, entity-type> onde: uma entity-string é a cadeia de caracteres que forma a entidade (por exemplo, o nome "John Smith" de uma pessoa); uma part-of-speech-tag, que é opcional, indica o uso gramatical da entidade (por exemplo, como um substantivo, uma locução nominal, um verbo, etc); e entity-type indica se a entidade pertence a uma ou mais classes predefinidas (isto é, categorias) de entidades (por exemplo, pessoa, organização, nome da companhia, etc.). Uma cadeia de texto contínua será reconhecida como uma entidade, se a cadeia for aceita como pertencendo ao léxico.

As entidades podem ser reconhecidas pela associação de cadeia ou com o uso de expressões regulares. Por exemplo, o nome de uma pessoa poderia ser reconhecido como duas palavras escritas com letras maiusculas. Expressões regulares podem ser expressas em termos do conteúdo de documento textual atual (isto é, palavras) ou em termos da marca lingüística associada com o conteúdo textual. Esta marca linguística poderia incluir parte de identificadores de fala (tais como locuções nominais, substantivos, etc.) ou identificadores de análise gramatical superficiais.

Como um meio alternativo de reconhecer entidades, podem ser usadas algumas regras. Por exemplo, a regra, a seguir, poderia ser usada para reconhecer nomes próprios: se a "palavra" fosse escrita com letras maiúsculas, e não constasse do léxico (ou dicionário, ou tesauro), então a palavra seria um nome próprio. A Figura 4 ilustra um exemplo no qual um metadocumento 100 é enriquecido com o uso de uma personalidade 104 especificada no mesmo. Em algum tempo predeterminado ou em intervalos de tempo pré-especificados, o escalonamento 204 desperta e identifica solicitações de serviço de documento 410. O escalonamento chama então os processos da solicitação de serviço de documento referenciada em 412 no banco de dados de serviço 210. Os processos de uma solicitação de serviço de documento referida no banco de dados de serviço 210 podem incluir expressões regulares, léxicos, seleção de provedor de serviço, dados de autenticação associados com cada serviço, e gerenciamento de direitos de conteúdo. Na execução do processo identificado pela referência 412, é identificado um serviço originário dos serviços de rede 206 que reconhece as entidades originárias do tipo de entidade "Nome da Companhia" também armazenado no banco de dados de serviço 210.

Uma vez que o serviço identificado é executado pelo escalonamento 204, ele fornece seus resultados ao gerenciador de conteúdo 208 que subseqüentemente executa uma ou mais das seguintes tarefas: (a) marca a solicitação de serviço de documento 410 à medida que completada em 414; (b) marca a solicitação de serviço de documento 416 como não mais espe- rando pela entrada, mas espetendo para ser executada; e (c) insere entidades originárias do tipo de entidade Nome da Companhia e que aparecem no conteúdo de documento 102, bem como sua(s) localização(ções) no conteúdo de documento 102 em 418.

Quando o escalonamento subseqüentemente identifica a solicitação de serviço de documento 416, o escalonamento irá similarmente identificar um processo 420 originário do banco de dados de serviço 210 que irá usar o serviço de cotação de ações para verificar as entidades de Nome da Companhia identificadas em 418. Estes resultados de cotação de ações serão similarmente inseridos na marca de documento 108 e ligados diretamente às entidades 418 que, por sua vez, são ligados às localizações no conteúdo de documento. Alternativamente, ao invés de inserir os resultados da cotação de ações em 418, o serviço identificado pela solicitação 416 será inserido como marca de documento 108 a ser iniciada, quando o usuário acessar as entidades identificadas no conteúdo de documento 102. C. Criando e Modificando Personalidades Esta seção refere-se à formação e/ou customização de indivíduo ou grupos de personalidades. Será apreciado por aqueles versados na técnica que os diferentes processos descritos aqui para formar e/ou customizar personalidades podem ser usados por iniciativa própria ou em combinação. A Figura 5 ilustra uma interface de cliente 1010 para o acesso direto ao servidor de metadocumento 200 mostrado na Figura 2. Ta! interface de cliente pode operar em um computador de usuário 226 ou dispositivo de computação móvel 219. Em um formulário, a interface de cliente 1010 é chamada com a especificação de um endereço (por exemplo, o URL) do servidor de metadocumento 200 em qualquer Internet convencional ou navegador. Outras formas da interface podem ser acessadas, por exemplo, com o uso de um programa específico de aplicação.

Depois da entrada no sistema em uma tela de entrada (não-mostrada) através do gerenciador de usuário 214, um usuário tem a habilidade de especificar uma localização de um documento a ser atualizado e armazenado no banco de dados do metadocumento 202 em 1012. Depois que a referência de documento especificada em 1012 é atualizada e armazenada no banco de dados de documento 202, uma personalidade 1016 é selecionada a partir da janela de personalidades 1014.

Uma vez que a personalidade 1016 é selecionada, o servidor de metadocumento pode imediatamente e/ou em um ponto posterior no tempo, dependendo dos serviços de documento especificados na personalidade, enriquecer o conteúdo de documento atualizado, conforme descrito aqui. No caso do conteúdo de documento ser imediatamente anotado com os serviços de documento explicados na personalidade selecionada, os resultados serão exibidos na janela 1018 e os resultados de serviço globais na janela 1020.

As personalidades na janela 1014 podem ser dispostas em uma variedade de visualizações que podem especificar personalidades privadas, compartilhadas ou públicas. Estas personalidades são registradas no banco de dados de personalidade 212 mostrado na Figura 2. As personalidades compartilhadas podem receber permissões de acesso diferentes (por exemplo, alguns usuários podem ser capazes de ler ou modificar uma personalidade, enquanto outros podem apenas ser capazes de ler uma personalidade).

Além disso, a janela 1014 permite que uma ou mais personalidades sejam selecionadas e simultaneamente aplicadas para enriquecer um documento enviado. Em uma concretização, isto é conseguido com a seleção de uma única personalidade ou uma pasta de personalidades, conforme mostrado na Figura 5 na personalidade de analista 1016. Alternativamente, personalidades específicas podem ser selecionadas para serem aplicadas ao conteúdo de documento enviado. A Figura 6 ilustra uma ampliação da janela 1014 mostrada na Figura 5 para a personalidade de arquitetura na qual personalidades de casas de fardos de feno e casas de pneumáticos são selecionadas em 1102 e 1104, respectivamente. O botão de chamada 1022 na interface 1010 cria uma janela de propriedades para um usuário. A Figura 7 ilustra um exemplo de uma janela de propriedades 1210 que será exibida, quando o botão de configuração de propriedades 1022 for selecionado na Figura 5. Na janela 1210, um usuário é capaz de especificar uma personalidade padrão em 1212 ou para ter uma personalidade recomendada, quando um documento for enviado para servidor de metadocumento 200, em 1214. Uma personalidade padrão em 1212, disponível a um usuário, é "nenhuma", a qual, caso selecionada, exigirá que um usuário especifique uma personalidade manualmente a partir da janela 1014 depois do envio de um documento. Além disso, a janela de propriedades 1210 permite que um usuário crie e/ou modifique personalidades específicas através da seleção do botão 1216, os detalhes do qual serão discutidos abaixo. C.1 Generalidades Em uma concretização para criar e/ou modificar personalidades, uma janela 1310, mostrada na Figura 8, é revelada com duas subjanelas 1312 e 1314 depois da seleção do botão 1216 mostrado na Figura 7. A primeira subjanela 1312 apresenta uma lista de todas as personalidades disponíveis, enquanto que a segunda subjanela 1314 apresenta uma lista de categorias de serviços disponíveis para uma personalidade selecionada a partir da subjanela 1312. No exemplo mostrado na Figura 8, a personalidade de "empresa de vigilância" é selecionada em 1316. Cada categoria de serviços mostrada na subjanela 1314 é selecionável para permitir que um usuário especifique um ou mais serviços de documento específicos (por exemplo, o serviço de recuperação de informação 1318). A Figura 9 ilustra uma janela 1400 com o serviço de recuperação de informação 1318 no qual as pesquisas podem ser selecionadas para categorias específicas. No exemplo mostrado na Figura 9, as categorias de computação e pessoas são selecionadas em 1404 e 1408, respectivamente. Na operação durante o enriquecimento, são chamados apenas aqueles serviços que são selecionados. Além disso, as pesquisas executadas pelos serviços serão limitadas às categorias especificadas. Isto é, as pesquisas executadas por um serviço selecionado podem ser limitadas a uma categoria específica no diretório do provedor de informação (por exemplo, Googgle®) do conteúdo de informação. Por exemplo, o serviço 1408 é limitado à cate- goria "pessoas" do conteúdo da informação do provedor de informação "Go-ogle".

Além disso, a Figura 9 ilustra que os serviços selecionados podem ser atualizados ou renovados em 1450 em uma base periódica, tal como em uma base diária, semanal, mensal ou automática em 1452-1455, respectivamente. O período de atualização automática em 1455 é determinado, por exemplo, com o uso: (a) do histórico ou registro de acesso de um navegador (por exemplo, quão recentemente o endereço dos serviços foi acessado por um usuário); e/ou (b) do monitoramento dos resultados recebidos a partir do serviço sobre um período de tempo; se eles mudam em uma taxa freqüente, então o período de renovação deve ser ajustado para ser freqüente. Alternativamente, um serviço selecionado pode ser especificado para não ser jamais atualizado (isto é, para executar um único procedimento) ou até o final do período predeterminado (por exemplo, até 2003), conforme ilustrado em 1451 e 1456, respectivamente. Em outra concretização não-mostrada, o serviço selecionado pode ser especificado para ser atualizado até que uma finalidade específica expire (por exemplo, enquanto uma pessoa é um menor de idade). Em ainda uma concretização adicional não mostrada, o serviço selecionado pode ser especificado para ser atualizado até que ele não mais retorne os resultados relevantes. Também a Figura 9 ilustra que o custo pode ser definido para cada serviço em 1440 como isento, em 1442, ou para pagamento, em 1444, para o qual pode ser definido um montante máximo.

Em outra concretização para criar e/ou modificar personalidades, uma janela 1502 será revelada, conforme mostrado na Figura 10, quando o botão 1216 for selecionado na Figura 7. Nesta concretização, um usuário tem a habilidade de especificar um nome de uma personalidade em 1504 e criá-lo, seja (a) com a modificação das personalidades existentes em 1506, seja (b) com o uso de um conjunto selecionado de arquivos e/ou pasta com arquivos em 1508, ou (c) com o uso do conteúdo originário de um arquivo ou de um website selecionado em 1510. C. 2 Usando uma Álgebra Em uma concretização, as personalidades podem ser especificadas através da modificação em 1506, na Figura 10, por meio da configuração de personalidades existentes com o uso de uma álgebra. Uma personalidade específica pode ser configurada com o uso de uma álgebra que mescla, acrescenta, subtrai, compõe (isto é, personalidades que são compostas juntas com o uso de um operador de composição permitem que os resultados de uma personalidade sejam usados como entrada de outra personalidade), ou intersecta conjuntos de duas ou mais personalidades. Por exemplo, pode ser desejável eliminar quaisquer referências à ciência de computador em uma personalidade "vigilância de tecnologia" muito comum. A Figura 11 ilustra um exemplo de uma interface do usuário 1600 na qual personalidades são ou acrescentadas juntas ou subtraídas uma da outra, em 1602 e 1604, respectivamente, para formar uma nova personalidade ou uma personalidade modificada.

Em uma concretização, as personalidades são definidas com o uso de uma coleção de tuplas (isto é, conjunto de elementos ordenados) de serviços S e léxicos L [Si.Lj]. Uma primeira personalidade A e uma segunda personalidade B são mescladas através da formação da união de suas tuplas [S,A, Lja] e [Skb,Lmb], respectivamente. Se quaisquer dos serviços SA ou S«B em cada personalidade forem os mesmos, então o novo serviço consistirá de [S,A, Ln], onde I_n é a união de Uja e LMB. Além disso, uma primeira personalidade A pode ficar restrita com a remoção de uma personalidade existente B da mesma através da criação de uma nova personalidade com: (a) a remoção de quaisquer serviços que sejam os mesmos em ambas as personalidades A e B, e/ou (b) a subtração do léxico LB do léxico LA que corresponde a esse serviço. Alternativamente, as técnicas esboçadas na seção D. 3 abaixo podem ser aplicadas aos serviços em personalidades selecionadas para selecionar e/ou organizar os serviços da nova personalidade. C.3 Usando uma Lista de Links Em outra concretização, o servidor de metadocumento automaticamente gera, com a demanda, uma personalidade que usa um conjunto específico de documentos ou referências ao mesmo. Por exemplo, o conjunto de documentos poderia ser definido com o uso de todos os arquivos em uma pasta de um computador pessoal, onde o conjunto de arquivos poderia conter o conteúdo textual que é ligado a outro conteúdo ou que se refere a outro conteúdo (por exemplo, com o uso de hiperligações). Alternativamente, o conjunto de documentos poderia ser identificado com o uso de uma consulta predefinida, tal como uma consulta SQL. Em ainda outra concretização, o conjunto do documento pode compreender todos os documento no espaço de informação de meta documento.

Vantajosamente, as personalidades geradas são centrais do usuário, uma vez que elas são construídas na informação que é explicitamente selecionada por um usuário. Ém uma concretização, este serviço para automaticamente gerar personalidades é chamado na janela 1502, em 1508. Uma vez que um usuário especifica um conjunto de documentos, em 1509, e inicia uma solicitação para o serviço, em 1512, um processo explicado no diagrama de fluxo descrito na Figura 12 é executado pelo servidor de meta-documento para gerar uma personalidade. Será apreciado que, em uma concretização alternativa, o servidor de metadocumento usa este processo por iniciativa própria dada uma coleção de documentos identificador por uma pesquisa, por exemplo.

Inicialmente, em 1702, o processo de criação de personalidade recebe um conjunto específico de documentos e/ou pastas contendo um conjunto de documentos. Este conjunto de documentos é definido como um conjunto de documento de nível N=0. Em 1704, todos os links são extraídos do conjunto de documento de nível N. Em 1706, o conteúdo indicado pelos links extraídos é buscado e usado para definir um conjunto de documento de nível N+1. Em 1708, se os níveis adicionais tiverem que ser diminuídos, então a ação em 1704 será repetida; de outro modo, um documento expandido é definido com o uso de conjuntos de documento N definidos em 1702 e 1706.

Mais geralmente, a coleção de conjuntos de documentos N são mencionados como um documento expandido. O documento expandido, que pode ser visto como uma lista de documentos, consiste em documentos selecionados pelo usuário e os documentos ligados a esse documentos selecionados. A Figura 13 ilustra um exemplo de um documento expandido 1800, desenvolvido pelo abaixamento de dois níveis de um conjunto de documento de nível N=0 1801. Isto é, o documento expandido 1800 consiste no conjunto de documentos de nível N=0 1801, em um conjunto de documentos de nível N=1 1803, e em um conjunto de documentos de nível N=2 1805. Neste exemplo, o documento de nível N=0 consiste em um único documento com três links, que fazem referência aos documentos no conjunto de documento de nível N=1 1803.

Com referência às Figuras 12 e 13, um extrator de entidade 1802 constrói um banco de dados de entidade 1804 com o uso do documento expandido 1800 (que, em uma concretização, o extrator de entidade criou), em 1710. O extrator de entidade 1802 inclui regras genéricas para extrair tipos de entidade, tais como nomes de cidades, pessoas, produtos, datas, locuções nominais, etc. Estas regras genéricas não especificam entidades per se. Ao invés disso, eles especificam entidades genéricas que são capazes de detectar que um substantivo escrito em letras maiúsculas provavelmente seja o nome de uma pessoa ao invés de um nome de uma cidade, que pode ser executada com o uso do contexto que circunda o substantivo identificado.

Além disso, uma entidade que é extraída é indexada para indicar novamente a localização na qual ela foi mencionada. Além disso, o banco de dados de entidade inclui informação contextual relacionada ao uso da entidade.

Subseqüentemente, o banco de dados de entidade 1804 é usado por um gerador de serviço 1806 para gerar serviços de documento ou solicitações de serviço de documento 1808. A combinação do banco de dados de entidade 1804 e solicitações de serviço de documento 1808 é então usada para definir uma nova personalidade. Esta nova personalidade pode ser, em seguida, aplicada a um documento enviado para o servidor de me-tadocumento e enriquecido, conforme descrito acima.

Inicialmente, em 1714, o gerador de serviço 1806 identifica e extrai todas as formas questionáveis no documento expandido 1800. Formas questionáveis podem ser identificadas, por exemplo, por uma ou mais etiquetas. Em uma concretização, cada página do documento expandido 1800 é escaneada para os formulários XML (Linguagem de Marca Extensível) e HTML (Linguagem de Marca de Hipertexto). Tipicamente, um formulário consiste de campos de entrada, campos de escolha, tais como botões alternados, menus, etc. As formas HTML são descritas, por exemplo, em "XForms 1.0" pelo Consórcio de World Wide Web (W3C) publicado na Internet em http//www.w3.org/Makup/Forms.

Na etapa 1716, o gerador de serviço 1806 cria pelo menos um serviço para cada formulário identificado aqui. No caso de uma página conter múltiplas formas, o gerador de serviço irá gerar múltiplos serviços para considerar as combinações possíveis diferentes de consultas que poderíam resultar. Detalhes adicionais do procedimento de criar serviços são explicados abaixo.

Em 1716, o gerador de serviço 1806 filtra os serviços criados em 1714 que provavelmente conferem pouca utilidade acrescentada. Os serviços que acrescentam pouca ou nenhuma utilidade não retornam quaisquer resultados ou resultados relevantes. Processos para medir a utilidade de incorporar um serviço (que foi induzido a partir de um formulário) a uma personalidade são explicados abaixo. Ambas as abordagens contam com um modelo de recuperação de espaço vetor ou Booleano.

Finalmente, em 1718, é definida uma personalidade que usa os serviços filtrados e o banco de dados de entidade. As entidades no banco de dados de entidade são limitadas aos tipos de entidades que proporcionam utilidade, conforme medidas através do serviço ao qual elas são associadas (por exemplo, através da medida da utilidade de uma palavras). Como um requinte adicional, os serviços são limitados no escopo a tipos de entidade para os quais eles conferem valor acrescido (isto é, resultados relevantes de retorno). Os resultados relevantes determinantes ou de maior utilidade podem ser conseguidos com a filtragem e a classificação dos resultados depois de decorrido um serviço que, por exemplo, consulta um provedor de informação.

Em uma concretização, a filtragem e a classificação dos resultados de uma consulta retornada por um provedor de informação referente ao conteúdo de documento ao qual uma personalidade é conectada com o serviço são conseguidas com a aquisição de uma lista de hiperligações e sumários ordenados pela relevância do provedor de informação, com a execução de uma medida de similaridade entre os sumários e as entidades circundantes do contexto no conteúdo de documento ao qual a consulta é dirigida, com a classificação dos resultados com base na medida similarmente computada, e com a filtragem apenas dos resultados classificados mais elevados.

Em uma concretização alternativa, a medida de similaridade é executada com o uso de conteúdo de documento mencionado pelas hiperligações além dos sumários. Também, uma métrica de distância de Cosseno ou uma medida de correlação pode ser usada para medir a similaridade entre o conteúdo adquirido a partir do provedor de informação e o conteúdo de documento relacionado.

Será apreciado por aqueles versados na técnica que antes de usar uma métrica de distância de Cosseno, o conteúdo do documento é convertido em características (por exemplo, palavra, locuções, etc.) e derivado. Além disso, será apreciado por aqueles versados na técnica que as medidas da distância podem ser executadas nas características originalmente extraídas que são novamente mapeadas para definir um espaço de característica reduzido com o uso de indexação semântica latente (LSI).

Em uma concretização, uma personalidade criada em 1718 com o empacotamento de serviços filtrados na etapa 1716 é classificada e organizada hierarquicamente em grupos que usam as hiperligações dos serviços especificados. Tais classificação e organização podem ser executadas com o uso de técnicas de classificação, de cluster (aglomerativas) ou de hiperli-gação conhecidas. Um exemplo de técnicas hiperligadas é descrito por Kleinberg, em "Fontes Oficiais em um Ambiente Hiperligado", Relatório Téc- nico da IBM RJ 10076, de maío de 1997.

Em uma concretização alternativa, a estrutura organizacional dos documentos com hiperligações especificadas na etapa 1702 é usada para criar uma ou mais personalidades na etapa 1718 (por exemplo, é criada uma personalidade para cada ramificação em uma coleção hierárquica de documentos). Estas personalidades poderíam ser organizadas, conforme mostrado na Figura 6. Será apreciado por aqueles versados na técnica que as etapas explicadas na Figura 12 podem ser parcialmente ou inteiramente automatizadas.

Em outra concretização, o documento expandido 1800 é adicionalmente desenvolvido através da conexão de uma personalidade genérica ao mesmo. A personalidade genérica poderia ser aplicada a um ou mais níveis do documento expandido e apenas dependendo da existência ou não da necessidade de expansão adicional do espaço de informação que circunda o conteúdo de documento original no nível N=0. Por exemplo, em um exemplo, a personalidade genérica será aplicada apenas, se o documento expandido tiver menos referência do que um número limite predeterminado de documentos. C.3.1 Criando Serviços ' Em uma concretização, cada serviço criado na etapa 1714 é cri- ado com as seguintes propriedades: (a) o serviço é especificado, de tal modo que ele assuma como entrada um novo segmento de texto identificado, por exemplo, por uma referência de documento (por exemplo, o URL); (b) o serviço inclui processos para reconhecer entidades e seus deslocamentos no novo segmento de texto ou aceitar entidades reconhecidas e suas localizações originárias de outro serviço; (c) o serviço inclui processo para associar as entidades reconhecidas originárias do novo segmento de texto com (i) os conceitos no conteúdo recuperado dos conjuntos de documento de nível N, (ii) uma consulta exemplificativa (isto é, um exemplo concreto i definido para a mesma) que envolve a entidade reconhecida e um formulário, e/ou (iii) um resultado (possivelmente reformatado ou filtrado) da consulta exemplificativa (ii) com as entidades reconhecidas em (b); e (d) o servi- ço inclui processos para retornar uma lista com as entidades reconhecidas e seus deslocamentos originais em (b) e a informação recentemente associada em (c). Em uma concretização alternativa, se um serviço para uma hiper-ligação específica já existe, então nenhum serviço novo será criado e o serviço existente será usado.

No caso c(ii), um formulário pode ser criado por meio de exemplo, como segue. Se o formulário contiver um campo de entrada e um ou mais botões de submissão, então o campo de entrada é enchido com o conceito ou entidade reconhecido, e o protocolo de submissão de formulário (por exemplo, GET ou POST, conforme descrito em XForms 1.0) é seguido com o campo de entrada cheio. No caso do formulário conter mais de um campo, então todas as possíveis combinações dos campos e entidades ou conceitos reconhecidos são criados para submissão, com apenas aqueles que produzem resultados não-nulo que são retornados. Alternativamente, o formulário pode ser enchido com o uso de técnicas automatizadas, tais como aquelas descritas na Internet em www.roboform.com.

Por meio de exemplo, deve ser considerado o formulário 1900 com campo de entrada 1901 e botões alternados 1902-1905 descrito na Figura 14. Neste exemplo, o formulário 1900 é uma extremidade frontal para um provedor de conteúdo de material científico. O formulário é composto de um campo de texto 1901, onde espera-se que o usuário introduza os campos alternados e de consulta 1902-1905, onde o usuário pode indicar ao sistema, em cuja pasta a consulta deve ser executada (por exemplo, com a seleção do botão alternado de todas as pastas 1902, o sistema irá pesquisar todo o conteúdo do provedor de conteúdo). Neste exemplo, os quatro diferentes serviços seguintes mostrados na Figura 15 seriam gerados. Cada serviço inclui o campo de entrada 1901 e um dos quatro botões alternados 1902-1905 em um estado ativado. Cada serviço é associado com um tipo de entidade específico, que é determinado com o uso do processo descrito abaixo na seguinte seção. C.3.2 Serviços de Filtragem A finalidade da filtragem, conforme explicada acima, é a de re- mover serviços que foram criados, mas que não têm qualquer ou nenhuma utilidade. Mais especificamente, fornecidos um banco de dados de entidade e uma lista de serviços extraídos, três diferentes medidas de utilidade são explicadas abaixo para determinar a utilidade de uma lista de serviços. Será apreciado por aqueles versados na técnica que uma ou uma combinação das três medidas pode ser usada. Geralmente, cada medida de utilidade classifica os serviços, de acordo com sua utilidade potencial para entidades no banco de dados de entidade.

Uma primeira medida de utilidade é explicada na Figura 16, que descreve um diagrama de fluxo do procedimento em 1716 dos serviços de filtragem criados em 1714 com o uso do banco de dados de entidade criado em 1710. Inicialmente, em 2140, são recebidos uma lista de serviços e um banco de dados de entidade. É assumido que o banco de dados de entidade inclui a frequência exemplificativa de cada entidade no documento expandido.

Cada serviço proporciona meios para acessar um serviço de informação provido por um provedor de conteúdo. A freqüência de entidades no banco de dados de entidade dos bancos de dados providos pelos provedores de conteúdo acessados por cada serviço na lista de serviços é computada em 2142-2146. Mais especificamente em 2142-2146, são computadas as seguintes estatísticas referentes à freqüência de cada entidade em um serviço: (a) fy os inúmeros documentos no banco de dados do provedor de conteúdo CP-DBj que contêm entidade (ou característica)fj; e (b) wy a soma dos pesos de cada característica fj sobre todos os documentos no banco de dados do provedor de conteúdo CP-DBj. Em 2144, cada provedor de conteúdo é representado como uma lista de tuplas da forma <entidade, freqüência, peso, onde a freqüência e o peso são como "f" e "w" definidos acima. O documento expandido é representado com o uso de uma lista similar, mas, neste caso, f indica o número de documentos nos quais a entidade ocorre e w indica a soma dos pesos de cada entidade sobre todos os documentos.

Em uma concretização, a informação referente à freqüência de entidades nos serviços pode ser adquirida para cada serviço através do funcionamento periódico de um sistema que constrói uma consulta para cada característica fj que é executada no provedor de conteúdo CP-DBj e que subseqüentemente extrai os valores fy e wy dos resultados retornados da consulta. Os extratores para os valores fg e wy podem ser construídos automaticamente com o uso de abordagens de envoltório ou Modelos Markov Ocultos (HMMs).

Abordagens para gerar envoltórios são descritas no Pedido de Patente E.P. N- 1072985A2. A informação adicional referente à geração de envoltório é descrita por Chidlovskii e outros em: "Automatic Wrapper Gene-ration for Web Search Engines", Proc. 1 st Intem. Conf. on Web-Age Information Management, WAIM'2000, LNCS Series, Shanghai, China, June 2000; and "Wrapper Generation via Grammar Induction", 11 th European Conference on Machine Learning, ECML'00, Lect. Notes Comp. Science, Vol. 1810, Barcelona, Espanha, Maio 2000.

Em outra concretização, o protocolo STARTS é usado para exportar sumários originários do provedor de conteúdo para prover informação referente à estatística de entidades em serviços. O STARTS é uma proposta de protocolo para a pesquisa da Internet coordenada pela Universidade de Stanford que envolve organizações privadas e públicas. O STARTS especifica que os provedores de conteúdo devem exportar sumários que incluem estatística de entidade fy e wy. Os detalhes do protocolo STARTS são descritos por Gravano e outros, em "STARTS: Proposta da Stanford para Meta-pesquisa da Internet", Ata da Conferência ACM SIGMOD de 1997.

Em 2152, qualquer de inúmeras medidas de similaridade bem conhecidas podem subseqüentemente ser usadas para medir a similaridade entre cada serviço e o documento expandido. Por exemplo, pode ser usada a métrica de distância de Cosseno. Altemativamente, uma medida de correlação poderia ser usada em 2152 para medir similaridade. Para uma maior experiência relacionada à computação de métricas de distância, vide "Foun-dations of Statistical Natural Language Processing", de Manning e Schutze, MIT Press, 1999.

Em ainda outra concretização, as entidades e freqüências associadas (isto é, a similaridade para entidades e pesos) poderíam ser novamente mapeadas para definir um espaço de característica reduzido com o uso de indexação semântica latente (LSI) (para a experiência relacionada à indexação semântica latente, vide artigos com autoria de Dumais disponíveis na Internet em http://www.cs.utk.edu/~lsi/), superando assim os problemas associados com os sinônimos e polinômios (isto é, a mesma palavra apresenta diferentes interpretações dependendo do contexto). Subseqüente-mente, nesta concretização alternativa, as medidas de similaridade podem ser executadas neste espaço de característica reduzido.

Em 2154, os serviços N superior (isto é, com as mais altas medidas de similaridade) poderíam ser então selecionados como os serviços e incorporados na nova personalidade. A Figura 17 ilustra uma representação gráfica deste processo de seleção com um documento expandido e dois serviços A e B. O eixo horizontal do gráfico explica cada entidade no banco de dados de entidade (isto é, ei...en), e o eixo vertical explica a freqüência ponderada exemplificai iva de cada entidade. No exemplo mostrado, o serviço A apresenta um maior grau de similaridade do que o serviço B ao documento expandido.

Outra medida de utilidade classifica a lista de serviços depois da aquisição da estatística de entidade que usa uma medição de utilidade, conforme explicado no diagrama de fluxo mostrado na Figura 18. A Figura 18 explica um processo para filtrar serviços em 1716. Inicialmente, em 2355, são recebidos uma lista de serviços e um banco de dados de entidade. Em 2356, é selecionado um próximo serviço na lista de serviços, e em 2357, uma nova entidade é escolhida do banco de dados de entidades. Em 2258, uma consulta é formulada para o serviço selecionado com o uso da entidade selecionada, conforme explicado acima. Em 2359, a consulta é submetida ao serviço. O uso dos resultados N superiores do serviço em 2359, uma medida de similaridade entre a entidade e a informação contextual referente à entidade selecionada e cada um dos resultados N superior é computada em 2360, como segue: EntityUtility(Entity, Service) = ^Similarity (Entity, Doc), Doc e TopMatchesForService onde a "entity" é uma das entidades no banco de dados de entidade; "service" é um serviço; e "doe" é um dos resultados superiores N.

Mais especificamente, "entity" na equação indica tanto uma cadeia de entidades como um contexto circundante. Para simplicidade, pode-se assumir que uma entidade ocorra apenas em uma localização no documento expandido. O contexto circundante para uma entidade pode ser determinado de inúmeras maneiras com o uso de técnicas de análise gramatical conhecidas que delimitam as sentenças, parágrafos, etc. Por exemplo, as técnicas para determinar o contexto que circunda uma entidade incluem: (a) deixar o contexto ser o conteúdo textual de todo o documento, que faz parte de um documento expandido, ser o contexto; (b) deixar o contexto ser a sentença na qual a cadeia de entidades ocorre; (c) deixar o contexto ser o parágrafo no qual a cadeia de entidades ocorre; ou (d) deixar o contexto ser o texto tópico no qual ocorre então a cadeia de entidades, conforme detectado pelas técnicas conhecidas de detecção de tópico.

Também na equação, "doc" se refere ao sumário de documento que aparece (como um elemento em uma lista de resultados) na página de resultados do serviço, ou, alternativamente, a todo o documento, a partir do qual o sumário foi derivado. A medida de similaridade pode ser executada com o uso de uma forma tampouco resultante. Nesta equação, uma medida de similaridade é gerada para cada entidade (representada como a entidade mais um contexto), resultando no documento "doc" (representado como um sumário ou todo o conteúdo de documento). A fim de computar tal medida de similaridade, tanto a entidade como o documento de resultado são primeiramente processados, como segue: (a) as palavras de interrupção são eliminadas; e (b) cada palavra é derivada com o uso de técnicas de derivação conhecidas, tal como o derivador de Porter. Subseqüentemente, uma medida de similaridade, tal como a medição de Cosseno, podería ser usada para calcular o grau de similaridade entre a entidade e o documento resultante com base nas características de texto.

Em uma concretização alternativa, as características do texto são transformadas com o uso de indexação semântica latente em um espaço de características reduzido. Esta transformação de indexação semântica latente é calculada com o uso de entidade e banco de dados de freqüência de entidade que é extraído conforme descrito acima. Tendo transformado as características que usam a indexação semântica latente, uma medida de similaridade, tal como uma medida de distância de Cosseno, pode ser usada para calcular a similaridade entre a entidade (e seu contexto) e o documento resultante "doe".

No exemplo, no qual uma entidade que ocorre em múltiplos contextos existe para uma entidade (isto é, a entidade existe em múltiplas localizações em um documento ou documento expandido), cada localização da entidade e seu contexto associado são tratados separadamente (isto é, como entidades diferentes).

Em 2361, se for determinado que a última entidade no banco de dados de entidade foi examinada, então as similaridades medidas serão somadas para todas as entidades relacionadas ao serviço selecionado em 2362, como segue: ServiceUtility(Service) = ^EntityUtiIity(E, Service), E e EntityDB onde E é uma entidade no banco de dados de entidade, e "Service" é um serviço. Em 2363, se isto for executado para todos os serviços, então os serviços N superiores serão selecionados com a medida de utilidade de serviço mais elevada para especificar os serviços filtrados; de outra maneira, o processo continuará em 2356, com o próximo serviço na lista.

Os serviços podem ser organizados de diversas maneiras, tal como superficialmente ou hierarquicamente. Os serviços, conforme representados desta forma, poderíam ser agrupados e um serviço representativo poderia ser selecionado de cada cluster. Nesta concretização, um gráfico multi-dimensional é definido com uma dimensão para cada entidade no banco de dados de entidade. A freqüência de cada entidade que ocorre no do- cumento expandido e os serviços são plotados um contra o outro. Os clus-ters são formados e associados com um serviço. Estes clusters podem ser então usados para hierarquicamente organizar os serviços.

Em uma concretização alternativa, um serviço genérico é aplicado ao documento expandido subseqüente ao procedimento 2363. O serviço genérico usa os conteúdos do documento expandido para consultar um provedor de informação de uso geral ao invés de um provedor de informação que é especializado em um assunto específico. Em ainda outra concretização, uma utilidade de serviço é computada para um tipo de entidade ao invés de ser para todos os tipos de entidades, conforme descrito acima. Nesta concretização alternativa, a utilidade de serviços pode ser avaliada para tipos específicos de entidades. Por exemplo, uma utilidade de serviço é computada para o tipo de entidade de biologia 2002 para o serviço 2004 mostrado na Figura 15. C.4 Usando Personalidades e Níveis de Conhecimento Predefinidos Em ainda uma concretização adicional, pode ser especificado um nível de conhecimento existente ou de relativa habilidade em um campo, conforme mostrado em 1516 na Figura 10. O nível de conhecimento específico 1516 pode ser usado, por exemplo, para criar novas personalidades que acessam diferentes níveis de provedores de serviço originários de personalidades predefinidas especificadas em 1504. Por exemplo, com uma personalidade dirigida para informação medida, se o conhecimento de alguém for nocivo (isto é, um leigo), então mais provedores de informação básica serão especificados e mais serviços definicionais básicos serão especificados na personalidade. Além disso, o nível de conhecimento pode ser usado ou para incluir ou para excluir entidades de um banco de dados de entidade que é usado para criar uma personalidade. Por exemplo, um especialista no campo médico pode não estar interessado nas mesmas entidades que um novato no campo médico estaria.

Além de prover um nível de conhecimento de personalidade desejada, uma dica (isto é, uma dica do assunto) é fornecida ao tipo de personalidade que é desejado, conforme mostrado em 1514 na Figura 10. Com o recebimento de uma dica, o servidor de metadocumento se refere à dica da personalidade desejada a um conjunto de ações que são especificamente relacionadas ao assunto da dica. De modo geral, a dica 1514 pode ser usada para aperfeiçoar qualquer dos processos para criar personalidades que podem ser especificadas na Figura 10. A dica 1514 e o nível de conhecimento podem ser usados individualmente ou em combinação.

Em um exemplo específico, se uma dica 1514 de uma personalidade medida for especificada ao servidor de metadocumento juntamente com o conteúdo de documento mencionado pelas hiperligações em 1508 ou pelo nome em 1510, então o servidor de metadocumento 200 criará uma personalidade através da identificação de serviços que enriquecem o conteúdo identificado que se refere a: (a) um acesso a uma guia farmacêutica geral para drogas mencionadas no conteúdo de documento; (b) registros médicos relacionados ao usuário e aos itens mencionados no conteúdo de documento; (c) imagens, vídeo clipes, etc., associados com os itens mencionados no conteúdo de documento originário de um banco de dados médico; (d) links para uma comunidade de sofredores de quaisquer doenças mencionadas no conteúdo do documento; (e) produtos alternativos àqueles mencionados no conteúdo de documento; (f) conexões a drogarias online; (g) conexões à pesquisa comum em qualquer das áreas mencionadas no conteúdo de documento; (h) informação sobre quaisquer companhias mencionadas no conteúdo de documento; e (g) qualquer outra informação medida relacionada ao itens encontrados no conteúdo de documento.

Em outro exemplo específico, fornecida uma dica 1514 que é uma personalidade de construção, a personalidade será criada pelo servidor de metadocumento 200 através da identificação do conteúdo de documento mencionado pelas hiperligações em 1508 ou pelo nome em 1510, e da identificação de serviços que enriquecem o conteúdo identificado referente a: (a) códigos de construção, leis de divisão em zonas, avaliações de propriedade e outros documentos legais referentes aos itens (por exemplo, endereços) identificados no conteúdo de documento; (b) imagens (fotos, diagramas, cópias heliográficas) dos itens (por exemplo, construções, materiais) mencio- nados no conteúdo de documento; (c) histórico (por exemplo, social, de construtor, de inquilinatos, etc.) referente ao conteúdo de documento; (d) construções similares no mundo, arquitetos que constróem tais edifícios; (e) construções vizinhas, inquilinos, etc.; (f) simulações das áreas/construções, mencionadas sob certas condições (por exemplo, terremoto, à prova de fogo); (g) mapas das áreas mencionadas no conteúdo de documento; (h) dispositivos sensores (por exemplo, câmeras, termômetros, etc.) das áreas mencionadas no conteúdo de documento; e (i) custos, fornecedores, varejistas, taxas de entrega, especificações técnicas, tutoriais, etc., para materi-i ais mencionados no conteúdo de documento. C.5 Usando Técnicas de Extração de Informação O servidor de metadocumento, conforme descrito acima, enriquece (por exemplo, marca) o conteúdo de documento com resultados de diferentes serviços. Tipicamente, estes resultados são listas de documentos, i listas de sumários, informação extraída tipicamente de uma natureza de estrutura muito simples. Por exemplo, os resultados podem incluir cotações de ações e entradas biográficas. Nesta seção, é descrito um processo que extrai a informação de uma natureza mais sofisticada originária de texto não-estruturado. Isto é conseguido com o uso de técnicas de extração de infor-i mação, tais como respostas a questões.

Em uma técnica de extração de informação, personalidades podem também ser criadas e/ou modificadas com o uso de questões predefini-das que podem ser usadas em conjunção com um léxico ou léxicos associados com uma personalidade para criar um ou mais formulários de perguntas. » Cada formulário de pergunta é usado para criar uma nova solicitação de serviço de documento que é satisfeita com o uso de um sistema de respostas a perguntas conhecido que usa uma combinação de técnicas de recuperação de informação e de associação sintática ou padrão.

Em uma concretização, os formulários de perguntas são criados > automaticamente com o uso de uma pergunta de entrada definida por um usuário em 1520 na Figura 10. Por exemplo, se a pergunta fosse "Qual o procedimento para ablação do fígado?" e a personalidade específica em 1504 incluísse um léxico que‘são órgãos do corpo, que inclui a palavra "fígado", então o servidor de metadocumento identificaria o órgão do corpo encontrado na pergunta 1504 (por exemplo, o fígado) e o substituiría por um símbolo genérico representativo do léxico identificado. Neste exemplo específico, a palavra "fígado" seria substituída pelo símbolo genérico <ÓRGÃO-DO-CORPO> para produzir o formulário de perguntas "Qual o procedimento para ablação do <ÓRGÃO-DO-CORPO>?" Formulários de perguntas alternativos podem ser definidos com o uso da mesma pergunta para o exemplo fornecido acima, dependendo de quantos léxicos alternativos são definidos na personalidade específica. Dessa forma, com a mesma pergunta, mas com um léxico diferente, por exemplo, de procedimentos cirúrgicos, o formulário de perguntas pode ser definido: "Qual o procedimento para <PRO-CEDIMENTO-CIRÚRGICO> do fígado?" Ainda outro formulário de perguntas poderia ser produzido com o uso da mesma pergunta, se a personalidade incluísse ambos os léxicos para órgãos do corpo e procedimentos cirúrgicos. Isto produziría o formulário de perguntas: "Qual é o procedimento para <PROCEDIMENTO-CIRÚRGICO> do <ÓRGÃO-DO-CORPO>?" Uma vez que todos os formulários de perguntas possíveis são gerados, cada formulário de perguntas é acrescentado à personalidade como um novo serviço de documento. Cada serviço de documento acrescentou exemplos (isto é, cria um exemplo específico) ao formulário de perguntas com quaisquer entidades encontradas no conteúdo de documento 102 ou marca 108 que está também nos léxicos identificados pelo símbolo genérico no formulário de perguntas. Por exemplo, assume-se o conteúdo de documento incluído na entidade "rim", que fez parte também do léxico de órgãos do corpo. A pergunta exemplificativa neste exemplo seria: "Qual é o procedimento para ablação do rim"? Em uma concretização, estes formulários resultantes são avaliados quanto à sua utilidade.

Quando um documento é enriquecido com uma personalidade que inclui uma consulta exemplificativa, a solicitação de serviço de documento que inclui a consulta exemplificativa a satisfaz com uma técnica de resposta à perguntas para produzir uma resposta ou resultado. A resposta no exemplo acima seria "umanefrectomia". Um exemplo de uma técnica de resposta a questões é descrito por Cooper e outros no texto "A Simple Question Answering System", publicado na ata da Nona Conferência de Recuperação de Texto (TREC-9), conduzida em Gaithersburg, Maryland, em 13-16 de novembro de 2000.

Uma vez que o serviço de documento satisfaz uma consulta exemplificativa com uma resposta, o serviço de documento enriquece o documento através da ligação da entidade no documento com a consulta exemplificativa e a resposta. No exemplo fornecido acima, a entidade "rim" é ligada à consulta exemplificativa (isto é, Qual o procedimento para ablação do rim?) e a resposta (isto é, uma nefrectomia). Em uma concretização, a consulta exemplificativa e a resposta são exibidas em uma janela instantânea 1028, conforme mostrado na Figura 5, quando um usuário localiza um indicador 1030 nas proximidades de uma entidade reconhecida 1032 (por exemplo, entidade reconhecida Xerox e a consulta exemplificativa de "Qual é o preço das ações do <NOME DA COMPANHIA?").

No caso de múltiplos símbolos genéricos poderem ser acrescentados a uma pergunta especificada pelo usuário, o usuário poderá ter a opção de que apenas uma solicitação de serviço de documento seja especificada para apenas o formulário de perguntas mais genéricas (por exemplo, Qual é o procedimento para <PROCEDIMENTO-CIRÚRGICO> do <ÓR-GÃO-DO-CORPO>?). Alternativamente, o usuário pode ter a opção de que as solicitações de serviço de documento sejam especificadas para todos os formulários de perguntas identificados ou para aqueles selecionados. Além disso, o usuário pode dispor de múltiplas respostas e múltiplas fontes de informação de onde possa selecionar. A Figura 19 é um diagrama de fluxo que descreve uma concretização para identificar uma resposta de uma pergunta exemplificativa. Inicialmente, em 2402, o servidor de metadocumento 200 recebe a pergunta exemplificativa. O tipo de pergunta é determinado no 2404 e convertido para uma pergunta em 2406. Em 2408, a pergunta é submetida a um serviço de informação adaptado para lidar com perguntas do tipo identificado. Em 2410, as passagens dos resultados N superiores da consulta são extraídas com o uso de um sumarizador, por exemplo. Em 2412, as passagens dos resultados N superiores extraídos da consulta recebem parte das etiquetas de fala e são analisadas gramaticalmente de forma superficial. Em 2414, as ponderações da relevância são calculadas para cada palavra nas passagens dos resultados N superiores extraídos da consulta com o uso da pergunta exem-plificativa e do tipo de pergunta determinado. Em 2416, as sentenças ou parte das sentenças das passagens extraídas com palavras que apresentam a ponderação computada mais elevada de relevância são selecionadas como respostas propostas à questão exemplificativa. C.6 Usando Personalidades de Aprendizado O servidor de metadocumento 200 apresenta uma personalidade de e-aprendizado que pode, por exemplo, ficar disponível na janela de personalidades 1014 na Figura 5. Quando uma personalidade de e-aprendizado for aplicada a um documento, cada serviço na personalidade analisará os conteúdos do documento, reconhecendo as entidades e os conceitos e combinações específicas a esse serviço. Cada serviço liga então estas entidades, conceitos ou combinações ao novo conteúdo encontrado por uma pesquisa de banco de dados possivelmente com base no Web, ou prepara a pesquisa e insere um link, que, quando ativado, executará a pesquisa. Os serviços de personalidade não são limitados à simples pesquisa, mas podem executar quaisquer ações dependendo do conteúdo analisado. A Figura 20 ilustrará uma lista de serviços 2502 disponível, quando uma personalidade de e-aprendizado for selecionada para enriquecer o conteúdo de documento. Os serviços de e-aprendizado 2504 e 2506 ligam as palavras ou expressões de múltiplas palavras encontradas no documento às suas definições e/ou traduções, respectivamente. Este serviço pode executar a lematização ou a derivação antes de acessar um dicionário. Além disso, este serviço pode usar o contexto das palavras ou expressões de múltiplas palavras que circundam um elemento no conteúdo para limitar o número de definições e/ou as traduções exibidas. Outro serviço de e-aprendizado 2508 liga cada unidade de texto (isto é, documento, parágrafo, locução, palavra) a um tutoria! referente a esse elemento. Ainda outro serviço de e-aprendizado 2510 liga cada unidade de texto a um tutorial referente à unidade de texto. Ainda serviços de aprendizado adicionais 2512, 2514 e 2516 ligam cada unidade de texto a cursos interativos, cursos online disponíveis, ou recursos online referentes ao assunto das unidades de texto, respectivamente.

Vantajosamente, as personalidades preparam e executam uma multiplicidade de tarefas de aprendizado de linguagem independentes em um documento(s) específico(s). Quando a personalidade for aplicada ao conteúdo de documento, cada serviço selecionado na personalidade analisará os conteúdos do(s) documento(s) específico(s), reconhecendo as entidades e conceitos e combinações específicas desse serviço. O serviço liga então estas entidades, conceitos ou combinação ao novo conteúdo encontrado por uma pesquisa de banco de dados possivelmente com base no Web, ou prepara a pesquisa e insere um link, que, quando ativado, executará a pesquisa.

Em uma variação, a personalidade de e-aprendizado poderá também incluir um serviço que trilha a ação passada do usuário (ou o acesso de um perfil de usuário) para prover nova informação, quando a mesma entidade for ligada a outros documentos. Em uma concretização específica, a personalidade de e-aprendizado é especificamente dirigida em linguagens de aprendizado. Nesta concretização, o servidor de metadocumento 200 apresenta um aprendizado de linguagem assistido por computador através do uso dos mecanismos de enriquecimento de documento aqui descritos. A Figura 26 ilustra uma lista exemplificativa de serviços 2602 disponível, quando da seleção de uma personalidade de aprendizado de linguagem para enriquecer o conteúdo de documento.

Mais especificamente, a personalidade de aprendizado de linguagem é definida com o uso de uma personalidade que executa dois ou mais serviços definidos na Figura 21, que inclui: (a) os serviços 2604 e 2606 que ligam as palavras ou as expressões de múltiplas palavras encontradas no documento às suas definições e/ou traduções, respectivamente (possi- velmente executando a lematização ou derivação antes de acessar o dicionário e possivelmente com o uso do contexto do elemento para limitar o número de definições exibidas); (b) o serviço 2608 que liga cada sentença, ou locução, à descrição gramatical da estrutura da sentença ou locução (possivelmente ligando a uma explanação textual da estrutura na língua nativa do leitor, ou a uma lição de gramática de áudio ou vídeo textual que corresponde à essa estrutura); (c) o serviço 2610 que liga cada palavra, expressão de múltiplas palavras, locução ou sentença a outros exemplos do mesmo em diferentes contextos originários do atual (por exemplo, através da recuperação de segmentos de texto similares, com a exceção de segmentos de texto diferentes que dispõem da mesma palavra, expressão de múltiplas palavras, locução ou sentença; os elementos recuperados poderíam ser apresentados, por exemplo, em um formato que traz a estrutura similar para o centro do campo de visão do usuário para a fácil comparação de contexto diferente); (d) o serviço 2612 que liga cada palavras, expressão de múltiplas palavra, locução ou sentença a um ou mais exercícios gramaticais interativos que se referem a esse elemento; e (e) os serviços 2614 e 2616 que são ligados ao recurso de ensinamento da língua específica que corresponde ao conteúdo de documento. Uma abordagem similar pode ser seguida para outros tópicos de aprendizado. C.7 Automaticamente Inserindo e/ou Ligando Conteúdo A Figura 7 ilustra, em 1220, um mecanismo para seletivamente especificar em um nível de personalidade se insere ou não-enriquecimento como links 1222, ou conteúdo 1224, ou automaticamente determina se liga ou insere ou não-conteúdo em 1226. Em cada caso, os links são retirados de entidades reconhecidas no conteúdo de documento 102 ou para conteúdo ou para serviços localizados em uma localização remota (no caso de 1222) ou conteúdo localizado na marca de documento 108 de um metado-cumento.

Em uma concretização alternativa mostrada na Figura 22, o usuário tem a habilidade de seletivamente especificar comportamentos da personalidade e/ou do serviço às entidades reconhecidas em conteúdo ou documentos especificados. Nesta concretização, um usuário, por exemplo, pode selecionar uma porção do documento enriquecido 1018 mostrado na Figura 5 e selecionar, por exemplo, os resultados de serviço global de cotação de ações 1026. Esta série de ações que usa as técnicas de seleção de indicador conhecidas ocasiona a exibição da janela de opções de cotação de ações 2710 mostrada na Figura 22.

Na janela de opções 2710, um usuário pode especificar se um comportamento de serviço específico é aplicado a todos os documentos selecionados, a um documento atualmente selecionado, ou a uma seleção em 2712. Além disso, a janela de opções 2710 permite que um usuário estati-camente ou dinamicamente atualize a informação ligada em 2714 que é inserida em uma forma específica em 2716. Por exemplo, a informação pode ser inserida como links ou conteúdo, conforme descritos acima. O conteúdo que é inserido pode ser inserido, por exemplo, como notas de rodapé ou uma lista de conteúdo no final de um documento. O conteúdo que é acessado dinamicamente é recalculado cada vez que um link ou conteúdo é acessado (por exemplo, com o uso de técnicas semelhantes a Microsoft OLE). O conteúdo que é acessado estaticamente é feito em uma frequência especificada em 2718 (por exemplo, mensalmente, diariamente, por hora, etc.).

Vantajosamente, um usuário tem a habilidade de modificar um comportamento padrão de um serviço, enquanto especifica se as mudanças se aplicam a todos os documentos que o usuário controla, ao documento atual apenas, ou à seleção atual de um documento que contém uma ou mais entidades. Dependendo do nível de mudança, eles são ou armazenados como propriedades de um metadocumento específico ou como parte de um perfil de usuário. A alternativa de ligar ou recuperar e inserir o conteúdo em um metadocumento pode ser especificada para cada personalidade ou pode ser executada automaticamente, caso especificado em 2724, na Figura 22, ou em 1226, na Figura 7. A determinação de ligar ou inserir o conteúdo automaticamente é executada com o uso da informação originária de um histórico passado do usuário de interação com o servidor de metadocumento 200.

Se especificada para automaticamente ligar ou inserir conteúdo a uma personalidade específica em 2724 ou como uma propriedade de uma personalidade em 1226, então a decisão de inserir informação como links ou conteúdo irá depender ou não de se a informação está dentro ou fora do histórico de interação de um usuário. Se estiver fora do histórico de um usuário, então os links serão inseridos; de outro modo, se estiver dentro do histórico de interação do usuário, o conteúdo será recuperado e inserido em um metado-cumento.

Um histórico de interação de um usuário pode ser especificado com o uso de um histórico de links acessado pelo usuário e/ou uma lista de conceitos de interesses ao usuário. Uma lista de conceitos de interesse ao usuário pode ser determinada com o uso, por exemplo, de links freqüente-mente seguidos ou a partir de um perfil de usuário desenvolvido com o registro do histórico de correio eletrônico ou com o uso de um sistema reco-mendador, tal como Knowledge Pump desenvolvido pela Xerox Corporation. Neste modo de operação, a informação originária de um histórico de interação de usuário a partir de padrões de navegação de entidade é usada para determinar se o conteúdo de documento deve ser ou não-enriquecido. C.8 Cateaorizador de Texto O objetivo de um sistema de classificação de texto, tal como o categorizador de texto 3610 mostrado na figura 23, é o de classificar um documento 3612 em um conjunto de uma ou mais classes 3620, que são também referidas como categorias. Na operação, o categorizador de texto 3610 atribui a um documento uma ou mais classes em um conjunto de classes que são definidas em uma ontologia representada na base de conhecimento 3622. Um exemplo de uma ontologia é a ontologia DMOZ (publicada na Internet em dmoz.org).

Além disso, o categorizador de texto 3610 inclui um módulo de pré-processamento 3614 e um módulo de raciocínio aproximado 3618. A finalidade do módulo de pré-processamento de texto 3614 é a de transformar o documento 3612 em uma representação que facilita o categorizador de texto 3610 a executar a tarefa de classificação de documento de maneira precisa, automática, eficiente e efetiva. As representações de documento 3624 produzidas pelo módulo de pré-processamento 3614 incluem um conjunto de características e pesos associados.

Diferentes combinações de técnicas conhecidas originárias do processamento de linguagem natural, tais como a tradução de HTML para texto, a sinalização, a derivação, a remoção de palavra de interrupção, as técnicas de análise gramatical, e o reconhecimento de entidade, podem ser usadas para gerar os conjuntos de características 3624. Conseqüentemente, o módulo de pré-processamento de texto 3614 pode incluir inúmeros componentes, tal como um conversor de HTML em texto, um sinalizador, um derivador, um gerador de característica com base na gramática, um gerador de características, um analisador de freqüência de palavra, e um analisador (ou extrator) de locução nominal para produzir um conjunto de características 3616 a partir do documento 3612. O valor de peso associado com cada característica é calculado com o uso de qualquer das inúmeras técnicas bem conhecidas, variando de uma contagem de freqüência normalizada para um esquema de ponderação mais sofisticado que é calculado com base em uma agregação de inúmeras medidas, tal como a freqüência de cada termo no documento, sua localização em um documento, a freqüência de cada termo em um corpo de referência, e a freqüência de documento inversa do termo. O livro-texto de Man-ning e Schutze, "Foundations of Statistical Natural Language Processing", publicado em 1999, MIT Press, Cambridge, MA, fornece uma apresentação mais detalhada do pré-processamento de texto executado pelo módulo 3614. O módulo de raciocínio aproximado 3618 processa as categorias, conforme representando em termos das regras (ou outras formas de conhecimento) armazenadas na base de conhecimento 3622, em conjunção com as representação de documento (por exemplo, características e pesos associados) 3624, para atribuir uma etiqueta de classe 3620 ao documento de entrada 3612. Em uma concretização, o módulo de pré-processamento transforma um documento 3612 em listas de sinais que são delimitadas por espaços, caracteres de pontuação, ou semelhantes. Os sinais que correspondem às palavras de interrupção (isto é, palavras que não aperfeiçoam a qualidade da categorização) são subsequentemente eliminadas desta lista de sinais. Os sinais restantes na lista são então derivados com o uso do algoritmo de derivação de Portes. Então, as palavras de interrupção são removidas da lista de palavras derivadas, resultando em uma lista de ter-mos/palavras. Finalmente, esta lista de termos é transformada em uma distribuição de freqüência que consiste em tuplas <termo, freqüência>, onde a freqüência indica o número de ocorrências desse termo no documento para definir o conjunto de termos (isto é, as representações de documento 3624).

Subseqüentemente, o módulo de raciocínio aproximado 3618 acessa uma base de conhecimento 3622 que registra variáveis (isto é, características de documento e freqüências associadas) que são usadas para definir uma função que modela o mapeamento do documento 3612, ou sua representação transformada 3624, para uma classe em uma ontologia. Uma concretização mais específica de tal base de conhecimento é representada com o uso de um conjunto de regras que descrevem relações entre as variáveis registradas. Tipicamente, cada classe é representada por uma regra. No mapeamento da função, o motor de inferência 3618 associa o documento com cada regra de classe armazenada na base de conhecimento 3622 e usa um criador de decisões para tirar conclusões à qual ação confiar. A função, conforme representada pela base de conhecimento 3622 e módulo de raciocínio aproximado 3618, pode ser definida com o uso de uma variedade de tipos de modelo que incluem o seguinte: modelos pro-babilísticos, modelos lógicos/de conjunto vago, modelos lógicos com valor Booleano; abordagens vizinhas mais próximas, e redes neurais, alguns dos quais são descritos em maiores detalhes abaixo.

Além dos elementos mostrados na Figura 23, o categorizador 3610 pode incluir um módulo de aprendizado. A formação exata do módulo de aprendizado irá depender do modelo (por exemplo, probabilístico, vago, etc.) usado pelo módulo de raciocínio aproximado 3618 para mapear um conjunto de documentos para a lista de categorias. Geralmente, o módulo de aprendizado assume exemplos de documento classificado de entrada para cada classe e gera uma base de conhecimento correspondente. C.9 Recomendando Personalidades O servidor de metadocumento 200 apresenta um serviço para recomendar as personalidades em 216 na Figura 2. Em um exemplo, as personalidades são recomendadas para cada documento depois que um usuário envia para o servidor de metadocumento 200 e que o usuário tiver selecionado a propriedade de personalidade 1214 mostrada na Figura 6. Depois que um usuário seleciona a propriedade de personalidade 1214, o recomendador de personalidade 216 automaticamente recomenda uma personalidade para cada documento enviado pelo usuário. Com a recomendação de uma personalidade, o recomendador de personalidade 216 ajuda um usuário a decidir qual de uma pluralidade de temas de enriquecimento de documento deve ser aplicado a um documento enviado através da análise de conteúdo de documento ou de outra informação contextual (por exemplo, ações executadas no documento) do documento enviado.

Em uma concretização, as personalidades que são recomendadas pelo recomendador de personalidade 216 são automaticamente conectadas ao documento enviado sem exigir a confirmação do usuário e estes documentos são imediatamente enriquecidos pelo servidor de metadocumento. Alternativamente, as personalidades que são recomendadas pelo recomendador de personalidade 216 são conectadas a um metadocumeno apenas depois que o usuário apresenta uma confirmação que a personalidade recomendada é aceitável para o usuário. A fim de decidir qual personalidade (ou personalidades) recomendar para conectar a um documento, o servidor de metadocumento 200 usa um documento enviado 3712 como entrada para o sistema recomendador de personalidade 216, uma concretização 3700 do qual é mostrada em detalhes na Figura 24. De modo geral, o sistema recomendador de personalidade 3700 mostrado na Figura 24 é similar ao categorizador de documento 3610 mostrado na Figura 23, exceto pelo fato do recomendador de personalidade atribuir uma lista de uma ou mais personalidades 3720 ao invés de uma lista de uma ou mais categorias, conforme especificado para o catego-rizador. O recomendador de personalidade 3700 pode aprender regras para recomendar personalidades e para desenvolver uma ontologia de personalidade com o uso de documentos anteriormente enviados para o servidor de metadocumento 200 e atribuída uma personalidade por um usuário.

Mais especificamente, o sistema recomendador de personalidade 3700 mostrado na Figura 24 é uma variante do categorizador de texto descrito e mostrado na Figura 23. A base de conhecimento 3722 pode ser definida manualmente com o uso de dados do banco de dados de personalidade 212, que pode conter as personalidades específicas do usuário ou personalidades geralmente disponíveis (por exemplo, com o uso de características e ponderações escolhidas manualmente para cada personalidade que poderia ser aplicada) e documentos que foram anteriormente atribuídos a essas personalidades no banco de dados de metadocumento 202.

Alternativamente, a base de conhecimento pode ser definida semi-automaticamente ou automaticamente com o uso de características e ponderações escolhidas pelas técnicas de aprendizado mecânico. No caso de aprendizado mecânico das características e ponderações, o módulo de aprendizado 3730 pode usar metadocumentos que existem no banco de dados de metadocumento 202 para treinar a base de conhecimento 3722. Subseqüentemente, o módulo de aprendizado 3730 valida a base de conhecimento 3722 com o uso do banco de dados de perfil 3708. O banco de dados do perfil do usuário 3708, que inclui porções do banco de dados de metadocumento 202 e o banco de dados de personalidade 212, inclui referências aos metadocumentos que os usuários já aplicaram uma personalidade ao mesmo.

Em operação, o módulo de pré-processamento 3614 do recomendador de personalidade 3700 extrai as características 3616 de um documento enviado 3712. Subseqüentemente, o módulo de raciocínio aproximado 3618 deriva uma lista de personalidades 3720 com o uso da base de conhecimento 3722. Estas características extraídas seriam então exploradas, novamente com o uso de técnicas padrões (usando, por exemplo, a inferência Bayesiana, a distância de cosseno, conforme descrito acima), para classificar o novo documento e classificar a possível lista de personalidades 3720 para recomendar o conteúdo de documento especificado de enriquecimento. Cada classificação de personalidade acima de um certo limite ou apenas as personalidades superiores N(N>=1) podem ser recomendadas pelo módulo de raciocínio aproximado 3618.

Em uma variante do recomendador de personalidade 3700, as personalidades classificadas para um novo documento são novamente classificadas com o uso do perfil do usuário. Por exemplo, se o módulo de raciocínio aproximado 3618 conectar a um documento uma personalidade comercial e esportiva, mas o próprio perfil do usuário em 3708 revelar que este usuário jamais aplicou uma personalidade comercial, então a classificação poderá ser alterada em 3701, de modo que apenas a personalidade esportiva seja proposta, ou aplicada com uma maior prioridade, antes da personalidade comercial. Conseqüentemente, as recomendações de personalidade podem ser configuradas para um usuário específico que usa o histórico de interação do usuário com o servidor de metadocumento 200.

Claims

1. Sistema para enriquecer conteúdo de documento, caracterizado pelo fato de que compreende: uma interface de usuário para especificar uma personalidade (104) que define um conjunto de solicitações de serviço de documento (106) que identifica temas de enriquecimento; um usuário-gerenciador (214) para receber o conteúdo de documento (102) e a personalidade (104); o usuário-gerenciador (214) formando um metadocumento (100) com o conteúdo do documento (102) e a personalidade (104); um agendador (204) para selecionar uma solicitação de serviço de documento (106) a partir do conjunto; o agendador (204) iniciando e ge-renciando a comunicação com um provedor de serviço para satisfazer o serviço de documento selecionado; um gerenciador de conteúdo (208) para integrar os resultados a partir do serviço de documento selecionado no metadocumento (100) como marca de documento (108); em que a interface do usuário, o usuário-gerenciador (214), o agendador (204), e o gerenciador de conteúdo (208) operam juntos para gerarem ou recomendarem novas personalidades ou para modificarem personalidades existentes com o uso de uma ou mais em combinação de um conjunto de computações algébricas, um conjunto de referências de documento, um conjunto de personalidades predefinidas, um conjunto de personalidades de aprendizado, um nível de conhecimento, e uma classificação de personalidades.

2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: um extrator de entidade (1802) para desenvolver um documento expandido (1800) com um conjunto de documentos identificados e construir um banco de dados de entidade (1804) com o documento expandido (1800), e um gerador de serviço (1806) para criar uma solicitação de ser- viço para cada formulário identificado no documento expandido (1800) e definir uma nova personalidade usando as solicitações de serviço criadas e o banco de dados de entidade (1804).

3. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: meios para receber uma questão definida pelo usuário; meios para identificar léxicos na questão definida pelo usuário; meios para substituir os léxicos identificados com símbolos genéricos para definir uma questão genérica; meios para acrescentar a questão genérica a uma nova personalidade ou a uma personalidade existente.