BRPI0203479B1 - Sistema para enriquecer conteúdo de documento - Google Patents

Sistema para enriquecer conteúdo de documento Download PDF

Info

Publication number
BRPI0203479B1
BRPI0203479B1 BRPI0203479-4A BR0203479A BRPI0203479B1 BR PI0203479 B1 BRPI0203479 B1 BR PI0203479B1 BR 0203479 A BR0203479 A BR 0203479A BR PI0203479 B1 BRPI0203479 B1 BR PI0203479B1
Authority
BR
Brazil
Prior art keywords
document
personality
service
content
user
Prior art date
Application number
BRPI0203479-4A
Other languages
English (en)
Other versions
BR0203479A (pt
Inventor
Gregory T Grefenstette
James G Shanahan
Christer Fernstrom
Laurence Hubert
Nicolas Guerin
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of BR0203479A publication Critical patent/BR0203479A/pt
Publication of BRPI0203479B1 publication Critical patent/BRPI0203479B1/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

Relatório Descritivo da Patente de Invenção para "SISTEMA PARA ENRIQUECER CONTEÚDO DE DOCUMENTO".
Antecedentes da Invenção A invenção refere-se, de maneira geral, ao gerenciamento e ao uso de documentos, e, em particular ao gerenciamento e ao uso aperfeiçoados de documentos que podem atuar como agentes, gerando solicitações para informação, procurando, recuperando e empacotando então respostas para enriquecer os documentos, enquanto facilitam a compreensão de leitura, as relações de entendimento com outros documentos, e a criação de conteúdo. Em particular, esta invenção refere-se a um servidor de metado-cumento com personalidades definíveis pelo usuário. O gerenciamento do conhecimento através do gerenciamento de documentos forma uma parte importante do ciclo de vida de criação e compartilhamento de conhecimento. Um modelo típico de criação e compartilhamento de conhecimento é cíclico, consistindo em três etapas principais: da sintetização (pesquisa, agrupamento, aquisição e assimilação), do compartilhamento (apresentação, publicação/distribuição), e de serviços (facilitar o uso de documentos para a formação de decisão, criatividade inovativa). A maioria dos sistemas considera os documentos como objetos estáticos que apenas adquirem novo conteúdo, quando influenciados por um usuário autorizado. A decisão de um usuário ler e modificar um documento ou executar um programa no mesmo que pode mudar seus conteúdos (por exemplo, com a adição de hiperligações), é necessária para que o documento adquira nova informação. Esta vista do documento como um repositório passivo leva à situação comum na qual documentos permanecem estáticos, a menos que um usuário esteja defronte a uma tela pilotando o sistema. Não obstante estes processos existentes para estaticamente e ativamente enriquecer o conteúdo de documentos, continua a existir a necessidade de se prover uma arquitetura aperfeiçoada de enriquecimento de documento que permite o uso ubíquo de serviços de enriquecimento de documento. Tal arquitetura aperfeiçoada de enriquecimento de documento vantajosamente proveria processos para facilitar o uso de tais serviços com a conexão, o monitoramento e a sugestão automáticos de tais serviços para usuários.
Sumário da Invenção De acordo com a invenção, é provido um sistema, e um processo para o mesmo, para enriquecer conteúdo de documentos. O sistema inclui uma interface de usuário para especificar uma personalidade que define um conjunto de solicitações de serviço de documento que identificam os temas de enriquecimento. Um usuário-gerenciador recebe o conteúdo de documentos e a personalidade especificada na interface do usuário. O usuário-gerenciador forma um metadocumento com o conteúdo de documento e a personalidade. Um escalonamento seleciona uma solicitação de serviço de documento a partir do conjunto para iniciar e gerenciar a comunicação com um provedor de serviço para satisfazer o serviço de documento selecionado. Um gerenciador de conteúdo integra os resultados originários do serviço de documento selecionado no metadocumento como marca de documento. A interface do usuário, o usuário-gerenciador, o escalonamento, e o gerenciador de conteúdo operam juntos para gerar ou recomendar novas personalidades ou modificar as personalidades existentes com o uso de uma ou mais na combinação de um conjunto de computações algébricas, um conjunto de referências de documento, um conjunto de personalidades predefinidas, um conjunto de personalidades de aprendizado, um nível de conhecimento, e uma classificação de personalidades.
Breve Descrição dos Desenhos Estes e outros aspectos da invenção se tornarão evidentes a partir da seguinte descrição lida em conjunção com os desenhos anexos, nos quais numerais de referência semelhantes foram aplicados a partes semelhantes e nos quais: A Figura 1 é uma vista esquemática de um metadocumento, de acordo com uma concretização da invenção. A Figura 2 ilustra um diagrama de bloco de um sistema que incorpora um servidor de metadocumento. A Figura 3 é uma vista esquemática de enriquecimento de meta-documento, de acordo com uma concretização da invenção. A Figura 4 ilustra um exemplo de enriquecimento de metadocu-mento, conforme ilustrado na Figura 3. A Figura 5 ilustra uma interface de cliente para acessar o servidor de metadocumento mostrado na Figura 2. A Figura 6 ilustra uma ampliação da janela 1014 mostrada na Figura 5 para uma personalidade de arquitetura na qual são selecionadas personalidades de casas de fardos de feno e casas de pneumáticos. A Figura 7 ilustra um exemplo de uma janela de propriedades 1210 que é exibida quando o botão de configuração de propriedades 1022 é selecionado na Figura 5. A Figura 8 ilustra uma concretização de uma interface de cliente para criar e/ou modificar personalidades. A Figura 9 ilustra uma janela de cliente para especificar propriedades de pesquisas executadas no serviço de recuperação de informação definido na Figura 8. A Figura 10 ilustra outra concretização de uma interface de cliente para criar e/ou modificar personalidades. A Figura 11 ilustra uma interface de cliente para criar e/ou modificar personalidades através da execução de operações para grupos de personalidades. A Figura 12 é um diagrama de fluxo que ilustra etapas para gerar uma personalidade. A Figura 13 ilustra um exemplo de um documento expandido 1800, desenvolvido com o abaixamento de dois níveis. A Figura 14 ilustra um formulário que pode ser usado para criar serviços. A Figura 15 ilustra quatro serviços que podem ser gerados com o uso do formulário mostrado na Figura 14. A Figura 16 é um diagrama de fluxo que descreve um processo para filtrar serviços no procedimento 1716, na Figura 12. A Figura 17 ilustra uma representação gráfica de um processo de seleção para selecionar serviços com a mais alta medida de similaridade. A Figura 18 é um diagrama de fluxo que descreve outro processo para filtrar serviços no procedimento 1716, na Figura 12. A Figura 19 é um digrama de fluxo que descreve uma concretização para identificar uma resposta de uma pergunta exemplificativa. A Figura 20 ilustra uma lista de exemplos de serviços disponíveis, quando uma personalidade de aprendizado de linguagem é selecionada para enriquecer conteúdo de documento. A Figura 21 ilustra uma lista de exemplo de serviços disponíveis, quando uma personalidade de aprendizado de linguagem é selecionada para enriquecer conteúdo de documento. A Figura 22 ilustra uma interface de cliente para seletivamente especificar personalidade e/ou comportamentos de serviço para entidades reconhecidas no conteúdo especificado ou documentos. A Figura 23 ilustra um categorizador de texto. A Figura 24 ilustra um recomendador de personalidade.
Descrição Detalhada A. Definição dos Termos Os termos definidos abaixo apresentam significados indicados por todo este pedido, incluindo as reivindicações: "Anotar" é usado aqui para indicar a criação de uma referência entre uma entidade em um documento, ou região de um documento, e algum conjunto de links, segmento de texto, imagens, ou dados embutidos (por exemplo, glifos). "Recuperação de Conteúdo" é usado aqui para indicar uma anotação que consiste em conteúdo obtido com o seguimento de uma série de um ou mais links e com a recuperação de seu conteúdo, cujo conteúdo pode ser filtrado ou reformatado depois da recuperação.
Um "documento" é usado aqui para indicar um registro de informação eletrônico (por exemplo, digital) ou físico (por exemplo, papel). Em sua forma eletrônica, um documento pode incluir dados de imagem, dados de áudio, ou dados de vídeo: Os dados de imagem podem incluir texto, gráficos ou mapas de bits. "Marca" de documento é usado aqui para indicar a anotação aplicada a um documento.
Uma "alma de documento" é usada aqui para indicar uma personalidade que permanece conectada a um documento por um período prolongado de tempo que pode ser indefinido ou pré-especificado de duração finita. "Enriquecer" é usado aqui para indicar uma anotação de um documento de acordo com uma personalidade predefinida. "Entidade" é usado aqui para indicar algo reconhecido em um documento (por exemplo, o nome de uma pessoa, uma localização, um termo médico, uma entidade de gráficos que pode incluir dados de imagem, dados gráficos, dados de áudio ou dados de vídeo) que pode se apresentar na forma de uma imagem, texto, dados embutidos, HTML, etc. "Espaço de informação" é usado aqui para indicar todo o conjunto de anotações associadas com uma entidade, um segmento de documento, um documento, ou um conjunto de documentos.
Um "Léxico" é usado aqui para indicar uma estrutura de dados, programa, objeto ou dispositivo que indica um conjunto de palavras que podem ocorrer em um conjunto de linguagem natural. Um léxico pode ser considerado como "aceitando" uma palavra que ele indica, e essas palavras podem assim ser denominadas de "aceitáveis" ou podem ser mencionadas como "constantes" do léxico ou "que ocorrem" no léxico.
Uma "ligação" é usada aqui para indicar, por meio de exemplo, um URL (Localizador de Recursos Uniformes) associado com um segmento de texto ou um segmento de imagem.
Uma "personalidade" é usada aqui para indicar um conjunto temático de serviços que pode ser aplicado para enriquecer um documento.
Um "serviço" é usado aqui para indicar um programa que apresenta uma nova marca com base no conteúdo e nos metadados em um documento em seu estado comum. Por exemplo, o programa pode identificar entidades em um documento* e anotar cada entidade com dados associados a essa entidade (por exemplo, em um banco de dados). Por exemplo, um serviço pode enriquecer um documento com informação externa e/ou acrescentar novos serviços.
Um "segmento de texto" é usado aqui para indicar uma seqüên-cia contínua de bytes em um documento, ou um grupo de tais segmentos. B. Características Gerais Um diagrama de bloco de um metadocumento ou "alma de documento" 100 é mostrado na Figura 1. O metadocumento 100 inclui um identificador 101, uma porção de conteúdo 102, que é um documento criado por um usuário ou obtido por um usuário, e uma personalidade 104. A personalidade 104 é um conjunto de uma ou mais solicitações de serviço de documento 106 e um banco de dados de entidade 111.0 banco de dados da entidade pode incluir um ou mais bancos de dados de entidade separados, onde cada banco de dados de entidade identifica uma classe de entidades (por exemplo, nomes de pessoas, nomes de cidade, nomes de estabelecimentos comerciais, etc.). Em uma concretização, a personalidade 104 não inclui o banco de dados de entidade 111, mas, ao invés disso, inclui solicitações de serviço de documento que identificam entidades. Em outra concretização, o banco de dados de entidade 111 registra entidades centrais de documento (isto é, entidades que se referem exclusivamente ao conteúdo de documento 102) que são especificadas por um usuário ou pelo sistema. Será apreciado por aqueles versados na técnica que as solicitações de serviço de documento 106 e o(s) banco(s) de dados de entidade 111 que faz(em) parte do metadocumento 100 podem incluir o conteúdo de uma solicitação de serviço de documento e um banco de dados de entidade e/ou podem incluir referências a uma solicitação de serviço de documento e um banco de dados de entidade (por exemplo, no banco de dados de serviços 210). O identificador 101 pode incluir outros dados administrativos, tais como criador, proprietário, tamanho, permissões de acesso, etc. B.1 O Ciclo de Gerenciamento de Conhecimento A Figura 2 ilustra um sistema de gerenciamento de metadocu- mento 201, dentro do qual é produzido o metadocumento 100 como resultado de um processo de cristalização de conhecimento, onde o processo pode durar por toda a existência do documento. Tipicamente, a vida de um metadocumento começa com um foco e uma finalidade que ajudam a direcionar e a aprimorar a fase de síntese. Durante a fase de síntese, o metadocumento 100 prevê as necessidades de informação do escritor ou do leitor, seja independentemente através de um conjunto predefinido de solicitações de serviço de documento, seja seguindo as instruções específicas ou customizadas, e executa as tarefas, às vezes, monótonas de pesquisar, agrupar, assimilar, e organizar a informação relevante ao conteúdo do documento.
As ações da fase de síntese ocorrem através da ativação de uma ou mais solicitações de serviço de documento 106. As solicitações de serviço de documento 106 podem ser ativadas, enquanto o usuário está criando ou trabalhando no metadocumento 100, ou quando o usuário pôs de lado o metadocumento 100, de modo que as solicitações de serviço possam se beneficiar do tempo ocioso do computador, da largura de faixa de rede desocupada, etc. A ativação de uma solicitação de serviço de documento 106, enquanto o usuário trabalha no documento, tem a vantagem adicional de permitir que o metadocumento seja instruído a cerca das preferências do usuário. As solicitações de serviço de documento 106 podem ser ativadas automaticamente por um escalonamento 204 ou manualmente por um usuário. A próxima fase no ciclo de gerenciamento de conhecimento refere-se ao compartilhamento da informação produzida durante a fase de sintetização. Tipicamente, a fase de compartilhamento consiste na integração da informação agrupada durante a fase de sintetização nos conteúdos do metadocumento 100 em um formato útil para o usuário, pessoa, ou comunidade que venha a usar o documento. O conteúdo do documento pode ser adicionalmente intensificado pelo usuário com a atribuição de uma personalidade ao documento que marca o documento com informação que facilita o entendimento do conteúdo ou que regularmente fornece mais atualizações recentes relacionadas ao conteúdo. A etapa de serviços final no ciclo trata de atualizações periódicas, por meio das quais o metadocumento executa as solicitações de serviço predefinidas em nome do usuário. Por exemplo, o metadocumento pode manter atualizada a informação da temperatura de uma cidade identificada. B.2 Serviços Com referência, novamente, à Figura 2, um ou mais metadocu-mentos 100 são armazenados em um servidor de metadocumento 200 no banco de dados de metadocumento 202. Em uma concretização alternativa, as referências do documento (por exemplo, os URLs) são armazenadas em um banco de dados de metadocumento 202 e seu conteúdo mencionado no servidor de arquivo da rede 220. Cada metadocumento 100 no servidor de metadocumento 200 é dotado de um conjunto de solicitações de serviço de documento cujo cada metadocumento 100 é exercitado sob o controle de um escalonamento ou daemon de escalonamento 204, que desperta cada metadocumento no banco de dados 202 de acordo com algum horário predeterminado. O escalonamento 204 pode ser implementado em um mecanismo de software que acessa as solicitações de serviço de documento 106, banco de dados de entidade 111, e conteúdo em um metadocumento 100.
Conforme ilustrado na Figura 3, depois que o escalonamento 204 desperta o metadocumento 100, o metadocumento 100 informa o escalonamento 204 de seu conjunto atual de solicitações de serviço de documento 301. Dependendo dos recursos (por exemplo, provedores de serviço que podem cumprir ou satisfazer uma solicitação de serviço de documento específica) disponíveis ao servidor de metadocumento 200, o escalonamento 204 escolhe uma solicitação de serviço de documento 106 para cumprir (indicado pela seta 300). Subseqüentemente, o escalonamento 204 chama provedores de serviço 206 identificados com o uso de banco de dados de serviços 210 para satisfazer essas solicitações. O banco de dados de serviços 210 inclui "processos de provedor de serviço" para consulta e provedores de serviço de seleção (incluindo dados de autenticação associados com cada serviço), "processos de entidade" para identificar entidades no conteúdo do documento que usa todo o banco de dados 111 ou bancos de dados de entidade no banco de dados de serviços 210 ou disponíveis como um serviço de rede 206, "processos de notificação" para notificar um usuário de novo enriquecimento, expressões regulares, léxicos, e um categorizador. Em outras concretizações, o banco de dados de serviços 210 também inclui processos de gerenciamento de direitos de conteúdo. O cumprimento de uma solicitação de serviço de documento indica o acesso a um provedor de serviço a partir do banco de dados de serviços 210 (por exemplo, selecionando um provedor de serviço a partir de uma lista de possíveis provedores de serviço) que inclui alguns processos (ou programas) que são chamados pelo escalonamento para acessar o conteúdo de documento 102 (indicado pela seta 302) e a marca de documento 108 (indicada pela seta 304). Os resultados recebidos dos provedores de serviço 206 são integrados novamente no metadocumento original 100 pelo gerenciador de conteúdo 208. Isto é, estes processos terminam com a produção de marca específica de documento 108 (indicada pela seta 306) e/ou novas solicitações de serviço de documento 106 (indicadas pela seta 308), ambas as quais sendo acrescentadas ao metadocumento 100 pelo gerenciador de conteúdo 208. B.3 Personalidades O servidor de metadocumento 200 apresenta uma solução ao longo para a criação e o compartilhamento de conhecimento com base no documento em uma maneira customizável. A customização é provida pelo mecanismo de personalidades dentro de um servidor de metadocumento. As personalidades são atribuídas a um documento, auxiliando assim um usuário na aquisição, compartilhamento e utilização de conhecimento; isto cria uma visão documental do mundo em oposição a uma visão global como nos portais atuais do Web. Uma ou mais personalidades podem ser conectadas a um documento. Cada personalidade tematicamente e/ou contextualmente codifica uma coleção de solicitações de serviço de documento 106 que permitirá que o documento atue de maneira autônoma em nome do criador ou leitor, prevendo as necessidades de informação tanto do escritor como do leitor de documentos, mantendo o documento conectado e atualizado com o resto do mundo da informação.
Um metadocumento 100, por exemplo, pode receber uma personalidade 104 que é: (a) inquisitiva: um conjunto de solicitações de serviço de documento para descobrir mais informação a cerca dos conceitos presentes no conteúdo de documento, encontrar biografias de pessoas mencionadas no conteúdo, (b) poliglota: procura saber as traduções das palavras, termos e locuções contidos no documento, (c) privada: marcada para manter os metadados do documento invisíveis a outros documentos, (d) científica: procura por versões online dos documentos citados no conteúdo de documento, ou (e) genealógica: procura por documentos que contenham conteúdos similares como si própria. B.4 Processos para Identificar e Usar Entidades Conforme mostrado na Figura 3, uma personalidade 104 identifica uma ou mais solicitações de serviço 106. Cada solicitação de serviço inclui processos para: (a) reconhecer entidades no conteúdo do documento 102; e (b) acessar um serviço que usa as entidades reconhecidas.
As entidades incluem nomes próprios (por exemplo, pessoas, lugares, organizações, etc.), tempos, localizações, quantidades, citações (por exemplo, títulos de livro), endereços, etc. As entidades podem ser reconhecidas com o uso de uma variedade de técnicas conhecidas que podem incluir qualquer expressão ou uma combinação de expressões regulares, léxicos, palavras-chaves, e regras. Um léxico é tipicamente um banco de dados de tuplas da forma <entity-string, part-of-speeche-tag, entity-type> onde: uma entity-string é a cadeia de caracteres que forma a entidade (por exemplo, o nome "John Smith" de uma pessoa); uma part-of-speech-tag, que é opcional, indica o uso gramatical da entidade (por exemplo, como um substantivo, uma locução nominal, um verbo, etc); e entity-type indica se a entidade pertence a uma ou mais classes predefinidas (isto é, categorias) de entidades (por exemplo, pessoa, organização, nome da companhia, etc.). Uma cadeia de texto contínua será reconhecida como uma entidade, se a cadeia for aceita como pertencendo ao léxico.
As entidades podem ser reconhecidas pela associação de cadeia ou com o uso de expressões regulares. Por exemplo, o nome de uma pessoa poderia ser reconhecido como duas palavras escritas com letras maiusculas. Expressões regulares podem ser expressas em termos do conteúdo de documento textual atual (isto é, palavras) ou em termos da marca lingüística associada com o conteúdo textual. Esta marca linguística poderia incluir parte de identificadores de fala (tais como locuções nominais, substantivos, etc.) ou identificadores de análise gramatical superficiais.
Como um meio alternativo de reconhecer entidades, podem ser usadas algumas regras. Por exemplo, a regra, a seguir, poderia ser usada para reconhecer nomes próprios: se a "palavra" fosse escrita com letras maiúsculas, e não constasse do léxico (ou dicionário, ou tesauro), então a palavra seria um nome próprio. A Figura 4 ilustra um exemplo no qual um metadocumento 100 é enriquecido com o uso de uma personalidade 104 especificada no mesmo. Em algum tempo predeterminado ou em intervalos de tempo pré-especificados, o escalonamento 204 desperta e identifica solicitações de serviço de documento 410. O escalonamento chama então os processos da solicitação de serviço de documento referenciada em 412 no banco de dados de serviço 210. Os processos de uma solicitação de serviço de documento referida no banco de dados de serviço 210 podem incluir expressões regulares, léxicos, seleção de provedor de serviço, dados de autenticação associados com cada serviço, e gerenciamento de direitos de conteúdo. Na execução do processo identificado pela referência 412, é identificado um serviço originário dos serviços de rede 206 que reconhece as entidades originárias do tipo de entidade "Nome da Companhia" também armazenado no banco de dados de serviço 210.
Uma vez que o serviço identificado é executado pelo escalonamento 204, ele fornece seus resultados ao gerenciador de conteúdo 208 que subseqüentemente executa uma ou mais das seguintes tarefas: (a) marca a solicitação de serviço de documento 410 à medida que completada em 414; (b) marca a solicitação de serviço de documento 416 como não mais espe- rando pela entrada, mas espetendo para ser executada; e (c) insere entidades originárias do tipo de entidade Nome da Companhia e que aparecem no conteúdo de documento 102, bem como sua(s) localização(ções) no conteúdo de documento 102 em 418.
Quando o escalonamento subseqüentemente identifica a solicitação de serviço de documento 416, o escalonamento irá similarmente identificar um processo 420 originário do banco de dados de serviço 210 que irá usar o serviço de cotação de ações para verificar as entidades de Nome da Companhia identificadas em 418. Estes resultados de cotação de ações serão similarmente inseridos na marca de documento 108 e ligados diretamente às entidades 418 que, por sua vez, são ligados às localizações no conteúdo de documento. Alternativamente, ao invés de inserir os resultados da cotação de ações em 418, o serviço identificado pela solicitação 416 será inserido como marca de documento 108 a ser iniciada, quando o usuário acessar as entidades identificadas no conteúdo de documento 102. C. Criando e Modificando Personalidades Esta seção refere-se à formação e/ou customização de indivíduo ou grupos de personalidades. Será apreciado por aqueles versados na técnica que os diferentes processos descritos aqui para formar e/ou customizar personalidades podem ser usados por iniciativa própria ou em combinação. A Figura 5 ilustra uma interface de cliente 1010 para o acesso direto ao servidor de metadocumento 200 mostrado na Figura 2. Ta! interface de cliente pode operar em um computador de usuário 226 ou dispositivo de computação móvel 219. Em um formulário, a interface de cliente 1010 é chamada com a especificação de um endereço (por exemplo, o URL) do servidor de metadocumento 200 em qualquer Internet convencional ou navegador. Outras formas da interface podem ser acessadas, por exemplo, com o uso de um programa específico de aplicação.
Depois da entrada no sistema em uma tela de entrada (não-mostrada) através do gerenciador de usuário 214, um usuário tem a habilidade de especificar uma localização de um documento a ser atualizado e armazenado no banco de dados do metadocumento 202 em 1012. Depois que a referência de documento especificada em 1012 é atualizada e armazenada no banco de dados de documento 202, uma personalidade 1016 é selecionada a partir da janela de personalidades 1014.
Uma vez que a personalidade 1016 é selecionada, o servidor de metadocumento pode imediatamente e/ou em um ponto posterior no tempo, dependendo dos serviços de documento especificados na personalidade, enriquecer o conteúdo de documento atualizado, conforme descrito aqui. No caso do conteúdo de documento ser imediatamente anotado com os serviços de documento explicados na personalidade selecionada, os resultados serão exibidos na janela 1018 e os resultados de serviço globais na janela 1020.
As personalidades na janela 1014 podem ser dispostas em uma variedade de visualizações que podem especificar personalidades privadas, compartilhadas ou públicas. Estas personalidades são registradas no banco de dados de personalidade 212 mostrado na Figura 2. As personalidades compartilhadas podem receber permissões de acesso diferentes (por exemplo, alguns usuários podem ser capazes de ler ou modificar uma personalidade, enquanto outros podem apenas ser capazes de ler uma personalidade).
Além disso, a janela 1014 permite que uma ou mais personalidades sejam selecionadas e simultaneamente aplicadas para enriquecer um documento enviado. Em uma concretização, isto é conseguido com a seleção de uma única personalidade ou uma pasta de personalidades, conforme mostrado na Figura 5 na personalidade de analista 1016. Alternativamente, personalidades específicas podem ser selecionadas para serem aplicadas ao conteúdo de documento enviado. A Figura 6 ilustra uma ampliação da janela 1014 mostrada na Figura 5 para a personalidade de arquitetura na qual personalidades de casas de fardos de feno e casas de pneumáticos são selecionadas em 1102 e 1104, respectivamente. O botão de chamada 1022 na interface 1010 cria uma janela de propriedades para um usuário. A Figura 7 ilustra um exemplo de uma janela de propriedades 1210 que será exibida, quando o botão de configuração de propriedades 1022 for selecionado na Figura 5. Na janela 1210, um usuário é capaz de especificar uma personalidade padrão em 1212 ou para ter uma personalidade recomendada, quando um documento for enviado para servidor de metadocumento 200, em 1214. Uma personalidade padrão em 1212, disponível a um usuário, é "nenhuma", a qual, caso selecionada, exigirá que um usuário especifique uma personalidade manualmente a partir da janela 1014 depois do envio de um documento. Além disso, a janela de propriedades 1210 permite que um usuário crie e/ou modifique personalidades específicas através da seleção do botão 1216, os detalhes do qual serão discutidos abaixo. C.1 Generalidades Em uma concretização para criar e/ou modificar personalidades, uma janela 1310, mostrada na Figura 8, é revelada com duas subjanelas 1312 e 1314 depois da seleção do botão 1216 mostrado na Figura 7. A primeira subjanela 1312 apresenta uma lista de todas as personalidades disponíveis, enquanto que a segunda subjanela 1314 apresenta uma lista de categorias de serviços disponíveis para uma personalidade selecionada a partir da subjanela 1312. No exemplo mostrado na Figura 8, a personalidade de "empresa de vigilância" é selecionada em 1316. Cada categoria de serviços mostrada na subjanela 1314 é selecionável para permitir que um usuário especifique um ou mais serviços de documento específicos (por exemplo, o serviço de recuperação de informação 1318). A Figura 9 ilustra uma janela 1400 com o serviço de recuperação de informação 1318 no qual as pesquisas podem ser selecionadas para categorias específicas. No exemplo mostrado na Figura 9, as categorias de computação e pessoas são selecionadas em 1404 e 1408, respectivamente. Na operação durante o enriquecimento, são chamados apenas aqueles serviços que são selecionados. Além disso, as pesquisas executadas pelos serviços serão limitadas às categorias especificadas. Isto é, as pesquisas executadas por um serviço selecionado podem ser limitadas a uma categoria específica no diretório do provedor de informação (por exemplo, Googgle®) do conteúdo de informação. Por exemplo, o serviço 1408 é limitado à cate- goria "pessoas" do conteúdo da informação do provedor de informação "Go-ogle".
Além disso, a Figura 9 ilustra que os serviços selecionados podem ser atualizados ou renovados em 1450 em uma base periódica, tal como em uma base diária, semanal, mensal ou automática em 1452-1455, respectivamente. O período de atualização automática em 1455 é determinado, por exemplo, com o uso: (a) do histórico ou registro de acesso de um navegador (por exemplo, quão recentemente o endereço dos serviços foi acessado por um usuário); e/ou (b) do monitoramento dos resultados recebidos a partir do serviço sobre um período de tempo; se eles mudam em uma taxa freqüente, então o período de renovação deve ser ajustado para ser freqüente. Alternativamente, um serviço selecionado pode ser especificado para não ser jamais atualizado (isto é, para executar um único procedimento) ou até o final do período predeterminado (por exemplo, até 2003), conforme ilustrado em 1451 e 1456, respectivamente. Em outra concretização não-mostrada, o serviço selecionado pode ser especificado para ser atualizado até que uma finalidade específica expire (por exemplo, enquanto uma pessoa é um menor de idade). Em ainda uma concretização adicional não mostrada, o serviço selecionado pode ser especificado para ser atualizado até que ele não mais retorne os resultados relevantes. Também a Figura 9 ilustra que o custo pode ser definido para cada serviço em 1440 como isento, em 1442, ou para pagamento, em 1444, para o qual pode ser definido um montante máximo.
Em outra concretização para criar e/ou modificar personalidades, uma janela 1502 será revelada, conforme mostrado na Figura 10, quando o botão 1216 for selecionado na Figura 7. Nesta concretização, um usuário tem a habilidade de especificar um nome de uma personalidade em 1504 e criá-lo, seja (a) com a modificação das personalidades existentes em 1506, seja (b) com o uso de um conjunto selecionado de arquivos e/ou pasta com arquivos em 1508, ou (c) com o uso do conteúdo originário de um arquivo ou de um website selecionado em 1510. C. 2 Usando uma Álgebra Em uma concretização, as personalidades podem ser especificadas através da modificação em 1506, na Figura 10, por meio da configuração de personalidades existentes com o uso de uma álgebra. Uma personalidade específica pode ser configurada com o uso de uma álgebra que mescla, acrescenta, subtrai, compõe (isto é, personalidades que são compostas juntas com o uso de um operador de composição permitem que os resultados de uma personalidade sejam usados como entrada de outra personalidade), ou intersecta conjuntos de duas ou mais personalidades. Por exemplo, pode ser desejável eliminar quaisquer referências à ciência de computador em uma personalidade "vigilância de tecnologia" muito comum. A Figura 11 ilustra um exemplo de uma interface do usuário 1600 na qual personalidades são ou acrescentadas juntas ou subtraídas uma da outra, em 1602 e 1604, respectivamente, para formar uma nova personalidade ou uma personalidade modificada.
Em uma concretização, as personalidades são definidas com o uso de uma coleção de tuplas (isto é, conjunto de elementos ordenados) de serviços S e léxicos L [Si.Lj]. Uma primeira personalidade A e uma segunda personalidade B são mescladas através da formação da união de suas tuplas [S,A, Lja] e [Skb,Lmb], respectivamente. Se quaisquer dos serviços SA ou S«B em cada personalidade forem os mesmos, então o novo serviço consistirá de [S,A, Ln], onde I_n é a união de Uja e LMB. Além disso, uma primeira personalidade A pode ficar restrita com a remoção de uma personalidade existente B da mesma através da criação de uma nova personalidade com: (a) a remoção de quaisquer serviços que sejam os mesmos em ambas as personalidades A e B, e/ou (b) a subtração do léxico LB do léxico LA que corresponde a esse serviço. Alternativamente, as técnicas esboçadas na seção D. 3 abaixo podem ser aplicadas aos serviços em personalidades selecionadas para selecionar e/ou organizar os serviços da nova personalidade. C.3 Usando uma Lista de Links Em outra concretização, o servidor de metadocumento automaticamente gera, com a demanda, uma personalidade que usa um conjunto específico de documentos ou referências ao mesmo. Por exemplo, o conjunto de documentos poderia ser definido com o uso de todos os arquivos em uma pasta de um computador pessoal, onde o conjunto de arquivos poderia conter o conteúdo textual que é ligado a outro conteúdo ou que se refere a outro conteúdo (por exemplo, com o uso de hiperligações). Alternativamente, o conjunto de documentos poderia ser identificado com o uso de uma consulta predefinida, tal como uma consulta SQL. Em ainda outra concretização, o conjunto do documento pode compreender todos os documento no espaço de informação de meta documento.
Vantajosamente, as personalidades geradas são centrais do usuário, uma vez que elas são construídas na informação que é explicitamente selecionada por um usuário. Ém uma concretização, este serviço para automaticamente gerar personalidades é chamado na janela 1502, em 1508. Uma vez que um usuário especifica um conjunto de documentos, em 1509, e inicia uma solicitação para o serviço, em 1512, um processo explicado no diagrama de fluxo descrito na Figura 12 é executado pelo servidor de meta-documento para gerar uma personalidade. Será apreciado que, em uma concretização alternativa, o servidor de metadocumento usa este processo por iniciativa própria dada uma coleção de documentos identificador por uma pesquisa, por exemplo.
Inicialmente, em 1702, o processo de criação de personalidade recebe um conjunto específico de documentos e/ou pastas contendo um conjunto de documentos. Este conjunto de documentos é definido como um conjunto de documento de nível N=0. Em 1704, todos os links são extraídos do conjunto de documento de nível N. Em 1706, o conteúdo indicado pelos links extraídos é buscado e usado para definir um conjunto de documento de nível N+1. Em 1708, se os níveis adicionais tiverem que ser diminuídos, então a ação em 1704 será repetida; de outro modo, um documento expandido é definido com o uso de conjuntos de documento N definidos em 1702 e 1706.
Mais geralmente, a coleção de conjuntos de documentos N são mencionados como um documento expandido. O documento expandido, que pode ser visto como uma lista de documentos, consiste em documentos selecionados pelo usuário e os documentos ligados a esse documentos selecionados. A Figura 13 ilustra um exemplo de um documento expandido 1800, desenvolvido pelo abaixamento de dois níveis de um conjunto de documento de nível N=0 1801. Isto é, o documento expandido 1800 consiste no conjunto de documentos de nível N=0 1801, em um conjunto de documentos de nível N=1 1803, e em um conjunto de documentos de nível N=2 1805. Neste exemplo, o documento de nível N=0 consiste em um único documento com três links, que fazem referência aos documentos no conjunto de documento de nível N=1 1803.
Com referência às Figuras 12 e 13, um extrator de entidade 1802 constrói um banco de dados de entidade 1804 com o uso do documento expandido 1800 (que, em uma concretização, o extrator de entidade criou), em 1710. O extrator de entidade 1802 inclui regras genéricas para extrair tipos de entidade, tais como nomes de cidades, pessoas, produtos, datas, locuções nominais, etc. Estas regras genéricas não especificam entidades per se. Ao invés disso, eles especificam entidades genéricas que são capazes de detectar que um substantivo escrito em letras maiúsculas provavelmente seja o nome de uma pessoa ao invés de um nome de uma cidade, que pode ser executada com o uso do contexto que circunda o substantivo identificado.
Além disso, uma entidade que é extraída é indexada para indicar novamente a localização na qual ela foi mencionada. Além disso, o banco de dados de entidade inclui informação contextual relacionada ao uso da entidade.
Subseqüentemente, o banco de dados de entidade 1804 é usado por um gerador de serviço 1806 para gerar serviços de documento ou solicitações de serviço de documento 1808. A combinação do banco de dados de entidade 1804 e solicitações de serviço de documento 1808 é então usada para definir uma nova personalidade. Esta nova personalidade pode ser, em seguida, aplicada a um documento enviado para o servidor de me-tadocumento e enriquecido, conforme descrito acima.
Inicialmente, em 1714, o gerador de serviço 1806 identifica e extrai todas as formas questionáveis no documento expandido 1800. Formas questionáveis podem ser identificadas, por exemplo, por uma ou mais etiquetas. Em uma concretização, cada página do documento expandido 1800 é escaneada para os formulários XML (Linguagem de Marca Extensível) e HTML (Linguagem de Marca de Hipertexto). Tipicamente, um formulário consiste de campos de entrada, campos de escolha, tais como botões alternados, menus, etc. As formas HTML são descritas, por exemplo, em "XForms 1.0" pelo Consórcio de World Wide Web (W3C) publicado na Internet em http//www.w3.org/Makup/Forms.
Na etapa 1716, o gerador de serviço 1806 cria pelo menos um serviço para cada formulário identificado aqui. No caso de uma página conter múltiplas formas, o gerador de serviço irá gerar múltiplos serviços para considerar as combinações possíveis diferentes de consultas que poderíam resultar. Detalhes adicionais do procedimento de criar serviços são explicados abaixo.
Em 1716, o gerador de serviço 1806 filtra os serviços criados em 1714 que provavelmente conferem pouca utilidade acrescentada. Os serviços que acrescentam pouca ou nenhuma utilidade não retornam quaisquer resultados ou resultados relevantes. Processos para medir a utilidade de incorporar um serviço (que foi induzido a partir de um formulário) a uma personalidade são explicados abaixo. Ambas as abordagens contam com um modelo de recuperação de espaço vetor ou Booleano.
Finalmente, em 1718, é definida uma personalidade que usa os serviços filtrados e o banco de dados de entidade. As entidades no banco de dados de entidade são limitadas aos tipos de entidades que proporcionam utilidade, conforme medidas através do serviço ao qual elas são associadas (por exemplo, através da medida da utilidade de uma palavras). Como um requinte adicional, os serviços são limitados no escopo a tipos de entidade para os quais eles conferem valor acrescido (isto é, resultados relevantes de retorno). Os resultados relevantes determinantes ou de maior utilidade podem ser conseguidos com a filtragem e a classificação dos resultados depois de decorrido um serviço que, por exemplo, consulta um provedor de informação.
Em uma concretização, a filtragem e a classificação dos resultados de uma consulta retornada por um provedor de informação referente ao conteúdo de documento ao qual uma personalidade é conectada com o serviço são conseguidas com a aquisição de uma lista de hiperligações e sumários ordenados pela relevância do provedor de informação, com a execução de uma medida de similaridade entre os sumários e as entidades circundantes do contexto no conteúdo de documento ao qual a consulta é dirigida, com a classificação dos resultados com base na medida similarmente computada, e com a filtragem apenas dos resultados classificados mais elevados.
Em uma concretização alternativa, a medida de similaridade é executada com o uso de conteúdo de documento mencionado pelas hiperligações além dos sumários. Também, uma métrica de distância de Cosseno ou uma medida de correlação pode ser usada para medir a similaridade entre o conteúdo adquirido a partir do provedor de informação e o conteúdo de documento relacionado.
Será apreciado por aqueles versados na técnica que antes de usar uma métrica de distância de Cosseno, o conteúdo do documento é convertido em características (por exemplo, palavra, locuções, etc.) e derivado. Além disso, será apreciado por aqueles versados na técnica que as medidas da distância podem ser executadas nas características originalmente extraídas que são novamente mapeadas para definir um espaço de característica reduzido com o uso de indexação semântica latente (LSI).
Em uma concretização, uma personalidade criada em 1718 com o empacotamento de serviços filtrados na etapa 1716 é classificada e organizada hierarquicamente em grupos que usam as hiperligações dos serviços especificados. Tais classificação e organização podem ser executadas com o uso de técnicas de classificação, de cluster (aglomerativas) ou de hiperli-gação conhecidas. Um exemplo de técnicas hiperligadas é descrito por Kleinberg, em "Fontes Oficiais em um Ambiente Hiperligado", Relatório Téc- nico da IBM RJ 10076, de maío de 1997.
Em uma concretização alternativa, a estrutura organizacional dos documentos com hiperligações especificadas na etapa 1702 é usada para criar uma ou mais personalidades na etapa 1718 (por exemplo, é criada uma personalidade para cada ramificação em uma coleção hierárquica de documentos). Estas personalidades poderíam ser organizadas, conforme mostrado na Figura 6. Será apreciado por aqueles versados na técnica que as etapas explicadas na Figura 12 podem ser parcialmente ou inteiramente automatizadas.
Em outra concretização, o documento expandido 1800 é adicionalmente desenvolvido através da conexão de uma personalidade genérica ao mesmo. A personalidade genérica poderia ser aplicada a um ou mais níveis do documento expandido e apenas dependendo da existência ou não da necessidade de expansão adicional do espaço de informação que circunda o conteúdo de documento original no nível N=0. Por exemplo, em um exemplo, a personalidade genérica será aplicada apenas, se o documento expandido tiver menos referência do que um número limite predeterminado de documentos. C.3.1 Criando Serviços ' Em uma concretização, cada serviço criado na etapa 1714 é cri- ado com as seguintes propriedades: (a) o serviço é especificado, de tal modo que ele assuma como entrada um novo segmento de texto identificado, por exemplo, por uma referência de documento (por exemplo, o URL); (b) o serviço inclui processos para reconhecer entidades e seus deslocamentos no novo segmento de texto ou aceitar entidades reconhecidas e suas localizações originárias de outro serviço; (c) o serviço inclui processo para associar as entidades reconhecidas originárias do novo segmento de texto com (i) os conceitos no conteúdo recuperado dos conjuntos de documento de nível N, (ii) uma consulta exemplificativa (isto é, um exemplo concreto i definido para a mesma) que envolve a entidade reconhecida e um formulário, e/ou (iii) um resultado (possivelmente reformatado ou filtrado) da consulta exemplificativa (ii) com as entidades reconhecidas em (b); e (d) o servi- ço inclui processos para retornar uma lista com as entidades reconhecidas e seus deslocamentos originais em (b) e a informação recentemente associada em (c). Em uma concretização alternativa, se um serviço para uma hiper-ligação específica já existe, então nenhum serviço novo será criado e o serviço existente será usado.
No caso c(ii), um formulário pode ser criado por meio de exemplo, como segue. Se o formulário contiver um campo de entrada e um ou mais botões de submissão, então o campo de entrada é enchido com o conceito ou entidade reconhecido, e o protocolo de submissão de formulário (por exemplo, GET ou POST, conforme descrito em XForms 1.0) é seguido com o campo de entrada cheio. No caso do formulário conter mais de um campo, então todas as possíveis combinações dos campos e entidades ou conceitos reconhecidos são criados para submissão, com apenas aqueles que produzem resultados não-nulo que são retornados. Alternativamente, o formulário pode ser enchido com o uso de técnicas automatizadas, tais como aquelas descritas na Internet em www.roboform.com.
Por meio de exemplo, deve ser considerado o formulário 1900 com campo de entrada 1901 e botões alternados 1902-1905 descrito na Figura 14. Neste exemplo, o formulário 1900 é uma extremidade frontal para um provedor de conteúdo de material científico. O formulário é composto de um campo de texto 1901, onde espera-se que o usuário introduza os campos alternados e de consulta 1902-1905, onde o usuário pode indicar ao sistema, em cuja pasta a consulta deve ser executada (por exemplo, com a seleção do botão alternado de todas as pastas 1902, o sistema irá pesquisar todo o conteúdo do provedor de conteúdo). Neste exemplo, os quatro diferentes serviços seguintes mostrados na Figura 15 seriam gerados. Cada serviço inclui o campo de entrada 1901 e um dos quatro botões alternados 1902-1905 em um estado ativado. Cada serviço é associado com um tipo de entidade específico, que é determinado com o uso do processo descrito abaixo na seguinte seção. C.3.2 Serviços de Filtragem A finalidade da filtragem, conforme explicada acima, é a de re- mover serviços que foram criados, mas que não têm qualquer ou nenhuma utilidade. Mais especificamente, fornecidos um banco de dados de entidade e uma lista de serviços extraídos, três diferentes medidas de utilidade são explicadas abaixo para determinar a utilidade de uma lista de serviços. Será apreciado por aqueles versados na técnica que uma ou uma combinação das três medidas pode ser usada. Geralmente, cada medida de utilidade classifica os serviços, de acordo com sua utilidade potencial para entidades no banco de dados de entidade.
Uma primeira medida de utilidade é explicada na Figura 16, que descreve um diagrama de fluxo do procedimento em 1716 dos serviços de filtragem criados em 1714 com o uso do banco de dados de entidade criado em 1710. Inicialmente, em 2140, são recebidos uma lista de serviços e um banco de dados de entidade. É assumido que o banco de dados de entidade inclui a frequência exemplificativa de cada entidade no documento expandido.
Cada serviço proporciona meios para acessar um serviço de informação provido por um provedor de conteúdo. A freqüência de entidades no banco de dados de entidade dos bancos de dados providos pelos provedores de conteúdo acessados por cada serviço na lista de serviços é computada em 2142-2146. Mais especificamente em 2142-2146, são computadas as seguintes estatísticas referentes à freqüência de cada entidade em um serviço: (a) fy os inúmeros documentos no banco de dados do provedor de conteúdo CP-DBj que contêm entidade (ou característica)fj; e (b) wy a soma dos pesos de cada característica fj sobre todos os documentos no banco de dados do provedor de conteúdo CP-DBj. Em 2144, cada provedor de conteúdo é representado como uma lista de tuplas da forma <entidade, freqüência, peso, onde a freqüência e o peso são como "f" e "w" definidos acima. O documento expandido é representado com o uso de uma lista similar, mas, neste caso, f indica o número de documentos nos quais a entidade ocorre e w indica a soma dos pesos de cada entidade sobre todos os documentos.
Em uma concretização, a informação referente à freqüência de entidades nos serviços pode ser adquirida para cada serviço através do funcionamento periódico de um sistema que constrói uma consulta para cada característica fj que é executada no provedor de conteúdo CP-DBj e que subseqüentemente extrai os valores fy e wy dos resultados retornados da consulta. Os extratores para os valores fg e wy podem ser construídos automaticamente com o uso de abordagens de envoltório ou Modelos Markov Ocultos (HMMs).
Abordagens para gerar envoltórios são descritas no Pedido de Patente E.P. N- 1072985A2. A informação adicional referente à geração de envoltório é descrita por Chidlovskii e outros em: "Automatic Wrapper Gene-ration for Web Search Engines", Proc. 1 st Intem. Conf. on Web-Age Information Management, WAIM'2000, LNCS Series, Shanghai, China, June 2000; and "Wrapper Generation via Grammar Induction", 11 th European Conference on Machine Learning, ECML'00, Lect. Notes Comp. Science, Vol. 1810, Barcelona, Espanha, Maio 2000.
Em outra concretização, o protocolo STARTS é usado para exportar sumários originários do provedor de conteúdo para prover informação referente à estatística de entidades em serviços. O STARTS é uma proposta de protocolo para a pesquisa da Internet coordenada pela Universidade de Stanford que envolve organizações privadas e públicas. O STARTS especifica que os provedores de conteúdo devem exportar sumários que incluem estatística de entidade fy e wy. Os detalhes do protocolo STARTS são descritos por Gravano e outros, em "STARTS: Proposta da Stanford para Meta-pesquisa da Internet", Ata da Conferência ACM SIGMOD de 1997.
Em 2152, qualquer de inúmeras medidas de similaridade bem conhecidas podem subseqüentemente ser usadas para medir a similaridade entre cada serviço e o documento expandido. Por exemplo, pode ser usada a métrica de distância de Cosseno. Altemativamente, uma medida de correlação poderia ser usada em 2152 para medir similaridade. Para uma maior experiência relacionada à computação de métricas de distância, vide "Foun-dations of Statistical Natural Language Processing", de Manning e Schutze, MIT Press, 1999.
Em ainda outra concretização, as entidades e freqüências associadas (isto é, a similaridade para entidades e pesos) poderíam ser novamente mapeadas para definir um espaço de característica reduzido com o uso de indexação semântica latente (LSI) (para a experiência relacionada à indexação semântica latente, vide artigos com autoria de Dumais disponíveis na Internet em http://www.cs.utk.edu/~lsi/), superando assim os problemas associados com os sinônimos e polinômios (isto é, a mesma palavra apresenta diferentes interpretações dependendo do contexto). Subseqüente-mente, nesta concretização alternativa, as medidas de similaridade podem ser executadas neste espaço de característica reduzido.
Em 2154, os serviços N superior (isto é, com as mais altas medidas de similaridade) poderíam ser então selecionados como os serviços e incorporados na nova personalidade. A Figura 17 ilustra uma representação gráfica deste processo de seleção com um documento expandido e dois serviços A e B. O eixo horizontal do gráfico explica cada entidade no banco de dados de entidade (isto é, ei...en), e o eixo vertical explica a freqüência ponderada exemplificai iva de cada entidade. No exemplo mostrado, o serviço A apresenta um maior grau de similaridade do que o serviço B ao documento expandido.
Outra medida de utilidade classifica a lista de serviços depois da aquisição da estatística de entidade que usa uma medição de utilidade, conforme explicado no diagrama de fluxo mostrado na Figura 18. A Figura 18 explica um processo para filtrar serviços em 1716. Inicialmente, em 2355, são recebidos uma lista de serviços e um banco de dados de entidade. Em 2356, é selecionado um próximo serviço na lista de serviços, e em 2357, uma nova entidade é escolhida do banco de dados de entidades. Em 2258, uma consulta é formulada para o serviço selecionado com o uso da entidade selecionada, conforme explicado acima. Em 2359, a consulta é submetida ao serviço. O uso dos resultados N superiores do serviço em 2359, uma medida de similaridade entre a entidade e a informação contextual referente à entidade selecionada e cada um dos resultados N superior é computada em 2360, como segue: EntityUtility(Entity, Service) = ^Similarity (Entity, Doc), Doc e TopMatchesForService onde a "entity" é uma das entidades no banco de dados de entidade; "service" é um serviço; e "doe" é um dos resultados superiores N.
Mais especificamente, "entity" na equação indica tanto uma cadeia de entidades como um contexto circundante. Para simplicidade, pode-se assumir que uma entidade ocorra apenas em uma localização no documento expandido. O contexto circundante para uma entidade pode ser determinado de inúmeras maneiras com o uso de técnicas de análise gramatical conhecidas que delimitam as sentenças, parágrafos, etc. Por exemplo, as técnicas para determinar o contexto que circunda uma entidade incluem: (a) deixar o contexto ser o conteúdo textual de todo o documento, que faz parte de um documento expandido, ser o contexto; (b) deixar o contexto ser a sentença na qual a cadeia de entidades ocorre; (c) deixar o contexto ser o parágrafo no qual a cadeia de entidades ocorre; ou (d) deixar o contexto ser o texto tópico no qual ocorre então a cadeia de entidades, conforme detectado pelas técnicas conhecidas de detecção de tópico.
Também na equação, "doc" se refere ao sumário de documento que aparece (como um elemento em uma lista de resultados) na página de resultados do serviço, ou, alternativamente, a todo o documento, a partir do qual o sumário foi derivado. A medida de similaridade pode ser executada com o uso de uma forma tampouco resultante. Nesta equação, uma medida de similaridade é gerada para cada entidade (representada como a entidade mais um contexto), resultando no documento "doc" (representado como um sumário ou todo o conteúdo de documento). A fim de computar tal medida de similaridade, tanto a entidade como o documento de resultado são primeiramente processados, como segue: (a) as palavras de interrupção são eliminadas; e (b) cada palavra é derivada com o uso de técnicas de derivação conhecidas, tal como o derivador de Porter. Subseqüentemente, uma medida de similaridade, tal como a medição de Cosseno, podería ser usada para calcular o grau de similaridade entre a entidade e o documento resultante com base nas características de texto.
Em uma concretização alternativa, as características do texto são transformadas com o uso de indexação semântica latente em um espaço de características reduzido. Esta transformação de indexação semântica latente é calculada com o uso de entidade e banco de dados de freqüência de entidade que é extraído conforme descrito acima. Tendo transformado as características que usam a indexação semântica latente, uma medida de similaridade, tal como uma medida de distância de Cosseno, pode ser usada para calcular a similaridade entre a entidade (e seu contexto) e o documento resultante "doe".
No exemplo, no qual uma entidade que ocorre em múltiplos contextos existe para uma entidade (isto é, a entidade existe em múltiplas localizações em um documento ou documento expandido), cada localização da entidade e seu contexto associado são tratados separadamente (isto é, como entidades diferentes).
Em 2361, se for determinado que a última entidade no banco de dados de entidade foi examinada, então as similaridades medidas serão somadas para todas as entidades relacionadas ao serviço selecionado em 2362, como segue: ServiceUtility(Service) = ^EntityUtiIity(E, Service), E e EntityDB onde E é uma entidade no banco de dados de entidade, e "Service" é um serviço. Em 2363, se isto for executado para todos os serviços, então os serviços N superiores serão selecionados com a medida de utilidade de serviço mais elevada para especificar os serviços filtrados; de outra maneira, o processo continuará em 2356, com o próximo serviço na lista.
Os serviços podem ser organizados de diversas maneiras, tal como superficialmente ou hierarquicamente. Os serviços, conforme representados desta forma, poderíam ser agrupados e um serviço representativo poderia ser selecionado de cada cluster. Nesta concretização, um gráfico multi-dimensional é definido com uma dimensão para cada entidade no banco de dados de entidade. A freqüência de cada entidade que ocorre no do- cumento expandido e os serviços são plotados um contra o outro. Os clus-ters são formados e associados com um serviço. Estes clusters podem ser então usados para hierarquicamente organizar os serviços.
Em uma concretização alternativa, um serviço genérico é aplicado ao documento expandido subseqüente ao procedimento 2363. O serviço genérico usa os conteúdos do documento expandido para consultar um provedor de informação de uso geral ao invés de um provedor de informação que é especializado em um assunto específico. Em ainda outra concretização, uma utilidade de serviço é computada para um tipo de entidade ao invés de ser para todos os tipos de entidades, conforme descrito acima. Nesta concretização alternativa, a utilidade de serviços pode ser avaliada para tipos específicos de entidades. Por exemplo, uma utilidade de serviço é computada para o tipo de entidade de biologia 2002 para o serviço 2004 mostrado na Figura 15. C.4 Usando Personalidades e Níveis de Conhecimento Predefinidos Em ainda uma concretização adicional, pode ser especificado um nível de conhecimento existente ou de relativa habilidade em um campo, conforme mostrado em 1516 na Figura 10. O nível de conhecimento específico 1516 pode ser usado, por exemplo, para criar novas personalidades que acessam diferentes níveis de provedores de serviço originários de personalidades predefinidas especificadas em 1504. Por exemplo, com uma personalidade dirigida para informação medida, se o conhecimento de alguém for nocivo (isto é, um leigo), então mais provedores de informação básica serão especificados e mais serviços definicionais básicos serão especificados na personalidade. Além disso, o nível de conhecimento pode ser usado ou para incluir ou para excluir entidades de um banco de dados de entidade que é usado para criar uma personalidade. Por exemplo, um especialista no campo médico pode não estar interessado nas mesmas entidades que um novato no campo médico estaria.
Além de prover um nível de conhecimento de personalidade desejada, uma dica (isto é, uma dica do assunto) é fornecida ao tipo de personalidade que é desejado, conforme mostrado em 1514 na Figura 10. Com o recebimento de uma dica, o servidor de metadocumento se refere à dica da personalidade desejada a um conjunto de ações que são especificamente relacionadas ao assunto da dica. De modo geral, a dica 1514 pode ser usada para aperfeiçoar qualquer dos processos para criar personalidades que podem ser especificadas na Figura 10. A dica 1514 e o nível de conhecimento podem ser usados individualmente ou em combinação.
Em um exemplo específico, se uma dica 1514 de uma personalidade medida for especificada ao servidor de metadocumento juntamente com o conteúdo de documento mencionado pelas hiperligações em 1508 ou pelo nome em 1510, então o servidor de metadocumento 200 criará uma personalidade através da identificação de serviços que enriquecem o conteúdo identificado que se refere a: (a) um acesso a uma guia farmacêutica geral para drogas mencionadas no conteúdo de documento; (b) registros médicos relacionados ao usuário e aos itens mencionados no conteúdo de documento; (c) imagens, vídeo clipes, etc., associados com os itens mencionados no conteúdo de documento originário de um banco de dados médico; (d) links para uma comunidade de sofredores de quaisquer doenças mencionadas no conteúdo do documento; (e) produtos alternativos àqueles mencionados no conteúdo de documento; (f) conexões a drogarias online; (g) conexões à pesquisa comum em qualquer das áreas mencionadas no conteúdo de documento; (h) informação sobre quaisquer companhias mencionadas no conteúdo de documento; e (g) qualquer outra informação medida relacionada ao itens encontrados no conteúdo de documento.
Em outro exemplo específico, fornecida uma dica 1514 que é uma personalidade de construção, a personalidade será criada pelo servidor de metadocumento 200 através da identificação do conteúdo de documento mencionado pelas hiperligações em 1508 ou pelo nome em 1510, e da identificação de serviços que enriquecem o conteúdo identificado referente a: (a) códigos de construção, leis de divisão em zonas, avaliações de propriedade e outros documentos legais referentes aos itens (por exemplo, endereços) identificados no conteúdo de documento; (b) imagens (fotos, diagramas, cópias heliográficas) dos itens (por exemplo, construções, materiais) mencio- nados no conteúdo de documento; (c) histórico (por exemplo, social, de construtor, de inquilinatos, etc.) referente ao conteúdo de documento; (d) construções similares no mundo, arquitetos que constróem tais edifícios; (e) construções vizinhas, inquilinos, etc.; (f) simulações das áreas/construções, mencionadas sob certas condições (por exemplo, terremoto, à prova de fogo); (g) mapas das áreas mencionadas no conteúdo de documento; (h) dispositivos sensores (por exemplo, câmeras, termômetros, etc.) das áreas mencionadas no conteúdo de documento; e (i) custos, fornecedores, varejistas, taxas de entrega, especificações técnicas, tutoriais, etc., para materi-i ais mencionados no conteúdo de documento. C.5 Usando Técnicas de Extração de Informação O servidor de metadocumento, conforme descrito acima, enriquece (por exemplo, marca) o conteúdo de documento com resultados de diferentes serviços. Tipicamente, estes resultados são listas de documentos, i listas de sumários, informação extraída tipicamente de uma natureza de estrutura muito simples. Por exemplo, os resultados podem incluir cotações de ações e entradas biográficas. Nesta seção, é descrito um processo que extrai a informação de uma natureza mais sofisticada originária de texto não-estruturado. Isto é conseguido com o uso de técnicas de extração de infor-i mação, tais como respostas a questões.
Em uma técnica de extração de informação, personalidades podem também ser criadas e/ou modificadas com o uso de questões predefini-das que podem ser usadas em conjunção com um léxico ou léxicos associados com uma personalidade para criar um ou mais formulários de perguntas. » Cada formulário de pergunta é usado para criar uma nova solicitação de serviço de documento que é satisfeita com o uso de um sistema de respostas a perguntas conhecido que usa uma combinação de técnicas de recuperação de informação e de associação sintática ou padrão.
Em uma concretização, os formulários de perguntas são criados > automaticamente com o uso de uma pergunta de entrada definida por um usuário em 1520 na Figura 10. Por exemplo, se a pergunta fosse "Qual o procedimento para ablação do fígado?" e a personalidade específica em 1504 incluísse um léxico que‘são órgãos do corpo, que inclui a palavra "fígado", então o servidor de metadocumento identificaria o órgão do corpo encontrado na pergunta 1504 (por exemplo, o fígado) e o substituiría por um símbolo genérico representativo do léxico identificado. Neste exemplo específico, a palavra "fígado" seria substituída pelo símbolo genérico <ÓRGÃO-DO-CORPO> para produzir o formulário de perguntas "Qual o procedimento para ablação do <ÓRGÃO-DO-CORPO>?" Formulários de perguntas alternativos podem ser definidos com o uso da mesma pergunta para o exemplo fornecido acima, dependendo de quantos léxicos alternativos são definidos na personalidade específica. Dessa forma, com a mesma pergunta, mas com um léxico diferente, por exemplo, de procedimentos cirúrgicos, o formulário de perguntas pode ser definido: "Qual o procedimento para <PRO-CEDIMENTO-CIRÚRGICO> do fígado?" Ainda outro formulário de perguntas poderia ser produzido com o uso da mesma pergunta, se a personalidade incluísse ambos os léxicos para órgãos do corpo e procedimentos cirúrgicos. Isto produziría o formulário de perguntas: "Qual é o procedimento para <PROCEDIMENTO-CIRÚRGICO> do <ÓRGÃO-DO-CORPO>?" Uma vez que todos os formulários de perguntas possíveis são gerados, cada formulário de perguntas é acrescentado à personalidade como um novo serviço de documento. Cada serviço de documento acrescentou exemplos (isto é, cria um exemplo específico) ao formulário de perguntas com quaisquer entidades encontradas no conteúdo de documento 102 ou marca 108 que está também nos léxicos identificados pelo símbolo genérico no formulário de perguntas. Por exemplo, assume-se o conteúdo de documento incluído na entidade "rim", que fez parte também do léxico de órgãos do corpo. A pergunta exemplificativa neste exemplo seria: "Qual é o procedimento para ablação do rim"? Em uma concretização, estes formulários resultantes são avaliados quanto à sua utilidade.
Quando um documento é enriquecido com uma personalidade que inclui uma consulta exemplificativa, a solicitação de serviço de documento que inclui a consulta exemplificativa a satisfaz com uma técnica de resposta à perguntas para produzir uma resposta ou resultado. A resposta no exemplo acima seria "umanefrectomia". Um exemplo de uma técnica de resposta a questões é descrito por Cooper e outros no texto "A Simple Question Answering System", publicado na ata da Nona Conferência de Recuperação de Texto (TREC-9), conduzida em Gaithersburg, Maryland, em 13-16 de novembro de 2000.
Uma vez que o serviço de documento satisfaz uma consulta exemplificativa com uma resposta, o serviço de documento enriquece o documento através da ligação da entidade no documento com a consulta exemplificativa e a resposta. No exemplo fornecido acima, a entidade "rim" é ligada à consulta exemplificativa (isto é, Qual o procedimento para ablação do rim?) e a resposta (isto é, uma nefrectomia). Em uma concretização, a consulta exemplificativa e a resposta são exibidas em uma janela instantânea 1028, conforme mostrado na Figura 5, quando um usuário localiza um indicador 1030 nas proximidades de uma entidade reconhecida 1032 (por exemplo, entidade reconhecida Xerox e a consulta exemplificativa de "Qual é o preço das ações do <NOME DA COMPANHIA?").
No caso de múltiplos símbolos genéricos poderem ser acrescentados a uma pergunta especificada pelo usuário, o usuário poderá ter a opção de que apenas uma solicitação de serviço de documento seja especificada para apenas o formulário de perguntas mais genéricas (por exemplo, Qual é o procedimento para <PROCEDIMENTO-CIRÚRGICO> do <ÓR-GÃO-DO-CORPO>?). Alternativamente, o usuário pode ter a opção de que as solicitações de serviço de documento sejam especificadas para todos os formulários de perguntas identificados ou para aqueles selecionados. Além disso, o usuário pode dispor de múltiplas respostas e múltiplas fontes de informação de onde possa selecionar. A Figura 19 é um diagrama de fluxo que descreve uma concretização para identificar uma resposta de uma pergunta exemplificativa. Inicialmente, em 2402, o servidor de metadocumento 200 recebe a pergunta exemplificativa. O tipo de pergunta é determinado no 2404 e convertido para uma pergunta em 2406. Em 2408, a pergunta é submetida a um serviço de informação adaptado para lidar com perguntas do tipo identificado. Em 2410, as passagens dos resultados N superiores da consulta são extraídas com o uso de um sumarizador, por exemplo. Em 2412, as passagens dos resultados N superiores extraídos da consulta recebem parte das etiquetas de fala e são analisadas gramaticalmente de forma superficial. Em 2414, as ponderações da relevância são calculadas para cada palavra nas passagens dos resultados N superiores extraídos da consulta com o uso da pergunta exem-plificativa e do tipo de pergunta determinado. Em 2416, as sentenças ou parte das sentenças das passagens extraídas com palavras que apresentam a ponderação computada mais elevada de relevância são selecionadas como respostas propostas à questão exemplificativa. C.6 Usando Personalidades de Aprendizado O servidor de metadocumento 200 apresenta uma personalidade de e-aprendizado que pode, por exemplo, ficar disponível na janela de personalidades 1014 na Figura 5. Quando uma personalidade de e-aprendizado for aplicada a um documento, cada serviço na personalidade analisará os conteúdos do documento, reconhecendo as entidades e os conceitos e combinações específicas a esse serviço. Cada serviço liga então estas entidades, conceitos ou combinações ao novo conteúdo encontrado por uma pesquisa de banco de dados possivelmente com base no Web, ou prepara a pesquisa e insere um link, que, quando ativado, executará a pesquisa. Os serviços de personalidade não são limitados à simples pesquisa, mas podem executar quaisquer ações dependendo do conteúdo analisado. A Figura 20 ilustrará uma lista de serviços 2502 disponível, quando uma personalidade de e-aprendizado for selecionada para enriquecer o conteúdo de documento. Os serviços de e-aprendizado 2504 e 2506 ligam as palavras ou expressões de múltiplas palavras encontradas no documento às suas definições e/ou traduções, respectivamente. Este serviço pode executar a lematização ou a derivação antes de acessar um dicionário. Além disso, este serviço pode usar o contexto das palavras ou expressões de múltiplas palavras que circundam um elemento no conteúdo para limitar o número de definições e/ou as traduções exibidas. Outro serviço de e-aprendizado 2508 liga cada unidade de texto (isto é, documento, parágrafo, locução, palavra) a um tutoria! referente a esse elemento. Ainda outro serviço de e-aprendizado 2510 liga cada unidade de texto a um tutorial referente à unidade de texto. Ainda serviços de aprendizado adicionais 2512, 2514 e 2516 ligam cada unidade de texto a cursos interativos, cursos online disponíveis, ou recursos online referentes ao assunto das unidades de texto, respectivamente.
Vantajosamente, as personalidades preparam e executam uma multiplicidade de tarefas de aprendizado de linguagem independentes em um documento(s) específico(s). Quando a personalidade for aplicada ao conteúdo de documento, cada serviço selecionado na personalidade analisará os conteúdos do(s) documento(s) específico(s), reconhecendo as entidades e conceitos e combinações específicas desse serviço. O serviço liga então estas entidades, conceitos ou combinação ao novo conteúdo encontrado por uma pesquisa de banco de dados possivelmente com base no Web, ou prepara a pesquisa e insere um link, que, quando ativado, executará a pesquisa.
Em uma variação, a personalidade de e-aprendizado poderá também incluir um serviço que trilha a ação passada do usuário (ou o acesso de um perfil de usuário) para prover nova informação, quando a mesma entidade for ligada a outros documentos. Em uma concretização específica, a personalidade de e-aprendizado é especificamente dirigida em linguagens de aprendizado. Nesta concretização, o servidor de metadocumento 200 apresenta um aprendizado de linguagem assistido por computador através do uso dos mecanismos de enriquecimento de documento aqui descritos. A Figura 26 ilustra uma lista exemplificativa de serviços 2602 disponível, quando da seleção de uma personalidade de aprendizado de linguagem para enriquecer o conteúdo de documento.
Mais especificamente, a personalidade de aprendizado de linguagem é definida com o uso de uma personalidade que executa dois ou mais serviços definidos na Figura 21, que inclui: (a) os serviços 2604 e 2606 que ligam as palavras ou as expressões de múltiplas palavras encontradas no documento às suas definições e/ou traduções, respectivamente (possi- velmente executando a lematização ou derivação antes de acessar o dicionário e possivelmente com o uso do contexto do elemento para limitar o número de definições exibidas); (b) o serviço 2608 que liga cada sentença, ou locução, à descrição gramatical da estrutura da sentença ou locução (possivelmente ligando a uma explanação textual da estrutura na língua nativa do leitor, ou a uma lição de gramática de áudio ou vídeo textual que corresponde à essa estrutura); (c) o serviço 2610 que liga cada palavra, expressão de múltiplas palavras, locução ou sentença a outros exemplos do mesmo em diferentes contextos originários do atual (por exemplo, através da recuperação de segmentos de texto similares, com a exceção de segmentos de texto diferentes que dispõem da mesma palavra, expressão de múltiplas palavras, locução ou sentença; os elementos recuperados poderíam ser apresentados, por exemplo, em um formato que traz a estrutura similar para o centro do campo de visão do usuário para a fácil comparação de contexto diferente); (d) o serviço 2612 que liga cada palavras, expressão de múltiplas palavra, locução ou sentença a um ou mais exercícios gramaticais interativos que se referem a esse elemento; e (e) os serviços 2614 e 2616 que são ligados ao recurso de ensinamento da língua específica que corresponde ao conteúdo de documento. Uma abordagem similar pode ser seguida para outros tópicos de aprendizado. C.7 Automaticamente Inserindo e/ou Ligando Conteúdo A Figura 7 ilustra, em 1220, um mecanismo para seletivamente especificar em um nível de personalidade se insere ou não-enriquecimento como links 1222, ou conteúdo 1224, ou automaticamente determina se liga ou insere ou não-conteúdo em 1226. Em cada caso, os links são retirados de entidades reconhecidas no conteúdo de documento 102 ou para conteúdo ou para serviços localizados em uma localização remota (no caso de 1222) ou conteúdo localizado na marca de documento 108 de um metado-cumento.
Em uma concretização alternativa mostrada na Figura 22, o usuário tem a habilidade de seletivamente especificar comportamentos da personalidade e/ou do serviço às entidades reconhecidas em conteúdo ou documentos especificados. Nesta concretização, um usuário, por exemplo, pode selecionar uma porção do documento enriquecido 1018 mostrado na Figura 5 e selecionar, por exemplo, os resultados de serviço global de cotação de ações 1026. Esta série de ações que usa as técnicas de seleção de indicador conhecidas ocasiona a exibição da janela de opções de cotação de ações 2710 mostrada na Figura 22.
Na janela de opções 2710, um usuário pode especificar se um comportamento de serviço específico é aplicado a todos os documentos selecionados, a um documento atualmente selecionado, ou a uma seleção em 2712. Além disso, a janela de opções 2710 permite que um usuário estati-camente ou dinamicamente atualize a informação ligada em 2714 que é inserida em uma forma específica em 2716. Por exemplo, a informação pode ser inserida como links ou conteúdo, conforme descritos acima. O conteúdo que é inserido pode ser inserido, por exemplo, como notas de rodapé ou uma lista de conteúdo no final de um documento. O conteúdo que é acessado dinamicamente é recalculado cada vez que um link ou conteúdo é acessado (por exemplo, com o uso de técnicas semelhantes a Microsoft OLE). O conteúdo que é acessado estaticamente é feito em uma frequência especificada em 2718 (por exemplo, mensalmente, diariamente, por hora, etc.).
Vantajosamente, um usuário tem a habilidade de modificar um comportamento padrão de um serviço, enquanto especifica se as mudanças se aplicam a todos os documentos que o usuário controla, ao documento atual apenas, ou à seleção atual de um documento que contém uma ou mais entidades. Dependendo do nível de mudança, eles são ou armazenados como propriedades de um metadocumento específico ou como parte de um perfil de usuário. A alternativa de ligar ou recuperar e inserir o conteúdo em um metadocumento pode ser especificada para cada personalidade ou pode ser executada automaticamente, caso especificado em 2724, na Figura 22, ou em 1226, na Figura 7. A determinação de ligar ou inserir o conteúdo automaticamente é executada com o uso da informação originária de um histórico passado do usuário de interação com o servidor de metadocumento 200.
Se especificada para automaticamente ligar ou inserir conteúdo a uma personalidade específica em 2724 ou como uma propriedade de uma personalidade em 1226, então a decisão de inserir informação como links ou conteúdo irá depender ou não de se a informação está dentro ou fora do histórico de interação de um usuário. Se estiver fora do histórico de um usuário, então os links serão inseridos; de outro modo, se estiver dentro do histórico de interação do usuário, o conteúdo será recuperado e inserido em um metado-cumento.
Um histórico de interação de um usuário pode ser especificado com o uso de um histórico de links acessado pelo usuário e/ou uma lista de conceitos de interesses ao usuário. Uma lista de conceitos de interesse ao usuário pode ser determinada com o uso, por exemplo, de links freqüente-mente seguidos ou a partir de um perfil de usuário desenvolvido com o registro do histórico de correio eletrônico ou com o uso de um sistema reco-mendador, tal como Knowledge Pump desenvolvido pela Xerox Corporation. Neste modo de operação, a informação originária de um histórico de interação de usuário a partir de padrões de navegação de entidade é usada para determinar se o conteúdo de documento deve ser ou não-enriquecido. C.8 Cateaorizador de Texto O objetivo de um sistema de classificação de texto, tal como o categorizador de texto 3610 mostrado na figura 23, é o de classificar um documento 3612 em um conjunto de uma ou mais classes 3620, que são também referidas como categorias. Na operação, o categorizador de texto 3610 atribui a um documento uma ou mais classes em um conjunto de classes que são definidas em uma ontologia representada na base de conhecimento 3622. Um exemplo de uma ontologia é a ontologia DMOZ (publicada na Internet em dmoz.org).
Além disso, o categorizador de texto 3610 inclui um módulo de pré-processamento 3614 e um módulo de raciocínio aproximado 3618. A finalidade do módulo de pré-processamento de texto 3614 é a de transformar o documento 3612 em uma representação que facilita o categorizador de texto 3610 a executar a tarefa de classificação de documento de maneira precisa, automática, eficiente e efetiva. As representações de documento 3624 produzidas pelo módulo de pré-processamento 3614 incluem um conjunto de características e pesos associados.
Diferentes combinações de técnicas conhecidas originárias do processamento de linguagem natural, tais como a tradução de HTML para texto, a sinalização, a derivação, a remoção de palavra de interrupção, as técnicas de análise gramatical, e o reconhecimento de entidade, podem ser usadas para gerar os conjuntos de características 3624. Conseqüentemente, o módulo de pré-processamento de texto 3614 pode incluir inúmeros componentes, tal como um conversor de HTML em texto, um sinalizador, um derivador, um gerador de característica com base na gramática, um gerador de características, um analisador de freqüência de palavra, e um analisador (ou extrator) de locução nominal para produzir um conjunto de características 3616 a partir do documento 3612. O valor de peso associado com cada característica é calculado com o uso de qualquer das inúmeras técnicas bem conhecidas, variando de uma contagem de freqüência normalizada para um esquema de ponderação mais sofisticado que é calculado com base em uma agregação de inúmeras medidas, tal como a freqüência de cada termo no documento, sua localização em um documento, a freqüência de cada termo em um corpo de referência, e a freqüência de documento inversa do termo. O livro-texto de Man-ning e Schutze, "Foundations of Statistical Natural Language Processing", publicado em 1999, MIT Press, Cambridge, MA, fornece uma apresentação mais detalhada do pré-processamento de texto executado pelo módulo 3614. O módulo de raciocínio aproximado 3618 processa as categorias, conforme representando em termos das regras (ou outras formas de conhecimento) armazenadas na base de conhecimento 3622, em conjunção com as representação de documento (por exemplo, características e pesos associados) 3624, para atribuir uma etiqueta de classe 3620 ao documento de entrada 3612. Em uma concretização, o módulo de pré-processamento transforma um documento 3612 em listas de sinais que são delimitadas por espaços, caracteres de pontuação, ou semelhantes. Os sinais que correspondem às palavras de interrupção (isto é, palavras que não aperfeiçoam a qualidade da categorização) são subsequentemente eliminadas desta lista de sinais. Os sinais restantes na lista são então derivados com o uso do algoritmo de derivação de Portes. Então, as palavras de interrupção são removidas da lista de palavras derivadas, resultando em uma lista de ter-mos/palavras. Finalmente, esta lista de termos é transformada em uma distribuição de freqüência que consiste em tuplas <termo, freqüência>, onde a freqüência indica o número de ocorrências desse termo no documento para definir o conjunto de termos (isto é, as representações de documento 3624).
Subseqüentemente, o módulo de raciocínio aproximado 3618 acessa uma base de conhecimento 3622 que registra variáveis (isto é, características de documento e freqüências associadas) que são usadas para definir uma função que modela o mapeamento do documento 3612, ou sua representação transformada 3624, para uma classe em uma ontologia. Uma concretização mais específica de tal base de conhecimento é representada com o uso de um conjunto de regras que descrevem relações entre as variáveis registradas. Tipicamente, cada classe é representada por uma regra. No mapeamento da função, o motor de inferência 3618 associa o documento com cada regra de classe armazenada na base de conhecimento 3622 e usa um criador de decisões para tirar conclusões à qual ação confiar. A função, conforme representada pela base de conhecimento 3622 e módulo de raciocínio aproximado 3618, pode ser definida com o uso de uma variedade de tipos de modelo que incluem o seguinte: modelos pro-babilísticos, modelos lógicos/de conjunto vago, modelos lógicos com valor Booleano; abordagens vizinhas mais próximas, e redes neurais, alguns dos quais são descritos em maiores detalhes abaixo.
Além dos elementos mostrados na Figura 23, o categorizador 3610 pode incluir um módulo de aprendizado. A formação exata do módulo de aprendizado irá depender do modelo (por exemplo, probabilístico, vago, etc.) usado pelo módulo de raciocínio aproximado 3618 para mapear um conjunto de documentos para a lista de categorias. Geralmente, o módulo de aprendizado assume exemplos de documento classificado de entrada para cada classe e gera uma base de conhecimento correspondente. C.9 Recomendando Personalidades O servidor de metadocumento 200 apresenta um serviço para recomendar as personalidades em 216 na Figura 2. Em um exemplo, as personalidades são recomendadas para cada documento depois que um usuário envia para o servidor de metadocumento 200 e que o usuário tiver selecionado a propriedade de personalidade 1214 mostrada na Figura 6. Depois que um usuário seleciona a propriedade de personalidade 1214, o recomendador de personalidade 216 automaticamente recomenda uma personalidade para cada documento enviado pelo usuário. Com a recomendação de uma personalidade, o recomendador de personalidade 216 ajuda um usuário a decidir qual de uma pluralidade de temas de enriquecimento de documento deve ser aplicado a um documento enviado através da análise de conteúdo de documento ou de outra informação contextual (por exemplo, ações executadas no documento) do documento enviado.
Em uma concretização, as personalidades que são recomendadas pelo recomendador de personalidade 216 são automaticamente conectadas ao documento enviado sem exigir a confirmação do usuário e estes documentos são imediatamente enriquecidos pelo servidor de metadocumento. Alternativamente, as personalidades que são recomendadas pelo recomendador de personalidade 216 são conectadas a um metadocumeno apenas depois que o usuário apresenta uma confirmação que a personalidade recomendada é aceitável para o usuário. A fim de decidir qual personalidade (ou personalidades) recomendar para conectar a um documento, o servidor de metadocumento 200 usa um documento enviado 3712 como entrada para o sistema recomendador de personalidade 216, uma concretização 3700 do qual é mostrada em detalhes na Figura 24. De modo geral, o sistema recomendador de personalidade 3700 mostrado na Figura 24 é similar ao categorizador de documento 3610 mostrado na Figura 23, exceto pelo fato do recomendador de personalidade atribuir uma lista de uma ou mais personalidades 3720 ao invés de uma lista de uma ou mais categorias, conforme especificado para o catego-rizador. O recomendador de personalidade 3700 pode aprender regras para recomendar personalidades e para desenvolver uma ontologia de personalidade com o uso de documentos anteriormente enviados para o servidor de metadocumento 200 e atribuída uma personalidade por um usuário.
Mais especificamente, o sistema recomendador de personalidade 3700 mostrado na Figura 24 é uma variante do categorizador de texto descrito e mostrado na Figura 23. A base de conhecimento 3722 pode ser definida manualmente com o uso de dados do banco de dados de personalidade 212, que pode conter as personalidades específicas do usuário ou personalidades geralmente disponíveis (por exemplo, com o uso de características e ponderações escolhidas manualmente para cada personalidade que poderia ser aplicada) e documentos que foram anteriormente atribuídos a essas personalidades no banco de dados de metadocumento 202.
Alternativamente, a base de conhecimento pode ser definida semi-automaticamente ou automaticamente com o uso de características e ponderações escolhidas pelas técnicas de aprendizado mecânico. No caso de aprendizado mecânico das características e ponderações, o módulo de aprendizado 3730 pode usar metadocumentos que existem no banco de dados de metadocumento 202 para treinar a base de conhecimento 3722. Subseqüentemente, o módulo de aprendizado 3730 valida a base de conhecimento 3722 com o uso do banco de dados de perfil 3708. O banco de dados do perfil do usuário 3708, que inclui porções do banco de dados de metadocumento 202 e o banco de dados de personalidade 212, inclui referências aos metadocumentos que os usuários já aplicaram uma personalidade ao mesmo.
Em operação, o módulo de pré-processamento 3614 do recomendador de personalidade 3700 extrai as características 3616 de um documento enviado 3712. Subseqüentemente, o módulo de raciocínio aproximado 3618 deriva uma lista de personalidades 3720 com o uso da base de conhecimento 3722. Estas características extraídas seriam então exploradas, novamente com o uso de técnicas padrões (usando, por exemplo, a inferência Bayesiana, a distância de cosseno, conforme descrito acima), para classificar o novo documento e classificar a possível lista de personalidades 3720 para recomendar o conteúdo de documento especificado de enriquecimento. Cada classificação de personalidade acima de um certo limite ou apenas as personalidades superiores N(N>=1) podem ser recomendadas pelo módulo de raciocínio aproximado 3618.
Em uma variante do recomendador de personalidade 3700, as personalidades classificadas para um novo documento são novamente classificadas com o uso do perfil do usuário. Por exemplo, se o módulo de raciocínio aproximado 3618 conectar a um documento uma personalidade comercial e esportiva, mas o próprio perfil do usuário em 3708 revelar que este usuário jamais aplicou uma personalidade comercial, então a classificação poderá ser alterada em 3701, de modo que apenas a personalidade esportiva seja proposta, ou aplicada com uma maior prioridade, antes da personalidade comercial. Conseqüentemente, as recomendações de personalidade podem ser configuradas para um usuário específico que usa o histórico de interação do usuário com o servidor de metadocumento 200.

Claims (3)

1. Sistema para enriquecer conteúdo de documento, caracterizado pelo fato de que compreende: uma interface de usuário para especificar uma personalidade (104) que define um conjunto de solicitações de serviço de documento (106) que identifica temas de enriquecimento; um usuário-gerenciador (214) para receber o conteúdo de documento (102) e a personalidade (104); o usuário-gerenciador (214) formando um metadocumento (100) com o conteúdo do documento (102) e a personalidade (104); um agendador (204) para selecionar uma solicitação de serviço de documento (106) a partir do conjunto; o agendador (204) iniciando e ge-renciando a comunicação com um provedor de serviço para satisfazer o serviço de documento selecionado; um gerenciador de conteúdo (208) para integrar os resultados a partir do serviço de documento selecionado no metadocumento (100) como marca de documento (108); em que a interface do usuário, o usuário-gerenciador (214), o agendador (204), e o gerenciador de conteúdo (208) operam juntos para gerarem ou recomendarem novas personalidades ou para modificarem personalidades existentes com o uso de uma ou mais em combinação de um conjunto de computações algébricas, um conjunto de referências de documento, um conjunto de personalidades predefinidas, um conjunto de personalidades de aprendizado, um nível de conhecimento, e uma classificação de personalidades.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: um extrator de entidade (1802) para desenvolver um documento expandido (1800) com um conjunto de documentos identificados e construir um banco de dados de entidade (1804) com o documento expandido (1800), e um gerador de serviço (1806) para criar uma solicitação de ser- viço para cada formulário identificado no documento expandido (1800) e definir uma nova personalidade usando as solicitações de serviço criadas e o banco de dados de entidade (1804).
3. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: meios para receber uma questão definida pelo usuário; meios para identificar léxicos na questão definida pelo usuário; meios para substituir os léxicos identificados com símbolos genéricos para definir uma questão genérica; meios para acrescentar a questão genérica a uma nova personalidade ou a uma personalidade existente.
BRPI0203479-4A 2001-08-13 2002-08-13 Sistema para enriquecer conteúdo de documento BRPI0203479B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US31185701P 2001-08-13 2001-08-13
US09/683,236 US6732090B2 (en) 2001-08-13 2001-12-05 Meta-document management system with user definable personalities

Publications (2)

Publication Number Publication Date
BR0203479A BR0203479A (pt) 2003-05-13
BRPI0203479B1 true BRPI0203479B1 (pt) 2015-06-09

Family

ID=26978111

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0203479-4A BRPI0203479B1 (pt) 2001-08-13 2002-08-13 Sistema para enriquecer conteúdo de documento

Country Status (4)

Country Link
US (1) US6732090B2 (pt)
EP (1) EP1284461A1 (pt)
JP (1) JP4365074B2 (pt)
BR (1) BRPI0203479B1 (pt)

Families Citing this family (333)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
WO1998053637A1 (en) * 1997-05-21 1998-11-26 E.S.P. Communications, Inc. System, method and apparatus for 'caller only' initiated two-way wireless communication with caller generated billing
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US20020174201A1 (en) * 1999-09-30 2002-11-21 Ramer Jon E. Dynamic configuration of context-sensitive personal sites and membership channels
US7536561B2 (en) * 1999-10-15 2009-05-19 Ebrary, Inc. Method and apparatus for improved information transactions
US8311946B1 (en) 1999-10-15 2012-11-13 Ebrary Method and apparatus for improved information transactions
US20040148274A1 (en) * 1999-10-15 2004-07-29 Warnock Christopher M. Method and apparatus for improved information transactions
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
DE60005293T2 (de) * 2000-02-23 2004-07-01 Ser Solutions Inc. Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7660737B1 (en) 2000-07-18 2010-02-09 Smartpenny.Com, Inc. Economic filtering system for delivery of permission based, targeted, incentivized advertising
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
US9177828B2 (en) 2011-02-10 2015-11-03 Micron Technology, Inc. External gettering method and device
US20020169735A1 (en) * 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
US7032174B2 (en) * 2001-03-27 2006-04-18 Microsoft Corporation Automatically adding proper names to a database
US7502770B2 (en) * 2001-04-11 2009-03-10 Metaweb Technologies, Inc. Knowledge web
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US20020169738A1 (en) * 2001-05-10 2002-11-14 Giel Peter Van Method and system for auditing an enterprise configuration
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US7284191B2 (en) 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US7130861B2 (en) 2001-08-16 2006-10-31 Sentius International Corporation Automated creation and delivery of database content
US8112529B2 (en) 2001-08-20 2012-02-07 Masterobjects, Inc. System and method for asynchronous client server session communication
US20090006543A1 (en) * 2001-08-20 2009-01-01 Masterobjects System and method for asynchronous retrieval of information based on incremental user input
EP1288792B1 (en) * 2001-08-27 2011-12-14 BDGB Enterprise Software Sàrl A method for automatically indexing documents
US7451390B2 (en) * 2001-09-10 2008-11-11 Fujitsu Limited Structured document processing system, method, program and recording medium
WO2003040963A1 (en) * 2001-11-02 2003-05-15 Medical Research Consultants L.P. Knowledge management system
DE10157487C1 (de) * 2001-11-23 2003-06-18 Sgl Carbon Ag Faserverstärkter Verbundkörper für Schutzpanzerungen, seine Herstellung und Verwendungen
US20030125929A1 (en) * 2001-12-10 2003-07-03 Thomas Bergstraesser Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network
US7052277B2 (en) * 2001-12-14 2006-05-30 Kellman A.C.T. Services, Inc. System and method for adaptive learning
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7072883B2 (en) * 2001-12-21 2006-07-04 Ut-Battelle Llc System for gathering and summarizing internet information
US7243092B2 (en) * 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US20030128236A1 (en) * 2002-01-10 2003-07-10 Chen Meng Chang Method and system for a self-adaptive personal view agent
US7062711B2 (en) * 2002-01-30 2006-06-13 Sharp Laboratories Of America, Inc. User interface and method for providing search query syntax help
AU2003214975A1 (en) * 2002-02-01 2003-09-02 John Fairweather System and method for navigating data
DE10204657A1 (de) * 2002-02-05 2003-08-07 Rohde & Schwarz Nachrichtenanalyseeinrichtung und Verfahren zum Anzeigen von Nachrichten
US20030195834A1 (en) * 2002-04-10 2003-10-16 Hillis W. Daniel Automated online purchasing system
US7844610B2 (en) * 2003-12-12 2010-11-30 Google Inc. Delegated authority evaluation system
US8069175B2 (en) 2002-04-10 2011-11-29 Google Inc. Delegating authority to evaluate content
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US6941318B1 (en) * 2002-05-10 2005-09-06 Oracle International Corporation Universal tree interpreter for data mining models
US7752252B2 (en) * 2002-05-17 2010-07-06 Ntt Docomo, Inc. De-fragmentation of transmission sequences
US7219164B2 (en) * 2002-05-17 2007-05-15 University Of Miami Multimedia re-editor
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US20040205580A1 (en) * 2002-05-23 2004-10-14 Mindflash Technologies, Inc. Method and system for document management
US7281245B2 (en) * 2002-06-05 2007-10-09 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US20030236773A1 (en) * 2002-06-19 2003-12-25 Wen Say Ling Input system and method with dynamic database adjustment function
US20040003341A1 (en) * 2002-06-20 2004-01-01 Koninklijke Philips Electronics N.V. Method and apparatus for processing electronic forms for use with resource constrained devices
US7003522B1 (en) * 2002-06-24 2006-02-21 Microsoft Corporation System and method for incorporating smart tags in online content
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
JP3783665B2 (ja) * 2002-08-05 2006-06-07 ブラザー工業株式会社 画像形成装置及びネットワークシステム
US6999962B2 (en) * 2002-08-13 2006-02-14 Xerox Corporation Shared document repository with coupled recommender system
US7185271B2 (en) * 2002-08-20 2007-02-27 Hewlett-Packard Development Company, L.P. Methods and systems for implementing auto-complete in a web page
FI112998B (fi) * 2002-08-21 2004-02-13 Nokia Corp Menetelmä ja laite tiedonsiirtoon
US7283989B1 (en) * 2002-09-27 2007-10-16 At&T Bls Intellectual Property, Inc. System and method for use of application metadata
US7130844B2 (en) * 2002-10-31 2006-10-31 International Business Machines Corporation System and method for examining, calculating the age of an document collection as a measure of time since creation, visualizing, identifying selectively reference those document collections representing current activity
US7954043B2 (en) * 2002-12-02 2011-05-31 International Business Machines Corporation Concurrent editing of a file by multiple authors
US7392231B2 (en) * 2002-12-03 2008-06-24 International Business Machines Corporation Determining utility functions from ordenal rankings
US8012025B2 (en) * 2002-12-13 2011-09-06 Applied Minds, Llc Video game controller hub with control input reduction and combination schemes
US7765206B2 (en) * 2002-12-13 2010-07-27 Metaweb Technologies, Inc. Meta-Web
US20040133574A1 (en) * 2003-01-07 2004-07-08 Science Applications International Corporaton Vector space method for secure information sharing
US7124955B2 (en) * 2003-01-28 2006-10-24 American Express Travel Related Services Company, Inc. Compact or convenient transaction cards
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US7703000B2 (en) * 2003-02-13 2010-04-20 Iparadigms Llc Systems and methods for contextual mark-up of formatted documents
US20040199584A1 (en) * 2003-03-05 2004-10-07 Evan Kirshenbaum Method and system for customized configuration of an appearance of a website for a user
US20040186705A1 (en) * 2003-03-18 2004-09-23 Morgan Alexander P. Concept word management
US20040190774A1 (en) * 2003-03-28 2004-09-30 Baker Daniel P. Method for classifying and accessing writing composition examples
WO2004090692A2 (en) 2003-04-04 2004-10-21 Icosystem Corporation Methods and systems for interactive evolutionary computing (iec)
US7243085B2 (en) * 2003-04-16 2007-07-10 Sony Corporation Hybrid personalization architecture
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US20040231526A1 (en) * 2003-05-21 2004-11-25 Schreiber Foods, Inc. Method and apparatus for shaping a body of cheese into a plurality of curved bodies of cheese
CA2468481A1 (en) * 2003-05-26 2004-11-26 John T. Forbis Multi-position rail for a barrier
US7739588B2 (en) * 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
CN1567303A (zh) * 2003-07-03 2005-01-19 富士通株式会社 结构文档信息块的自动分割方法和装置
JP4073841B2 (ja) * 2003-07-24 2008-04-09 富士フイルム株式会社 電子メール・サーバ
US7779345B2 (en) 2003-07-30 2010-08-17 Aol Inc. Reverse mapping method and apparatus for form filling
EP1649346A2 (en) 2003-08-01 2006-04-26 Icosystem Corporation Methods and systems for applying genetic operators to determine system conditions
US7296027B2 (en) 2003-08-06 2007-11-13 Sbc Knowledge Ventures, L.P. Rhetorical content management with tone and audience profiles
US20050033811A1 (en) 2003-08-07 2005-02-10 International Business Machines Corporation Collaborative email
US7213036B2 (en) 2003-08-12 2007-05-01 Aol Llc System for incorporating information about a source and usage of a media asset into the asset itself
US8209185B2 (en) * 2003-09-05 2012-06-26 Emc Corporation Interface for management of auditory communications
US8103873B2 (en) * 2003-09-05 2012-01-24 Emc Corporation Method and system for processing auditory communications
US7499531B2 (en) * 2003-09-05 2009-03-03 Emc Corporation Method and system for information lifecycle management
US7457396B2 (en) * 2003-09-05 2008-11-25 Emc Corporation Automated call management
US7676358B2 (en) * 2003-09-24 2010-03-09 International Business Machines Corporation System and method for the recognition of organic chemical names in text documents
US9547994B2 (en) * 2003-10-01 2017-01-17 Kenneth Nathaniel Sherman Progressive reference system, method and apparatus
US20060075345A1 (en) * 2004-09-27 2006-04-06 Sherman Kenneth N Progressive reference system, method and apparatus
US9489853B2 (en) * 2004-09-27 2016-11-08 Kenneth Nathaniel Sherman Reading and information enhancement system and method
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter
US7640232B2 (en) 2003-10-14 2009-12-29 Aol Llc Search enhancement system with information from a selected source
US20050108316A1 (en) * 2003-11-18 2005-05-19 Sbc Knowledge Ventures, L.P. Methods and systems for organizing related communications
US20050125254A1 (en) * 2003-12-03 2005-06-09 Roy Schoenberg Key maintenance method and system
US7464330B2 (en) * 2003-12-09 2008-12-09 Microsoft Corporation Context-free document portions with alternate formats
US20050131918A1 (en) * 2003-12-12 2005-06-16 W. Daniel Hillis Personalized profile for evaluating content
US7373373B2 (en) 2003-12-12 2008-05-13 Arinc Incorporated Systems and methods for host/client communications
US7299110B2 (en) * 2004-01-06 2007-11-20 Honda Motor Co., Ltd. Systems and methods for using statistical techniques to reason with noisy data
US7415106B2 (en) * 2004-03-09 2008-08-19 Sbc Knowledge Ventures, Lp Network-based voice activated auto-attendant service with B2B connectors
US7383500B2 (en) * 2004-04-30 2008-06-03 Microsoft Corporation Methods and systems for building packages that contain pre-paginated documents
US7631254B2 (en) * 2004-05-17 2009-12-08 Gordon Peter Layard Automated e-learning and presentation authoring system
EP1605369A1 (en) * 2004-06-07 2005-12-14 ArchiveOnline AB Document database
CA2571509A1 (en) * 2004-06-24 2006-01-05 Amir Lavi System for facilitating search over a network
US9268780B2 (en) 2004-07-01 2016-02-23 Emc Corporation Content-driven information lifecycle management
US8180743B2 (en) 2004-07-01 2012-05-15 Emc Corporation Information management
US7707037B2 (en) * 2004-07-01 2010-04-27 Emc Corporation Archiving of surveillance data
US20060004579A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Flexible video surveillance
US8180742B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Policy-based information management
US7444287B2 (en) * 2004-07-01 2008-10-28 Emc Corporation Efficient monitoring system and method
US8244542B2 (en) * 2004-07-01 2012-08-14 Emc Corporation Video surveillance
US20060004818A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Efficient information management
US8229904B2 (en) * 2004-07-01 2012-07-24 Emc Corporation Storage pools for information management
US7707220B2 (en) * 2004-07-06 2010-04-27 Icosystem Corporation Methods and apparatus for interactive searching techniques
US20060010117A1 (en) * 2004-07-06 2006-01-12 Icosystem Corporation Methods and systems for interactive search
JP2006023878A (ja) * 2004-07-07 2006-01-26 Quin Land Co Ltd データ抽出システム
US7603349B1 (en) * 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US20090198714A1 (en) * 2004-08-02 2009-08-06 Clairvoyance Corporation Document processing and management approach for reflecting changes in one representation of a document to another representation
US20060048042A1 (en) * 2004-08-30 2006-03-02 Xerox Corporation Individually personalized customized report document system with user feedback
US20060048053A1 (en) * 2004-08-30 2006-03-02 Xerox Corporation Individually personalized customized report document system
US8626514B2 (en) * 2004-08-31 2014-01-07 Emc Corporation Interface for management of multiple auditory communications
US8244726B1 (en) 2004-08-31 2012-08-14 Bruce Matesso Computer-aided extraction of semantics from keywords to confirm match of buyer offers to seller bids
US20060073461A1 (en) * 2004-09-22 2006-04-06 Gillaspy Thomas R Method and system for estimating educational resources
US8386453B2 (en) * 2004-09-30 2013-02-26 Google Inc. Providing search information relating to a document
US7617450B2 (en) * 2004-09-30 2009-11-10 Microsoft Corporation Method, system, and computer-readable medium for creating, inserting, and reusing document parts in an electronic document
US9495467B2 (en) * 2004-10-13 2016-11-15 Bloomberg Finance L.P. System and method for managing news headlines
US7412442B1 (en) * 2004-10-15 2008-08-12 Amazon Technologies, Inc. Augmenting search query results with behaviorally related items
US8631347B2 (en) * 2004-11-15 2014-01-14 Microsoft Corporation Electronic document style matrix
US7617229B2 (en) * 2004-12-20 2009-11-10 Microsoft Corporation Management and use of data in a computer-generated document
US20060136816A1 (en) * 2004-12-20 2006-06-22 Microsoft Corporation File formats, methods, and computer program products for representing documents
US7617451B2 (en) * 2004-12-20 2009-11-10 Microsoft Corporation Structuring data for word processing documents
US7770180B2 (en) * 2004-12-21 2010-08-03 Microsoft Corporation Exposing embedded data in a computer-generated document
US7752632B2 (en) * 2004-12-21 2010-07-06 Microsoft Corporation Method and system for exposing nested data in a computer-generated document in a transparent manner
US20060149710A1 (en) 2004-12-30 2006-07-06 Ross Koningstein Associating features with entities, such as categories of web page documents, and/or weighting such features
US7433866B2 (en) 2005-01-11 2008-10-07 International Business Machines Corporation Systems, methods, and media for awarding credits based on provided usage information
US7386569B2 (en) * 2005-01-11 2008-06-10 International Business Machines Corporation Systems, methods, and media for aggregating electronic document usage information
US7421426B2 (en) * 2005-01-11 2008-09-02 International Business Machines Corporation Systems, methods, and media for utilizing electronic document usage information with search engines
US20060195361A1 (en) * 2005-10-01 2006-08-31 Outland Research Location-based demographic profiling system and method of use
US20060229058A1 (en) * 2005-10-29 2006-10-12 Outland Research Real-time person-to-person communication using geospatial addressing
US20070189544A1 (en) 2005-01-15 2007-08-16 Outland Research, Llc Ambient sound responsive media player
US7542816B2 (en) * 2005-01-27 2009-06-02 Outland Research, Llc System, method and computer program product for automatically selecting, suggesting and playing music media files
US7489979B2 (en) * 2005-01-27 2009-02-10 Outland Research, Llc System, method and computer program product for rejecting or deferring the playing of a media file retrieved by an automated process
US7562117B2 (en) * 2005-09-09 2009-07-14 Outland Research, Llc System, method and computer program product for collaborative broadcast media
US20060161621A1 (en) * 2005-01-15 2006-07-20 Outland Research, Llc System, method and computer program product for collaboration and synchronization of media content on a plurality of media players
US7337170B2 (en) * 2005-01-18 2008-02-26 International Business Machines Corporation System and method for planning and generating queries for multi-dimensional analysis using domain models and data federation
US20060173556A1 (en) * 2005-02-01 2006-08-03 Outland Research,. Llc Methods and apparatus for using user gender and/or age group to improve the organization of documents retrieved in response to a search query
US20070276870A1 (en) * 2005-01-27 2007-11-29 Outland Research, Llc Method and apparatus for intelligent media selection using age and/or gender
US20060179056A1 (en) * 2005-10-12 2006-08-10 Outland Research Enhanced storage and retrieval of spatially associated information
US20060173828A1 (en) * 2005-02-01 2006-08-03 Outland Research, Llc Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query
US20070229350A1 (en) * 2005-02-01 2007-10-04 Scalisi Joseph F Apparatus and Method for Providing Location Information on Individuals and Objects using Tracking Devices
US7598855B2 (en) 2005-02-01 2009-10-06 Location Based Technologies, Inc. Apparatus and method for locating individuals and objects using tracking devices
US20060179044A1 (en) * 2005-02-04 2006-08-10 Outland Research, Llc Methods and apparatus for using life-context of a user to improve the organization of documents retrieved in response to a search query from that user
US7921365B2 (en) 2005-02-15 2011-04-05 Microsoft Corporation System and method for browsing tabbed-heterogeneous windows
US7840564B2 (en) 2005-02-16 2010-11-23 Ebrary System and method for automatic anthology creation using document aspects
US7680781B1 (en) * 2005-03-04 2010-03-16 Teradata Us, Inc. Automatic search query generation and results set management
US20060253210A1 (en) * 2005-03-26 2006-11-09 Outland Research, Llc Intelligent Pace-Setting Portable Media Player
WO2006107347A2 (en) * 2005-03-31 2006-10-12 Lehman Brothers Inc. System and method for grouping a collection of documents using document series
US20060223637A1 (en) * 2005-03-31 2006-10-05 Outland Research, Llc Video game system combining gaming simulation with remote robot control and remote robot feedback
US20060256008A1 (en) * 2005-05-13 2006-11-16 Outland Research, Llc Pointing interface for person-to-person information exchange
US20060223635A1 (en) * 2005-04-04 2006-10-05 Outland Research method and apparatus for an on-screen/off-screen first person gaming experience
US20060241864A1 (en) * 2005-04-22 2006-10-26 Outland Research, Llc Method and apparatus for point-and-send data transfer within an ubiquitous computing environment
US20060253421A1 (en) * 2005-05-06 2006-11-09 Fang Chen Method and product for searching title metadata based on user preferences
US20060259948A1 (en) * 2005-05-12 2006-11-16 International Business Machines Corporation Integrated document handling in distributed collaborative applications
US20060256007A1 (en) * 2005-05-13 2006-11-16 Outland Research, Llc Triangulation method and apparatus for targeting and accessing spatially associated information
US20060259574A1 (en) * 2005-05-13 2006-11-16 Outland Research, Llc Method and apparatus for accessing spatially associated information
US20070150188A1 (en) * 2005-05-27 2007-06-28 Outland Research, Llc First-person video-based travel planning system
US20060271286A1 (en) * 2005-05-27 2006-11-30 Outland Research, Llc Image-enhanced vehicle navigation systems and methods
EP1896969A2 (en) * 2005-05-31 2008-03-12 Ipifini, Inc. Computer program for identifying and automating repetitive user inputs
US7359897B2 (en) * 2005-06-02 2008-04-15 Toshiba Corporation System and method for document management and retrieval
US20070022128A1 (en) * 2005-06-03 2007-01-25 Microsoft Corporation Structuring data for spreadsheet documents
US20060277452A1 (en) * 2005-06-03 2006-12-07 Microsoft Corporation Structuring data for presentation documents
US8175511B1 (en) * 2005-06-08 2012-05-08 Globalenglish Corporation Techniques for intelligent network-based teaching
US10699593B1 (en) * 2005-06-08 2020-06-30 Pearson Education, Inc. Performance support integration with E-learning system
US8805781B2 (en) * 2005-06-15 2014-08-12 Geronimo Development Document quotation indexing system and method
US8768911B2 (en) 2005-06-15 2014-07-01 Geronimo Development System and method for indexing and displaying document text that has been subsequently quoted
US20060186197A1 (en) * 2005-06-16 2006-08-24 Outland Research Method and apparatus for wireless customer interaction with the attendants working in a restaurant
US20080032719A1 (en) * 2005-10-01 2008-02-07 Outland Research, Llc Centralized establishment-based tracking and messaging service
US7433869B2 (en) * 2005-07-01 2008-10-07 Ebrary, Inc. Method and apparatus for document clustering and document sketching
US7853618B2 (en) 2005-07-21 2010-12-14 The Boeing Company Methods and apparatus for generic semantic access to information systems
US20070027895A1 (en) * 2005-07-27 2007-02-01 Lexmark International, Inc. Systems and methods for providing customized multi-function device interfaces using user authentication
US7580924B1 (en) * 2005-07-28 2009-08-25 Xilinx, Inc. Method and system for collection, analysis, and display of semiconductor manufacturing information
US7739305B1 (en) 2005-07-28 2010-06-15 Xilinx, Inc. Network appliance for data collection and processing from multiple locations and data schema therefor
JP4702940B2 (ja) * 2005-09-09 2011-06-15 キヤノン株式会社 ドキュメント管理システム及びその制御方法
US8001526B2 (en) * 2005-09-15 2011-08-16 Microsoft Corporation Hierarchical property storage
US7721205B2 (en) * 2005-09-15 2010-05-18 Microsoft Corporation Integration of composite objects in host applications
US20070061349A1 (en) * 2005-09-15 2007-03-15 Microsoft Corporation Hierarchically describing shapes
US7783971B2 (en) * 2005-09-13 2010-08-24 Microsoft Corporation Graphic object themes
US20070061351A1 (en) * 2005-09-13 2007-03-15 Microsoft Corporation Shape object text
WO2007035848A2 (en) * 2005-09-21 2007-03-29 Icosystem Corporation System and method for aiding product design and quantifying acceptance
US8176101B2 (en) 2006-02-07 2012-05-08 Google Inc. Collaborative rejection of media for physical establishments
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US7577522B2 (en) * 2005-12-05 2009-08-18 Outland Research, Llc Spatially associated personal reminder system and method
US20070106627A1 (en) * 2005-10-05 2007-05-10 Mohit Srivastava Social discovery systems and methods
US7586032B2 (en) * 2005-10-07 2009-09-08 Outland Research, Llc Shake responsive portable media player
US20070083323A1 (en) * 2005-10-07 2007-04-12 Outland Research Personal cuing for spatially associated information
US20070088680A1 (en) * 2005-10-14 2007-04-19 Microsoft Corporation Simultaneously spawning multiple searches across multiple providers
US20070112833A1 (en) * 2005-11-17 2007-05-17 International Business Machines Corporation System and method for annotating patents with MeSH data
US9495349B2 (en) * 2005-11-17 2016-11-15 International Business Machines Corporation System and method for using text analytics to identify a set of related documents from a source document
US20060227047A1 (en) * 2005-12-13 2006-10-12 Outland Research Meeting locator system and method of using the same
US20070192363A1 (en) * 2005-12-19 2007-08-16 Microsoft Corporation Document-centric application environment
US20070075127A1 (en) * 2005-12-21 2007-04-05 Outland Research, Llc Orientation-based power conservation for portable media devices
US7685198B2 (en) * 2006-01-25 2010-03-23 Yahoo! Inc. Systems and methods for collaborative tag suggestions
US7953740B1 (en) 2006-02-13 2011-05-31 Amazon Technologies, Inc. Detection of behavior-based associations between search strings and items
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
US20080057481A1 (en) * 2006-03-17 2008-03-06 William Charles Schmitt Common Format Learning Device
US8762418B1 (en) 2006-05-31 2014-06-24 Oracle America, Inc. Metadata that allows refiltering and data reclassification without accessing the data
US20080005685A1 (en) * 2006-06-30 2008-01-03 Clemens Drews Interface mechanism for quickly accessing recently used artifacts in a computer desktop environment
US7502807B2 (en) * 2006-06-30 2009-03-10 Microsoft Corporation Defining and extracting a flat list of search properties from a rich structured type
US20080005226A1 (en) * 2006-07-03 2008-01-03 Srinivasan Subbian A method and system for one-to-one communication through proxy
US20080005228A1 (en) * 2006-07-03 2008-01-03 Srinivasan Subbian Method and system for communicating to networks using mobile phones
US20080005227A1 (en) * 2006-07-03 2008-01-03 Srinivasan Subbian Method and system for content processing
US20100198697A1 (en) 2006-07-21 2010-08-05 Videoegg, Inc. Fixed Position Interactive Advertising
US7783622B1 (en) 2006-07-21 2010-08-24 Aol Inc. Identification of electronic content significant to a user
US8732019B2 (en) 2006-07-21 2014-05-20 Say Media, Inc. Non-expanding interactive advertisement
US9208500B2 (en) 2006-07-21 2015-12-08 Microsoft Technology Licensing, Llc Fixed position multi-state interactive advertisement
US20090018920A1 (en) * 2006-07-21 2009-01-15 Videoegg, Inc. Interaction Prompt for Interactive Advertising
US7792830B2 (en) * 2006-08-01 2010-09-07 International Business Machines Corporation Analyzing the ability to find textual content
NZ575190A (en) * 2006-08-30 2012-03-30 Thomson Reuters Glo Resources Document-centric workflow based on document contents, metadata, and context
CN101145152B (zh) * 2006-09-14 2010-08-11 国际商业机器公司 在特定上下文内自动精细化本体的***和方法
JP2008083856A (ja) * 2006-09-26 2008-04-10 Toshiba Corp 情報処理装置、情報処理方法及び情報処理プログラム
US7890442B2 (en) * 2006-10-20 2011-02-15 International Business Machines Corporation Method and system for autocompletion of multiple fields in electronic forms
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
US20080183691A1 (en) * 2007-01-30 2008-07-31 International Business Machines Corporation Method for a networked knowledge based document retrieval and ranking utilizing extracted document metadata and content
US7792816B2 (en) * 2007-02-01 2010-09-07 Icosystem Corporation Method and system for fast, generic, online and offline, multi-source text analysis and visualization
US8166389B2 (en) * 2007-02-09 2012-04-24 General Electric Company Methods and apparatus for including customized CDA attributes for searching and retrieval
US8386478B2 (en) * 2007-03-07 2013-02-26 The Boeing Company Methods and systems for unobtrusive search relevance feedback
US9111189B2 (en) * 2007-10-31 2015-08-18 Location Based Technologies, Inc. Apparatus and method for manufacturing an electronic package
US8244468B2 (en) * 2007-11-06 2012-08-14 Location Based Technology Inc. System and method for creating and managing a personalized web interface for monitoring location information on individuals and objects using tracking devices
US8224355B2 (en) * 2007-11-06 2012-07-17 Location Based Technologies Inc. System and method for improved communication bandwidth utilization when monitoring location information
US8774827B2 (en) 2007-04-05 2014-07-08 Location Based Technologies, Inc. Apparatus and method for generating position fix of a tracking device in accordance with a subscriber service usage profile to conserve tracking device power
US8497774B2 (en) 2007-04-05 2013-07-30 Location Based Technologies Inc. Apparatus and method for adjusting refresh rate of location coordinates of a tracking device
US8102256B2 (en) 2008-01-06 2012-01-24 Location Based Technologies Inc. Apparatus and method for determining location and tracking coordinates of a tracking device
US20080262883A1 (en) * 2007-04-19 2008-10-23 Weiss Stephen J Systems and methods for compliance and announcement display and notification
US9128954B2 (en) * 2007-05-09 2015-09-08 Illinois Institute Of Technology Hierarchical structured data organization system
US9633028B2 (en) 2007-05-09 2017-04-25 Illinois Institute Of Technology Collaborative and personalized storage and search in hierarchical abstract data organization systems
US10042898B2 (en) 2007-05-09 2018-08-07 Illinois Institutre Of Technology Weighted metalabels for enhanced search in hierarchical abstract data organization systems
US8521511B2 (en) * 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US9058319B2 (en) * 2007-06-18 2015-06-16 International Business Machines Corporation Sub-model generation to improve classification accuracy
US8285539B2 (en) * 2007-06-18 2012-10-09 International Business Machines Corporation Extracting tokens in a natural language understanding application
US9342588B2 (en) * 2007-06-18 2016-05-17 International Business Machines Corporation Reclassification of training data to improve classifier accuracy
US9251137B2 (en) * 2007-06-21 2016-02-02 International Business Machines Corporation Method of text type-ahead
US8918437B2 (en) * 2007-07-17 2014-12-23 International Business Machines Corporation Fragment reconstitution in a content management system
US8654974B2 (en) * 2007-10-18 2014-02-18 Location Based Technologies, Inc. Apparatus and method to provide secure communication over an insecure communication channel for location information using tracking devices
US8543898B2 (en) * 2007-11-09 2013-09-24 Oracle International Corporation Techniques for more efficient generation of XML events from XML data sources
US8250062B2 (en) * 2007-11-09 2012-08-21 Oracle International Corporation Optimized streaming evaluation of XML queries
US8316035B2 (en) 2008-01-16 2012-11-20 International Business Machines Corporation Systems and arrangements of text type-ahead
JP5224851B2 (ja) * 2008-02-27 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索エンジン、検索システム、検索方法およびプログラム
US8086557B2 (en) * 2008-04-22 2011-12-27 Xerox Corporation Method and system for retrieving statements of information sources and associating a factuality assessment to the statements
US8359532B2 (en) * 2008-04-28 2013-01-22 International Business Machines Corporation Text type-ahead
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US20090307203A1 (en) * 2008-06-04 2009-12-10 Gregory Keim Method of locating content for language learning
US8429196B2 (en) * 2008-06-06 2013-04-23 Oracle International Corporation Fast extraction of scalar values from binary encoded XML
US20100031190A1 (en) * 2008-07-29 2010-02-04 Yahoo! Inc. System and method for copying information into a target document
US8090794B1 (en) * 2008-08-25 2012-01-03 Intuit Inc. Technique for customizing displayed content
US7730061B2 (en) * 2008-09-12 2010-06-01 International Business Machines Corporation Fast-approximate TFIDF
US8914359B2 (en) * 2008-12-30 2014-12-16 Microsoft Corporation Ranking documents with social tags
US8321514B2 (en) 2008-12-30 2012-11-27 International Business Machines Corporation Sharing email
US20100287188A1 (en) * 2009-05-04 2010-11-11 Samir Kakar Method and system for publishing a document, method and system for verifying a citation, and method and system for managing a project
US8332763B2 (en) * 2009-06-09 2012-12-11 Microsoft Corporation Aggregating dynamic visual content
WO2011005854A1 (en) * 2009-07-07 2011-01-13 Chacha Search, Inc. Method and system of providing search tools
US8832133B2 (en) * 2009-08-24 2014-09-09 Microsoft Corporation Answering web queries using structured data sources
US9152883B2 (en) * 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US8321357B2 (en) * 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
US9213756B2 (en) * 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
US9158833B2 (en) * 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US8521744B2 (en) * 2009-11-13 2013-08-27 Electronics And Telecommunications Research Institute Apparatus and method for authoring data in communication system
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US9152702B2 (en) * 2010-04-09 2015-10-06 Yahoo! Inc. System and method for selecting search results facets
JP2012027723A (ja) 2010-07-23 2012-02-09 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
US8340425B2 (en) * 2010-08-10 2012-12-25 Xerox Corporation Optical character recognition with two-pass zoning
CA2810041C (en) 2010-09-03 2015-12-08 Iparadigms, Llc Systems and methods for document analysis
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
US20120078926A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Efficient passage retrieval using document metadata
WO2012040356A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
JP5816936B2 (ja) 2010-09-24 2015-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム
US20120078062A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
WO2012047530A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
WO2012047541A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
EP2622428A4 (en) 2010-09-28 2017-01-04 International Business Machines Corporation Providing answers to questions using hypothesis pruning
KR20140032341A (ko) 2010-10-12 2014-03-14 웨스페케 아이앤시. 언어 학습 교류
US8732660B2 (en) * 2011-02-02 2014-05-20 Novell, Inc. User input auto-completion
US8266245B1 (en) * 2011-10-17 2012-09-11 Google Inc. Systems and methods for incremental loading of collaboratively generated presentations
US10430388B1 (en) 2011-10-17 2019-10-01 Google Llc Systems and methods for incremental loading of collaboratively generated presentations
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
RU2479017C1 (ru) * 2011-12-27 2013-04-10 Закрытое акционерное общество "Фирма "АйТи". Информационные технологии" Система аналитического выявления проблемных вопросов в нормах правового регулирования
US10331785B2 (en) * 2012-02-17 2019-06-25 Tivo Solutions Inc. Identifying multimedia asset similarity using blended semantic and latent feature analysis
US9785883B2 (en) 2012-04-27 2017-10-10 Excalibur Ip, Llc Avatars for use with personalized generalized content recommendations
US8996530B2 (en) * 2012-04-27 2015-03-31 Yahoo! Inc. User modeling for personalized generalized content recommendations
US9836545B2 (en) 2012-04-27 2017-12-05 Yahoo Holdings, Inc. Systems and methods for personalized generalized content recommendations
EP2875468A1 (en) 2012-07-20 2015-05-27 Microsoft Technology Licensing, LLC Color coding of layout structure elements in a flow format document
US9245428B2 (en) 2012-08-02 2016-01-26 Immersion Corporation Systems and methods for haptic remote control gaming
US10621880B2 (en) 2012-09-11 2020-04-14 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9992243B2 (en) 2012-09-17 2018-06-05 International Business Machines Corporation Video conference application for detecting conference presenters by search parameters of facial or voice features, dynamically or manually configuring presentation templates based on the search parameters and altering the templates to a slideshow
US9665550B2 (en) * 2012-11-30 2017-05-30 Michael E. Lee Expert based integrated annotation software interface and database using e-book technology
JP6070936B2 (ja) * 2013-01-31 2017-02-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法及びプログラム
US9256341B2 (en) 2013-03-20 2016-02-09 Microsoft Technology Licensing, Llc Tracking changes in collaborative authoring environment
US9547417B2 (en) * 2013-03-29 2017-01-17 Deere & Company Retracting shortcut bars, status shortcuts and edit run page sets
US9727656B2 (en) * 2013-07-04 2017-08-08 Excalibur Ip, Llc Interactive sitemap with user footprints
US10776375B2 (en) 2013-07-15 2020-09-15 Microsoft Technology Licensing, Llc Retrieval of attribute values based upon identified entities
JP6326786B2 (ja) * 2013-11-29 2018-05-23 ブラザー工業株式会社 プログラム、情報処理装置、および通信システム
US10824787B2 (en) 2013-12-21 2020-11-03 Microsoft Technology Licensing, Llc Authoring through crowdsourcing based suggestions
US11514399B2 (en) 2013-12-21 2022-11-29 Microsoft Technology Licensing, Llc Authoring through suggestion
US20150347357A1 (en) * 2014-05-30 2015-12-03 Rovi Guides, Inc. Systems and methods for automatic text recognition and linking
US11120210B2 (en) * 2014-07-18 2021-09-14 Microsoft Technology Licensing, Llc Entity recognition for enhanced document productivity
US9928410B2 (en) * 2014-11-24 2018-03-27 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognizer
JP6002256B2 (ja) * 2015-02-02 2016-10-05 富士通株式会社 アノテーション制御方法、アノテーション制御プログラム及びアノテーション制御システム
US9785620B2 (en) * 2015-02-05 2017-10-10 Salesforce.Com, Inc. Creating linked communications
US10013433B2 (en) * 2015-02-24 2018-07-03 Canon Kabushiki Kaisha Virtual file system
US11916916B2 (en) 2015-06-04 2024-02-27 Wymsical, Inc. System and method for authenticating, storing, retrieving, and verifying documents
US10341353B1 (en) * 2015-06-04 2019-07-02 Wymsical, Inc. System and method for issuing, authenticating, storing, retrieving, and verifying documents
US10564794B2 (en) 2015-09-15 2020-02-18 Xerox Corporation Method and system for document management considering location, time and social context
US9817814B2 (en) * 2015-12-31 2017-11-14 Accenture Global Solutions Limited Input entity identification from natural language text information
US10467318B2 (en) * 2016-02-25 2019-11-05 Futurewei Technologies, Inc. Dynamic information retrieval and publishing
US10404549B2 (en) 2016-07-28 2019-09-03 At&T Intellectual Property I, L.P. Applying machine learning to heterogeneous data of existing services to generate a new service
US10572595B2 (en) * 2017-04-13 2020-02-25 Baidu Usa Llc Global normalized reader systems and methods
KR102004978B1 (ko) * 2018-03-14 2019-07-30 주식회사 한글과컴퓨터 튜토리얼 기능이 구비된 전자 문서 편집 장치 및 이의 동작 방법
CN109002483A (zh) * 2018-06-22 2018-12-14 平安科技(深圳)有限公司 文档管理方法、装置、计算机设备及存储介质
EP3598377A1 (en) * 2018-07-20 2020-01-22 KBC Groep NV Improved claim handling
US11972490B2 (en) 2018-07-20 2024-04-30 Kbc Groep Nv Determining a category of a request by word vector representation of a natural language text string with a similarity value
US10929453B2 (en) * 2018-08-09 2021-02-23 Nec Corporation Verifying textual claims with a document corpus
CN109522411B (zh) * 2018-11-12 2022-10-28 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
JP2021022123A (ja) * 2019-07-26 2021-02-18 キヤノン株式会社 ディスプレイを搭載した電子機器、その制御方法、情報処理システム及びプログラム
US11783224B2 (en) 2019-12-06 2023-10-10 International Business Machines Corporation Trait-modeled chatbots
CN111125566B (zh) * 2019-12-11 2021-08-31 贝壳找房(北京)科技有限公司 信息获取方法和装置、电子设备和存储介质
US11822622B2 (en) * 2020-05-08 2023-11-21 Docusign, Inc. Machine learned feature recommendation engine in a digital transaction management platform
US11947571B2 (en) * 2021-04-20 2024-04-02 Microsoft Technology Licensing, Llc Efficient tagging of content items using multi-granular embeddings

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940614A (en) 1991-04-18 1999-08-17 International Business Machines Corporation Hypertext control method and apparatus for displaying help information in an interactive data processing system
US5367621A (en) 1991-09-06 1994-11-22 International Business Machines Corporation Data processing method to provide a generalized link from a reference point in an on-line book to an arbitrary multimedia object which can be dynamically updated
US5359514A (en) 1993-08-03 1994-10-25 International Business Machines Corporation Method and apparatus for facilitating comprehension of on-line documents
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
US5963205A (en) * 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
US5930787A (en) 1995-09-27 1999-07-27 Sharp Kabushiki Kaisha Method for retrieving related word information, information processing apparatus, method for controlling related information display, and related information display apparatus
MY119393A (en) 1996-08-14 2005-05-31 Nippon Telegraph & Telephone Method and system for preparing and registering homepages, interactive input apparatus for multimedia information, and recording medium including interactive input programs of the multimedia information
US6189019B1 (en) * 1996-08-14 2001-02-13 Microsoft Corporation Computer system and computer-implemented process for presenting document connectivity
US6029182A (en) * 1996-10-04 2000-02-22 Canon Information Systems, Inc. System for generating a custom formatted hypertext document by using a personal profile to retrieve hierarchical documents
US5999929A (en) * 1997-09-29 1999-12-07 Continuum Software, Inc World wide web link referral system and method for generating and providing related links for links identified in web pages
US6092074A (en) 1998-02-10 2000-07-18 Connect Innovations, Inc. Dynamic insertion and updating of hypertext links for internet servers
US6178430B1 (en) * 1998-05-11 2001-01-23 Mci Communication Corporation Automated information technology standards management system
US6324551B1 (en) 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
US6493702B1 (en) 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
EP1087306A3 (en) 1999-09-24 2004-11-10 Xerox Corporation Meta-documents and method of managing them
WO2001031479A1 (en) 1999-10-27 2001-05-03 Zapper Technologies Inc. Context-driven information retrieval
US7757168B1 (en) 2000-04-07 2010-07-13 Xerox Corporation Meta-document and method of managing
US20010047365A1 (en) * 2000-04-19 2001-11-29 Hiawatha Island Software Co, Inc. System and method of packaging and unpackaging files into a markup language record for network search and archive services

Also Published As

Publication number Publication date
US20030033287A1 (en) 2003-02-13
JP2003114906A (ja) 2003-04-18
JP4365074B2 (ja) 2009-11-18
US6732090B2 (en) 2004-05-04
BR0203479A (pt) 2003-05-13
EP1284461A1 (en) 2003-02-19

Similar Documents

Publication Publication Date Title
BRPI0203479B1 (pt) Sistema para enriquecer conteúdo de documento
Attardi et al. Automatic Web page categorization by link and context analysis
US6778979B2 (en) System for automatically generating queries
Collins-Thompson et al. Personalizing web search results by reading level
Kowalski Information retrieval architecture and algorithms
US7882097B1 (en) Search tools and techniques
US6820075B2 (en) Document-centric system with auto-completion
Steichen et al. A comparative survey of personalised information retrieval and adaptive hypermedia techniques
US7117432B1 (en) Meta-document management system with transit triggered enrichment
US7133862B2 (en) System with user directed enrichment and import/export control
US7769757B2 (en) System for automatically generating queries
US20060106793A1 (en) Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20060047649A1 (en) Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20050022114A1 (en) Meta-document management system with personality identifiers
US20030061201A1 (en) System for propagating enrichment between documents
Lingras et al. Building an intelligent Web: Theory and practice
Schoefegger et al. A survey on socio-semantic information retrieval
Kruschwitz Intelligent document retrieval: exploiting markup structure
Mamoon et al. Interactive visualization of retrieved information
Al-Saffar et al. Computing information value from rdf graph properties
Heenan Manual and Technology-Based Approaches to Using Classification for the Facilitation of Access to Unstructured Text
Mamoon et al. Visualization of retrieved information: a survey
Alcic Web image context extraction: methods and evaluation
Gilchrist Text retrieval: an overview
Tikk et al. Topic and language specific internet search engine

Legal Events

Date Code Title Description
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 09/06/2015, OBSERVADAS AS CONDICOES LEGAIS.

B25A Requested transfer of rights approved
B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 22A ANUIDADE.