BRPI0203479B1 - Sistema para enriquecer conteúdo de documento - Google Patents
Sistema para enriquecer conteúdo de documento Download PDFInfo
- Publication number
- BRPI0203479B1 BRPI0203479B1 BRPI0203479-4A BR0203479A BRPI0203479B1 BR PI0203479 B1 BRPI0203479 B1 BR PI0203479B1 BR 0203479 A BR0203479 A BR 0203479A BR PI0203479 B1 BRPI0203479 B1 BR PI0203479B1
- Authority
- BR
- Brazil
- Prior art keywords
- document
- personality
- service
- content
- user
- Prior art date
Links
- 238000004891 communication Methods 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 68
- 230000008569 process Effects 0.000 description 34
- 230000014509 gene expression Effects 0.000 description 12
- 238000007726 management method Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 210000000056 organ Anatomy 0.000 description 6
- 238000011524 similarity measure Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 210000004185 liver Anatomy 0.000 description 5
- 238000001356 surgical procedure Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000014616 translation Effects 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 210000003734 kidney Anatomy 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000013059 nephrectomy Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000002425 crystallisation Methods 0.000 description 1
- 230000008025 crystallization Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 235000020004 porter Nutrition 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
Relatório Descritivo da Patente de Invenção para "SISTEMA PARA ENRIQUECER CONTEÚDO DE DOCUMENTO".
Antecedentes da Invenção A invenção refere-se, de maneira geral, ao gerenciamento e ao uso de documentos, e, em particular ao gerenciamento e ao uso aperfeiçoados de documentos que podem atuar como agentes, gerando solicitações para informação, procurando, recuperando e empacotando então respostas para enriquecer os documentos, enquanto facilitam a compreensão de leitura, as relações de entendimento com outros documentos, e a criação de conteúdo. Em particular, esta invenção refere-se a um servidor de metado-cumento com personalidades definíveis pelo usuário. O gerenciamento do conhecimento através do gerenciamento de documentos forma uma parte importante do ciclo de vida de criação e compartilhamento de conhecimento. Um modelo típico de criação e compartilhamento de conhecimento é cíclico, consistindo em três etapas principais: da sintetização (pesquisa, agrupamento, aquisição e assimilação), do compartilhamento (apresentação, publicação/distribuição), e de serviços (facilitar o uso de documentos para a formação de decisão, criatividade inovativa). A maioria dos sistemas considera os documentos como objetos estáticos que apenas adquirem novo conteúdo, quando influenciados por um usuário autorizado. A decisão de um usuário ler e modificar um documento ou executar um programa no mesmo que pode mudar seus conteúdos (por exemplo, com a adição de hiperligações), é necessária para que o documento adquira nova informação. Esta vista do documento como um repositório passivo leva à situação comum na qual documentos permanecem estáticos, a menos que um usuário esteja defronte a uma tela pilotando o sistema. Não obstante estes processos existentes para estaticamente e ativamente enriquecer o conteúdo de documentos, continua a existir a necessidade de se prover uma arquitetura aperfeiçoada de enriquecimento de documento que permite o uso ubíquo de serviços de enriquecimento de documento. Tal arquitetura aperfeiçoada de enriquecimento de documento vantajosamente proveria processos para facilitar o uso de tais serviços com a conexão, o monitoramento e a sugestão automáticos de tais serviços para usuários.
Sumário da Invenção De acordo com a invenção, é provido um sistema, e um processo para o mesmo, para enriquecer conteúdo de documentos. O sistema inclui uma interface de usuário para especificar uma personalidade que define um conjunto de solicitações de serviço de documento que identificam os temas de enriquecimento. Um usuário-gerenciador recebe o conteúdo de documentos e a personalidade especificada na interface do usuário. O usuário-gerenciador forma um metadocumento com o conteúdo de documento e a personalidade. Um escalonamento seleciona uma solicitação de serviço de documento a partir do conjunto para iniciar e gerenciar a comunicação com um provedor de serviço para satisfazer o serviço de documento selecionado. Um gerenciador de conteúdo integra os resultados originários do serviço de documento selecionado no metadocumento como marca de documento. A interface do usuário, o usuário-gerenciador, o escalonamento, e o gerenciador de conteúdo operam juntos para gerar ou recomendar novas personalidades ou modificar as personalidades existentes com o uso de uma ou mais na combinação de um conjunto de computações algébricas, um conjunto de referências de documento, um conjunto de personalidades predefinidas, um conjunto de personalidades de aprendizado, um nível de conhecimento, e uma classificação de personalidades.
Breve Descrição dos Desenhos Estes e outros aspectos da invenção se tornarão evidentes a partir da seguinte descrição lida em conjunção com os desenhos anexos, nos quais numerais de referência semelhantes foram aplicados a partes semelhantes e nos quais: A Figura 1 é uma vista esquemática de um metadocumento, de acordo com uma concretização da invenção. A Figura 2 ilustra um diagrama de bloco de um sistema que incorpora um servidor de metadocumento. A Figura 3 é uma vista esquemática de enriquecimento de meta-documento, de acordo com uma concretização da invenção. A Figura 4 ilustra um exemplo de enriquecimento de metadocu-mento, conforme ilustrado na Figura 3. A Figura 5 ilustra uma interface de cliente para acessar o servidor de metadocumento mostrado na Figura 2. A Figura 6 ilustra uma ampliação da janela 1014 mostrada na Figura 5 para uma personalidade de arquitetura na qual são selecionadas personalidades de casas de fardos de feno e casas de pneumáticos. A Figura 7 ilustra um exemplo de uma janela de propriedades 1210 que é exibida quando o botão de configuração de propriedades 1022 é selecionado na Figura 5. A Figura 8 ilustra uma concretização de uma interface de cliente para criar e/ou modificar personalidades. A Figura 9 ilustra uma janela de cliente para especificar propriedades de pesquisas executadas no serviço de recuperação de informação definido na Figura 8. A Figura 10 ilustra outra concretização de uma interface de cliente para criar e/ou modificar personalidades. A Figura 11 ilustra uma interface de cliente para criar e/ou modificar personalidades através da execução de operações para grupos de personalidades. A Figura 12 é um diagrama de fluxo que ilustra etapas para gerar uma personalidade. A Figura 13 ilustra um exemplo de um documento expandido 1800, desenvolvido com o abaixamento de dois níveis. A Figura 14 ilustra um formulário que pode ser usado para criar serviços. A Figura 15 ilustra quatro serviços que podem ser gerados com o uso do formulário mostrado na Figura 14. A Figura 16 é um diagrama de fluxo que descreve um processo para filtrar serviços no procedimento 1716, na Figura 12. A Figura 17 ilustra uma representação gráfica de um processo de seleção para selecionar serviços com a mais alta medida de similaridade. A Figura 18 é um diagrama de fluxo que descreve outro processo para filtrar serviços no procedimento 1716, na Figura 12. A Figura 19 é um digrama de fluxo que descreve uma concretização para identificar uma resposta de uma pergunta exemplificativa. A Figura 20 ilustra uma lista de exemplos de serviços disponíveis, quando uma personalidade de aprendizado de linguagem é selecionada para enriquecer conteúdo de documento. A Figura 21 ilustra uma lista de exemplo de serviços disponíveis, quando uma personalidade de aprendizado de linguagem é selecionada para enriquecer conteúdo de documento. A Figura 22 ilustra uma interface de cliente para seletivamente especificar personalidade e/ou comportamentos de serviço para entidades reconhecidas no conteúdo especificado ou documentos. A Figura 23 ilustra um categorizador de texto. A Figura 24 ilustra um recomendador de personalidade.
Descrição Detalhada A. Definição dos Termos Os termos definidos abaixo apresentam significados indicados por todo este pedido, incluindo as reivindicações: "Anotar" é usado aqui para indicar a criação de uma referência entre uma entidade em um documento, ou região de um documento, e algum conjunto de links, segmento de texto, imagens, ou dados embutidos (por exemplo, glifos). "Recuperação de Conteúdo" é usado aqui para indicar uma anotação que consiste em conteúdo obtido com o seguimento de uma série de um ou mais links e com a recuperação de seu conteúdo, cujo conteúdo pode ser filtrado ou reformatado depois da recuperação.
Um "documento" é usado aqui para indicar um registro de informação eletrônico (por exemplo, digital) ou físico (por exemplo, papel). Em sua forma eletrônica, um documento pode incluir dados de imagem, dados de áudio, ou dados de vídeo: Os dados de imagem podem incluir texto, gráficos ou mapas de bits. "Marca" de documento é usado aqui para indicar a anotação aplicada a um documento.
Uma "alma de documento" é usada aqui para indicar uma personalidade que permanece conectada a um documento por um período prolongado de tempo que pode ser indefinido ou pré-especificado de duração finita. "Enriquecer" é usado aqui para indicar uma anotação de um documento de acordo com uma personalidade predefinida. "Entidade" é usado aqui para indicar algo reconhecido em um documento (por exemplo, o nome de uma pessoa, uma localização, um termo médico, uma entidade de gráficos que pode incluir dados de imagem, dados gráficos, dados de áudio ou dados de vídeo) que pode se apresentar na forma de uma imagem, texto, dados embutidos, HTML, etc. "Espaço de informação" é usado aqui para indicar todo o conjunto de anotações associadas com uma entidade, um segmento de documento, um documento, ou um conjunto de documentos.
Um "Léxico" é usado aqui para indicar uma estrutura de dados, programa, objeto ou dispositivo que indica um conjunto de palavras que podem ocorrer em um conjunto de linguagem natural. Um léxico pode ser considerado como "aceitando" uma palavra que ele indica, e essas palavras podem assim ser denominadas de "aceitáveis" ou podem ser mencionadas como "constantes" do léxico ou "que ocorrem" no léxico.
Uma "ligação" é usada aqui para indicar, por meio de exemplo, um URL (Localizador de Recursos Uniformes) associado com um segmento de texto ou um segmento de imagem.
Uma "personalidade" é usada aqui para indicar um conjunto temático de serviços que pode ser aplicado para enriquecer um documento.
Um "serviço" é usado aqui para indicar um programa que apresenta uma nova marca com base no conteúdo e nos metadados em um documento em seu estado comum. Por exemplo, o programa pode identificar entidades em um documento* e anotar cada entidade com dados associados a essa entidade (por exemplo, em um banco de dados). Por exemplo, um serviço pode enriquecer um documento com informação externa e/ou acrescentar novos serviços.
Um "segmento de texto" é usado aqui para indicar uma seqüên-cia contínua de bytes em um documento, ou um grupo de tais segmentos. B. Características Gerais Um diagrama de bloco de um metadocumento ou "alma de documento" 100 é mostrado na Figura 1. O metadocumento 100 inclui um identificador 101, uma porção de conteúdo 102, que é um documento criado por um usuário ou obtido por um usuário, e uma personalidade 104. A personalidade 104 é um conjunto de uma ou mais solicitações de serviço de documento 106 e um banco de dados de entidade 111.0 banco de dados da entidade pode incluir um ou mais bancos de dados de entidade separados, onde cada banco de dados de entidade identifica uma classe de entidades (por exemplo, nomes de pessoas, nomes de cidade, nomes de estabelecimentos comerciais, etc.). Em uma concretização, a personalidade 104 não inclui o banco de dados de entidade 111, mas, ao invés disso, inclui solicitações de serviço de documento que identificam entidades. Em outra concretização, o banco de dados de entidade 111 registra entidades centrais de documento (isto é, entidades que se referem exclusivamente ao conteúdo de documento 102) que são especificadas por um usuário ou pelo sistema. Será apreciado por aqueles versados na técnica que as solicitações de serviço de documento 106 e o(s) banco(s) de dados de entidade 111 que faz(em) parte do metadocumento 100 podem incluir o conteúdo de uma solicitação de serviço de documento e um banco de dados de entidade e/ou podem incluir referências a uma solicitação de serviço de documento e um banco de dados de entidade (por exemplo, no banco de dados de serviços 210). O identificador 101 pode incluir outros dados administrativos, tais como criador, proprietário, tamanho, permissões de acesso, etc. B.1 O Ciclo de Gerenciamento de Conhecimento A Figura 2 ilustra um sistema de gerenciamento de metadocu- mento 201, dentro do qual é produzido o metadocumento 100 como resultado de um processo de cristalização de conhecimento, onde o processo pode durar por toda a existência do documento. Tipicamente, a vida de um metadocumento começa com um foco e uma finalidade que ajudam a direcionar e a aprimorar a fase de síntese. Durante a fase de síntese, o metadocumento 100 prevê as necessidades de informação do escritor ou do leitor, seja independentemente através de um conjunto predefinido de solicitações de serviço de documento, seja seguindo as instruções específicas ou customizadas, e executa as tarefas, às vezes, monótonas de pesquisar, agrupar, assimilar, e organizar a informação relevante ao conteúdo do documento.
As ações da fase de síntese ocorrem através da ativação de uma ou mais solicitações de serviço de documento 106. As solicitações de serviço de documento 106 podem ser ativadas, enquanto o usuário está criando ou trabalhando no metadocumento 100, ou quando o usuário pôs de lado o metadocumento 100, de modo que as solicitações de serviço possam se beneficiar do tempo ocioso do computador, da largura de faixa de rede desocupada, etc. A ativação de uma solicitação de serviço de documento 106, enquanto o usuário trabalha no documento, tem a vantagem adicional de permitir que o metadocumento seja instruído a cerca das preferências do usuário. As solicitações de serviço de documento 106 podem ser ativadas automaticamente por um escalonamento 204 ou manualmente por um usuário. A próxima fase no ciclo de gerenciamento de conhecimento refere-se ao compartilhamento da informação produzida durante a fase de sintetização. Tipicamente, a fase de compartilhamento consiste na integração da informação agrupada durante a fase de sintetização nos conteúdos do metadocumento 100 em um formato útil para o usuário, pessoa, ou comunidade que venha a usar o documento. O conteúdo do documento pode ser adicionalmente intensificado pelo usuário com a atribuição de uma personalidade ao documento que marca o documento com informação que facilita o entendimento do conteúdo ou que regularmente fornece mais atualizações recentes relacionadas ao conteúdo. A etapa de serviços final no ciclo trata de atualizações periódicas, por meio das quais o metadocumento executa as solicitações de serviço predefinidas em nome do usuário. Por exemplo, o metadocumento pode manter atualizada a informação da temperatura de uma cidade identificada. B.2 Serviços Com referência, novamente, à Figura 2, um ou mais metadocu-mentos 100 são armazenados em um servidor de metadocumento 200 no banco de dados de metadocumento 202. Em uma concretização alternativa, as referências do documento (por exemplo, os URLs) são armazenadas em um banco de dados de metadocumento 202 e seu conteúdo mencionado no servidor de arquivo da rede 220. Cada metadocumento 100 no servidor de metadocumento 200 é dotado de um conjunto de solicitações de serviço de documento cujo cada metadocumento 100 é exercitado sob o controle de um escalonamento ou daemon de escalonamento 204, que desperta cada metadocumento no banco de dados 202 de acordo com algum horário predeterminado. O escalonamento 204 pode ser implementado em um mecanismo de software que acessa as solicitações de serviço de documento 106, banco de dados de entidade 111, e conteúdo em um metadocumento 100.
Conforme ilustrado na Figura 3, depois que o escalonamento 204 desperta o metadocumento 100, o metadocumento 100 informa o escalonamento 204 de seu conjunto atual de solicitações de serviço de documento 301. Dependendo dos recursos (por exemplo, provedores de serviço que podem cumprir ou satisfazer uma solicitação de serviço de documento específica) disponíveis ao servidor de metadocumento 200, o escalonamento 204 escolhe uma solicitação de serviço de documento 106 para cumprir (indicado pela seta 300). Subseqüentemente, o escalonamento 204 chama provedores de serviço 206 identificados com o uso de banco de dados de serviços 210 para satisfazer essas solicitações. O banco de dados de serviços 210 inclui "processos de provedor de serviço" para consulta e provedores de serviço de seleção (incluindo dados de autenticação associados com cada serviço), "processos de entidade" para identificar entidades no conteúdo do documento que usa todo o banco de dados 111 ou bancos de dados de entidade no banco de dados de serviços 210 ou disponíveis como um serviço de rede 206, "processos de notificação" para notificar um usuário de novo enriquecimento, expressões regulares, léxicos, e um categorizador. Em outras concretizações, o banco de dados de serviços 210 também inclui processos de gerenciamento de direitos de conteúdo. O cumprimento de uma solicitação de serviço de documento indica o acesso a um provedor de serviço a partir do banco de dados de serviços 210 (por exemplo, selecionando um provedor de serviço a partir de uma lista de possíveis provedores de serviço) que inclui alguns processos (ou programas) que são chamados pelo escalonamento para acessar o conteúdo de documento 102 (indicado pela seta 302) e a marca de documento 108 (indicada pela seta 304). Os resultados recebidos dos provedores de serviço 206 são integrados novamente no metadocumento original 100 pelo gerenciador de conteúdo 208. Isto é, estes processos terminam com a produção de marca específica de documento 108 (indicada pela seta 306) e/ou novas solicitações de serviço de documento 106 (indicadas pela seta 308), ambas as quais sendo acrescentadas ao metadocumento 100 pelo gerenciador de conteúdo 208. B.3 Personalidades O servidor de metadocumento 200 apresenta uma solução ao longo para a criação e o compartilhamento de conhecimento com base no documento em uma maneira customizável. A customização é provida pelo mecanismo de personalidades dentro de um servidor de metadocumento. As personalidades são atribuídas a um documento, auxiliando assim um usuário na aquisição, compartilhamento e utilização de conhecimento; isto cria uma visão documental do mundo em oposição a uma visão global como nos portais atuais do Web. Uma ou mais personalidades podem ser conectadas a um documento. Cada personalidade tematicamente e/ou contextualmente codifica uma coleção de solicitações de serviço de documento 106 que permitirá que o documento atue de maneira autônoma em nome do criador ou leitor, prevendo as necessidades de informação tanto do escritor como do leitor de documentos, mantendo o documento conectado e atualizado com o resto do mundo da informação.
Um metadocumento 100, por exemplo, pode receber uma personalidade 104 que é: (a) inquisitiva: um conjunto de solicitações de serviço de documento para descobrir mais informação a cerca dos conceitos presentes no conteúdo de documento, encontrar biografias de pessoas mencionadas no conteúdo, (b) poliglota: procura saber as traduções das palavras, termos e locuções contidos no documento, (c) privada: marcada para manter os metadados do documento invisíveis a outros documentos, (d) científica: procura por versões online dos documentos citados no conteúdo de documento, ou (e) genealógica: procura por documentos que contenham conteúdos similares como si própria. B.4 Processos para Identificar e Usar Entidades Conforme mostrado na Figura 3, uma personalidade 104 identifica uma ou mais solicitações de serviço 106. Cada solicitação de serviço inclui processos para: (a) reconhecer entidades no conteúdo do documento 102; e (b) acessar um serviço que usa as entidades reconhecidas.
As entidades incluem nomes próprios (por exemplo, pessoas, lugares, organizações, etc.), tempos, localizações, quantidades, citações (por exemplo, títulos de livro), endereços, etc. As entidades podem ser reconhecidas com o uso de uma variedade de técnicas conhecidas que podem incluir qualquer expressão ou uma combinação de expressões regulares, léxicos, palavras-chaves, e regras. Um léxico é tipicamente um banco de dados de tuplas da forma <entity-string, part-of-speeche-tag, entity-type> onde: uma entity-string é a cadeia de caracteres que forma a entidade (por exemplo, o nome "John Smith" de uma pessoa); uma part-of-speech-tag, que é opcional, indica o uso gramatical da entidade (por exemplo, como um substantivo, uma locução nominal, um verbo, etc); e entity-type indica se a entidade pertence a uma ou mais classes predefinidas (isto é, categorias) de entidades (por exemplo, pessoa, organização, nome da companhia, etc.). Uma cadeia de texto contínua será reconhecida como uma entidade, se a cadeia for aceita como pertencendo ao léxico.
As entidades podem ser reconhecidas pela associação de cadeia ou com o uso de expressões regulares. Por exemplo, o nome de uma pessoa poderia ser reconhecido como duas palavras escritas com letras maiusculas. Expressões regulares podem ser expressas em termos do conteúdo de documento textual atual (isto é, palavras) ou em termos da marca lingüística associada com o conteúdo textual. Esta marca linguística poderia incluir parte de identificadores de fala (tais como locuções nominais, substantivos, etc.) ou identificadores de análise gramatical superficiais.
Como um meio alternativo de reconhecer entidades, podem ser usadas algumas regras. Por exemplo, a regra, a seguir, poderia ser usada para reconhecer nomes próprios: se a "palavra" fosse escrita com letras maiúsculas, e não constasse do léxico (ou dicionário, ou tesauro), então a palavra seria um nome próprio. A Figura 4 ilustra um exemplo no qual um metadocumento 100 é enriquecido com o uso de uma personalidade 104 especificada no mesmo. Em algum tempo predeterminado ou em intervalos de tempo pré-especificados, o escalonamento 204 desperta e identifica solicitações de serviço de documento 410. O escalonamento chama então os processos da solicitação de serviço de documento referenciada em 412 no banco de dados de serviço 210. Os processos de uma solicitação de serviço de documento referida no banco de dados de serviço 210 podem incluir expressões regulares, léxicos, seleção de provedor de serviço, dados de autenticação associados com cada serviço, e gerenciamento de direitos de conteúdo. Na execução do processo identificado pela referência 412, é identificado um serviço originário dos serviços de rede 206 que reconhece as entidades originárias do tipo de entidade "Nome da Companhia" também armazenado no banco de dados de serviço 210.
Uma vez que o serviço identificado é executado pelo escalonamento 204, ele fornece seus resultados ao gerenciador de conteúdo 208 que subseqüentemente executa uma ou mais das seguintes tarefas: (a) marca a solicitação de serviço de documento 410 à medida que completada em 414; (b) marca a solicitação de serviço de documento 416 como não mais espe- rando pela entrada, mas espetendo para ser executada; e (c) insere entidades originárias do tipo de entidade Nome da Companhia e que aparecem no conteúdo de documento 102, bem como sua(s) localização(ções) no conteúdo de documento 102 em 418.
Quando o escalonamento subseqüentemente identifica a solicitação de serviço de documento 416, o escalonamento irá similarmente identificar um processo 420 originário do banco de dados de serviço 210 que irá usar o serviço de cotação de ações para verificar as entidades de Nome da Companhia identificadas em 418. Estes resultados de cotação de ações serão similarmente inseridos na marca de documento 108 e ligados diretamente às entidades 418 que, por sua vez, são ligados às localizações no conteúdo de documento. Alternativamente, ao invés de inserir os resultados da cotação de ações em 418, o serviço identificado pela solicitação 416 será inserido como marca de documento 108 a ser iniciada, quando o usuário acessar as entidades identificadas no conteúdo de documento 102. C. Criando e Modificando Personalidades Esta seção refere-se à formação e/ou customização de indivíduo ou grupos de personalidades. Será apreciado por aqueles versados na técnica que os diferentes processos descritos aqui para formar e/ou customizar personalidades podem ser usados por iniciativa própria ou em combinação. A Figura 5 ilustra uma interface de cliente 1010 para o acesso direto ao servidor de metadocumento 200 mostrado na Figura 2. Ta! interface de cliente pode operar em um computador de usuário 226 ou dispositivo de computação móvel 219. Em um formulário, a interface de cliente 1010 é chamada com a especificação de um endereço (por exemplo, o URL) do servidor de metadocumento 200 em qualquer Internet convencional ou navegador. Outras formas da interface podem ser acessadas, por exemplo, com o uso de um programa específico de aplicação.
Depois da entrada no sistema em uma tela de entrada (não-mostrada) através do gerenciador de usuário 214, um usuário tem a habilidade de especificar uma localização de um documento a ser atualizado e armazenado no banco de dados do metadocumento 202 em 1012. Depois que a referência de documento especificada em 1012 é atualizada e armazenada no banco de dados de documento 202, uma personalidade 1016 é selecionada a partir da janela de personalidades 1014.
Uma vez que a personalidade 1016 é selecionada, o servidor de metadocumento pode imediatamente e/ou em um ponto posterior no tempo, dependendo dos serviços de documento especificados na personalidade, enriquecer o conteúdo de documento atualizado, conforme descrito aqui. No caso do conteúdo de documento ser imediatamente anotado com os serviços de documento explicados na personalidade selecionada, os resultados serão exibidos na janela 1018 e os resultados de serviço globais na janela 1020.
As personalidades na janela 1014 podem ser dispostas em uma variedade de visualizações que podem especificar personalidades privadas, compartilhadas ou públicas. Estas personalidades são registradas no banco de dados de personalidade 212 mostrado na Figura 2. As personalidades compartilhadas podem receber permissões de acesso diferentes (por exemplo, alguns usuários podem ser capazes de ler ou modificar uma personalidade, enquanto outros podem apenas ser capazes de ler uma personalidade).
Além disso, a janela 1014 permite que uma ou mais personalidades sejam selecionadas e simultaneamente aplicadas para enriquecer um documento enviado. Em uma concretização, isto é conseguido com a seleção de uma única personalidade ou uma pasta de personalidades, conforme mostrado na Figura 5 na personalidade de analista 1016. Alternativamente, personalidades específicas podem ser selecionadas para serem aplicadas ao conteúdo de documento enviado. A Figura 6 ilustra uma ampliação da janela 1014 mostrada na Figura 5 para a personalidade de arquitetura na qual personalidades de casas de fardos de feno e casas de pneumáticos são selecionadas em 1102 e 1104, respectivamente. O botão de chamada 1022 na interface 1010 cria uma janela de propriedades para um usuário. A Figura 7 ilustra um exemplo de uma janela de propriedades 1210 que será exibida, quando o botão de configuração de propriedades 1022 for selecionado na Figura 5. Na janela 1210, um usuário é capaz de especificar uma personalidade padrão em 1212 ou para ter uma personalidade recomendada, quando um documento for enviado para servidor de metadocumento 200, em 1214. Uma personalidade padrão em 1212, disponível a um usuário, é "nenhuma", a qual, caso selecionada, exigirá que um usuário especifique uma personalidade manualmente a partir da janela 1014 depois do envio de um documento. Além disso, a janela de propriedades 1210 permite que um usuário crie e/ou modifique personalidades específicas através da seleção do botão 1216, os detalhes do qual serão discutidos abaixo. C.1 Generalidades Em uma concretização para criar e/ou modificar personalidades, uma janela 1310, mostrada na Figura 8, é revelada com duas subjanelas 1312 e 1314 depois da seleção do botão 1216 mostrado na Figura 7. A primeira subjanela 1312 apresenta uma lista de todas as personalidades disponíveis, enquanto que a segunda subjanela 1314 apresenta uma lista de categorias de serviços disponíveis para uma personalidade selecionada a partir da subjanela 1312. No exemplo mostrado na Figura 8, a personalidade de "empresa de vigilância" é selecionada em 1316. Cada categoria de serviços mostrada na subjanela 1314 é selecionável para permitir que um usuário especifique um ou mais serviços de documento específicos (por exemplo, o serviço de recuperação de informação 1318). A Figura 9 ilustra uma janela 1400 com o serviço de recuperação de informação 1318 no qual as pesquisas podem ser selecionadas para categorias específicas. No exemplo mostrado na Figura 9, as categorias de computação e pessoas são selecionadas em 1404 e 1408, respectivamente. Na operação durante o enriquecimento, são chamados apenas aqueles serviços que são selecionados. Além disso, as pesquisas executadas pelos serviços serão limitadas às categorias especificadas. Isto é, as pesquisas executadas por um serviço selecionado podem ser limitadas a uma categoria específica no diretório do provedor de informação (por exemplo, Googgle®) do conteúdo de informação. Por exemplo, o serviço 1408 é limitado à cate- goria "pessoas" do conteúdo da informação do provedor de informação "Go-ogle".
Além disso, a Figura 9 ilustra que os serviços selecionados podem ser atualizados ou renovados em 1450 em uma base periódica, tal como em uma base diária, semanal, mensal ou automática em 1452-1455, respectivamente. O período de atualização automática em 1455 é determinado, por exemplo, com o uso: (a) do histórico ou registro de acesso de um navegador (por exemplo, quão recentemente o endereço dos serviços foi acessado por um usuário); e/ou (b) do monitoramento dos resultados recebidos a partir do serviço sobre um período de tempo; se eles mudam em uma taxa freqüente, então o período de renovação deve ser ajustado para ser freqüente. Alternativamente, um serviço selecionado pode ser especificado para não ser jamais atualizado (isto é, para executar um único procedimento) ou até o final do período predeterminado (por exemplo, até 2003), conforme ilustrado em 1451 e 1456, respectivamente. Em outra concretização não-mostrada, o serviço selecionado pode ser especificado para ser atualizado até que uma finalidade específica expire (por exemplo, enquanto uma pessoa é um menor de idade). Em ainda uma concretização adicional não mostrada, o serviço selecionado pode ser especificado para ser atualizado até que ele não mais retorne os resultados relevantes. Também a Figura 9 ilustra que o custo pode ser definido para cada serviço em 1440 como isento, em 1442, ou para pagamento, em 1444, para o qual pode ser definido um montante máximo.
Em outra concretização para criar e/ou modificar personalidades, uma janela 1502 será revelada, conforme mostrado na Figura 10, quando o botão 1216 for selecionado na Figura 7. Nesta concretização, um usuário tem a habilidade de especificar um nome de uma personalidade em 1504 e criá-lo, seja (a) com a modificação das personalidades existentes em 1506, seja (b) com o uso de um conjunto selecionado de arquivos e/ou pasta com arquivos em 1508, ou (c) com o uso do conteúdo originário de um arquivo ou de um website selecionado em 1510. C. 2 Usando uma Álgebra Em uma concretização, as personalidades podem ser especificadas através da modificação em 1506, na Figura 10, por meio da configuração de personalidades existentes com o uso de uma álgebra. Uma personalidade específica pode ser configurada com o uso de uma álgebra que mescla, acrescenta, subtrai, compõe (isto é, personalidades que são compostas juntas com o uso de um operador de composição permitem que os resultados de uma personalidade sejam usados como entrada de outra personalidade), ou intersecta conjuntos de duas ou mais personalidades. Por exemplo, pode ser desejável eliminar quaisquer referências à ciência de computador em uma personalidade "vigilância de tecnologia" muito comum. A Figura 11 ilustra um exemplo de uma interface do usuário 1600 na qual personalidades são ou acrescentadas juntas ou subtraídas uma da outra, em 1602 e 1604, respectivamente, para formar uma nova personalidade ou uma personalidade modificada.
Em uma concretização, as personalidades são definidas com o uso de uma coleção de tuplas (isto é, conjunto de elementos ordenados) de serviços S e léxicos L [Si.Lj]. Uma primeira personalidade A e uma segunda personalidade B são mescladas através da formação da união de suas tuplas [S,A, Lja] e [Skb,Lmb], respectivamente. Se quaisquer dos serviços SA ou S«B em cada personalidade forem os mesmos, então o novo serviço consistirá de [S,A, Ln], onde I_n é a união de Uja e LMB. Além disso, uma primeira personalidade A pode ficar restrita com a remoção de uma personalidade existente B da mesma através da criação de uma nova personalidade com: (a) a remoção de quaisquer serviços que sejam os mesmos em ambas as personalidades A e B, e/ou (b) a subtração do léxico LB do léxico LA que corresponde a esse serviço. Alternativamente, as técnicas esboçadas na seção D. 3 abaixo podem ser aplicadas aos serviços em personalidades selecionadas para selecionar e/ou organizar os serviços da nova personalidade. C.3 Usando uma Lista de Links Em outra concretização, o servidor de metadocumento automaticamente gera, com a demanda, uma personalidade que usa um conjunto específico de documentos ou referências ao mesmo. Por exemplo, o conjunto de documentos poderia ser definido com o uso de todos os arquivos em uma pasta de um computador pessoal, onde o conjunto de arquivos poderia conter o conteúdo textual que é ligado a outro conteúdo ou que se refere a outro conteúdo (por exemplo, com o uso de hiperligações). Alternativamente, o conjunto de documentos poderia ser identificado com o uso de uma consulta predefinida, tal como uma consulta SQL. Em ainda outra concretização, o conjunto do documento pode compreender todos os documento no espaço de informação de meta documento.
Vantajosamente, as personalidades geradas são centrais do usuário, uma vez que elas são construídas na informação que é explicitamente selecionada por um usuário. Ém uma concretização, este serviço para automaticamente gerar personalidades é chamado na janela 1502, em 1508. Uma vez que um usuário especifica um conjunto de documentos, em 1509, e inicia uma solicitação para o serviço, em 1512, um processo explicado no diagrama de fluxo descrito na Figura 12 é executado pelo servidor de meta-documento para gerar uma personalidade. Será apreciado que, em uma concretização alternativa, o servidor de metadocumento usa este processo por iniciativa própria dada uma coleção de documentos identificador por uma pesquisa, por exemplo.
Inicialmente, em 1702, o processo de criação de personalidade recebe um conjunto específico de documentos e/ou pastas contendo um conjunto de documentos. Este conjunto de documentos é definido como um conjunto de documento de nível N=0. Em 1704, todos os links são extraídos do conjunto de documento de nível N. Em 1706, o conteúdo indicado pelos links extraídos é buscado e usado para definir um conjunto de documento de nível N+1. Em 1708, se os níveis adicionais tiverem que ser diminuídos, então a ação em 1704 será repetida; de outro modo, um documento expandido é definido com o uso de conjuntos de documento N definidos em 1702 e 1706.
Mais geralmente, a coleção de conjuntos de documentos N são mencionados como um documento expandido. O documento expandido, que pode ser visto como uma lista de documentos, consiste em documentos selecionados pelo usuário e os documentos ligados a esse documentos selecionados. A Figura 13 ilustra um exemplo de um documento expandido 1800, desenvolvido pelo abaixamento de dois níveis de um conjunto de documento de nível N=0 1801. Isto é, o documento expandido 1800 consiste no conjunto de documentos de nível N=0 1801, em um conjunto de documentos de nível N=1 1803, e em um conjunto de documentos de nível N=2 1805. Neste exemplo, o documento de nível N=0 consiste em um único documento com três links, que fazem referência aos documentos no conjunto de documento de nível N=1 1803.
Com referência às Figuras 12 e 13, um extrator de entidade 1802 constrói um banco de dados de entidade 1804 com o uso do documento expandido 1800 (que, em uma concretização, o extrator de entidade criou), em 1710. O extrator de entidade 1802 inclui regras genéricas para extrair tipos de entidade, tais como nomes de cidades, pessoas, produtos, datas, locuções nominais, etc. Estas regras genéricas não especificam entidades per se. Ao invés disso, eles especificam entidades genéricas que são capazes de detectar que um substantivo escrito em letras maiúsculas provavelmente seja o nome de uma pessoa ao invés de um nome de uma cidade, que pode ser executada com o uso do contexto que circunda o substantivo identificado.
Além disso, uma entidade que é extraída é indexada para indicar novamente a localização na qual ela foi mencionada. Além disso, o banco de dados de entidade inclui informação contextual relacionada ao uso da entidade.
Subseqüentemente, o banco de dados de entidade 1804 é usado por um gerador de serviço 1806 para gerar serviços de documento ou solicitações de serviço de documento 1808. A combinação do banco de dados de entidade 1804 e solicitações de serviço de documento 1808 é então usada para definir uma nova personalidade. Esta nova personalidade pode ser, em seguida, aplicada a um documento enviado para o servidor de me-tadocumento e enriquecido, conforme descrito acima.
Inicialmente, em 1714, o gerador de serviço 1806 identifica e extrai todas as formas questionáveis no documento expandido 1800. Formas questionáveis podem ser identificadas, por exemplo, por uma ou mais etiquetas. Em uma concretização, cada página do documento expandido 1800 é escaneada para os formulários XML (Linguagem de Marca Extensível) e HTML (Linguagem de Marca de Hipertexto). Tipicamente, um formulário consiste de campos de entrada, campos de escolha, tais como botões alternados, menus, etc. As formas HTML são descritas, por exemplo, em "XForms 1.0" pelo Consórcio de World Wide Web (W3C) publicado na Internet em http//www.w3.org/Makup/Forms.
Na etapa 1716, o gerador de serviço 1806 cria pelo menos um serviço para cada formulário identificado aqui. No caso de uma página conter múltiplas formas, o gerador de serviço irá gerar múltiplos serviços para considerar as combinações possíveis diferentes de consultas que poderíam resultar. Detalhes adicionais do procedimento de criar serviços são explicados abaixo.
Em 1716, o gerador de serviço 1806 filtra os serviços criados em 1714 que provavelmente conferem pouca utilidade acrescentada. Os serviços que acrescentam pouca ou nenhuma utilidade não retornam quaisquer resultados ou resultados relevantes. Processos para medir a utilidade de incorporar um serviço (que foi induzido a partir de um formulário) a uma personalidade são explicados abaixo. Ambas as abordagens contam com um modelo de recuperação de espaço vetor ou Booleano.
Finalmente, em 1718, é definida uma personalidade que usa os serviços filtrados e o banco de dados de entidade. As entidades no banco de dados de entidade são limitadas aos tipos de entidades que proporcionam utilidade, conforme medidas através do serviço ao qual elas são associadas (por exemplo, através da medida da utilidade de uma palavras). Como um requinte adicional, os serviços são limitados no escopo a tipos de entidade para os quais eles conferem valor acrescido (isto é, resultados relevantes de retorno). Os resultados relevantes determinantes ou de maior utilidade podem ser conseguidos com a filtragem e a classificação dos resultados depois de decorrido um serviço que, por exemplo, consulta um provedor de informação.
Em uma concretização, a filtragem e a classificação dos resultados de uma consulta retornada por um provedor de informação referente ao conteúdo de documento ao qual uma personalidade é conectada com o serviço são conseguidas com a aquisição de uma lista de hiperligações e sumários ordenados pela relevância do provedor de informação, com a execução de uma medida de similaridade entre os sumários e as entidades circundantes do contexto no conteúdo de documento ao qual a consulta é dirigida, com a classificação dos resultados com base na medida similarmente computada, e com a filtragem apenas dos resultados classificados mais elevados.
Em uma concretização alternativa, a medida de similaridade é executada com o uso de conteúdo de documento mencionado pelas hiperligações além dos sumários. Também, uma métrica de distância de Cosseno ou uma medida de correlação pode ser usada para medir a similaridade entre o conteúdo adquirido a partir do provedor de informação e o conteúdo de documento relacionado.
Será apreciado por aqueles versados na técnica que antes de usar uma métrica de distância de Cosseno, o conteúdo do documento é convertido em características (por exemplo, palavra, locuções, etc.) e derivado. Além disso, será apreciado por aqueles versados na técnica que as medidas da distância podem ser executadas nas características originalmente extraídas que são novamente mapeadas para definir um espaço de característica reduzido com o uso de indexação semântica latente (LSI).
Em uma concretização, uma personalidade criada em 1718 com o empacotamento de serviços filtrados na etapa 1716 é classificada e organizada hierarquicamente em grupos que usam as hiperligações dos serviços especificados. Tais classificação e organização podem ser executadas com o uso de técnicas de classificação, de cluster (aglomerativas) ou de hiperli-gação conhecidas. Um exemplo de técnicas hiperligadas é descrito por Kleinberg, em "Fontes Oficiais em um Ambiente Hiperligado", Relatório Téc- nico da IBM RJ 10076, de maío de 1997.
Em uma concretização alternativa, a estrutura organizacional dos documentos com hiperligações especificadas na etapa 1702 é usada para criar uma ou mais personalidades na etapa 1718 (por exemplo, é criada uma personalidade para cada ramificação em uma coleção hierárquica de documentos). Estas personalidades poderíam ser organizadas, conforme mostrado na Figura 6. Será apreciado por aqueles versados na técnica que as etapas explicadas na Figura 12 podem ser parcialmente ou inteiramente automatizadas.
Em outra concretização, o documento expandido 1800 é adicionalmente desenvolvido através da conexão de uma personalidade genérica ao mesmo. A personalidade genérica poderia ser aplicada a um ou mais níveis do documento expandido e apenas dependendo da existência ou não da necessidade de expansão adicional do espaço de informação que circunda o conteúdo de documento original no nível N=0. Por exemplo, em um exemplo, a personalidade genérica será aplicada apenas, se o documento expandido tiver menos referência do que um número limite predeterminado de documentos. C.3.1 Criando Serviços ' Em uma concretização, cada serviço criado na etapa 1714 é cri- ado com as seguintes propriedades: (a) o serviço é especificado, de tal modo que ele assuma como entrada um novo segmento de texto identificado, por exemplo, por uma referência de documento (por exemplo, o URL); (b) o serviço inclui processos para reconhecer entidades e seus deslocamentos no novo segmento de texto ou aceitar entidades reconhecidas e suas localizações originárias de outro serviço; (c) o serviço inclui processo para associar as entidades reconhecidas originárias do novo segmento de texto com (i) os conceitos no conteúdo recuperado dos conjuntos de documento de nível N, (ii) uma consulta exemplificativa (isto é, um exemplo concreto i definido para a mesma) que envolve a entidade reconhecida e um formulário, e/ou (iii) um resultado (possivelmente reformatado ou filtrado) da consulta exemplificativa (ii) com as entidades reconhecidas em (b); e (d) o servi- ço inclui processos para retornar uma lista com as entidades reconhecidas e seus deslocamentos originais em (b) e a informação recentemente associada em (c). Em uma concretização alternativa, se um serviço para uma hiper-ligação específica já existe, então nenhum serviço novo será criado e o serviço existente será usado.
No caso c(ii), um formulário pode ser criado por meio de exemplo, como segue. Se o formulário contiver um campo de entrada e um ou mais botões de submissão, então o campo de entrada é enchido com o conceito ou entidade reconhecido, e o protocolo de submissão de formulário (por exemplo, GET ou POST, conforme descrito em XForms 1.0) é seguido com o campo de entrada cheio. No caso do formulário conter mais de um campo, então todas as possíveis combinações dos campos e entidades ou conceitos reconhecidos são criados para submissão, com apenas aqueles que produzem resultados não-nulo que são retornados. Alternativamente, o formulário pode ser enchido com o uso de técnicas automatizadas, tais como aquelas descritas na Internet em www.roboform.com.
Por meio de exemplo, deve ser considerado o formulário 1900 com campo de entrada 1901 e botões alternados 1902-1905 descrito na Figura 14. Neste exemplo, o formulário 1900 é uma extremidade frontal para um provedor de conteúdo de material científico. O formulário é composto de um campo de texto 1901, onde espera-se que o usuário introduza os campos alternados e de consulta 1902-1905, onde o usuário pode indicar ao sistema, em cuja pasta a consulta deve ser executada (por exemplo, com a seleção do botão alternado de todas as pastas 1902, o sistema irá pesquisar todo o conteúdo do provedor de conteúdo). Neste exemplo, os quatro diferentes serviços seguintes mostrados na Figura 15 seriam gerados. Cada serviço inclui o campo de entrada 1901 e um dos quatro botões alternados 1902-1905 em um estado ativado. Cada serviço é associado com um tipo de entidade específico, que é determinado com o uso do processo descrito abaixo na seguinte seção. C.3.2 Serviços de Filtragem A finalidade da filtragem, conforme explicada acima, é a de re- mover serviços que foram criados, mas que não têm qualquer ou nenhuma utilidade. Mais especificamente, fornecidos um banco de dados de entidade e uma lista de serviços extraídos, três diferentes medidas de utilidade são explicadas abaixo para determinar a utilidade de uma lista de serviços. Será apreciado por aqueles versados na técnica que uma ou uma combinação das três medidas pode ser usada. Geralmente, cada medida de utilidade classifica os serviços, de acordo com sua utilidade potencial para entidades no banco de dados de entidade.
Uma primeira medida de utilidade é explicada na Figura 16, que descreve um diagrama de fluxo do procedimento em 1716 dos serviços de filtragem criados em 1714 com o uso do banco de dados de entidade criado em 1710. Inicialmente, em 2140, são recebidos uma lista de serviços e um banco de dados de entidade. É assumido que o banco de dados de entidade inclui a frequência exemplificativa de cada entidade no documento expandido.
Cada serviço proporciona meios para acessar um serviço de informação provido por um provedor de conteúdo. A freqüência de entidades no banco de dados de entidade dos bancos de dados providos pelos provedores de conteúdo acessados por cada serviço na lista de serviços é computada em 2142-2146. Mais especificamente em 2142-2146, são computadas as seguintes estatísticas referentes à freqüência de cada entidade em um serviço: (a) fy os inúmeros documentos no banco de dados do provedor de conteúdo CP-DBj que contêm entidade (ou característica)fj; e (b) wy a soma dos pesos de cada característica fj sobre todos os documentos no banco de dados do provedor de conteúdo CP-DBj. Em 2144, cada provedor de conteúdo é representado como uma lista de tuplas da forma <entidade, freqüência, peso, onde a freqüência e o peso são como "f" e "w" definidos acima. O documento expandido é representado com o uso de uma lista similar, mas, neste caso, f indica o número de documentos nos quais a entidade ocorre e w indica a soma dos pesos de cada entidade sobre todos os documentos.
Em uma concretização, a informação referente à freqüência de entidades nos serviços pode ser adquirida para cada serviço através do funcionamento periódico de um sistema que constrói uma consulta para cada característica fj que é executada no provedor de conteúdo CP-DBj e que subseqüentemente extrai os valores fy e wy dos resultados retornados da consulta. Os extratores para os valores fg e wy podem ser construídos automaticamente com o uso de abordagens de envoltório ou Modelos Markov Ocultos (HMMs).
Abordagens para gerar envoltórios são descritas no Pedido de Patente E.P. N- 1072985A2. A informação adicional referente à geração de envoltório é descrita por Chidlovskii e outros em: "Automatic Wrapper Gene-ration for Web Search Engines", Proc. 1 st Intem. Conf. on Web-Age Information Management, WAIM'2000, LNCS Series, Shanghai, China, June 2000; and "Wrapper Generation via Grammar Induction", 11 th European Conference on Machine Learning, ECML'00, Lect. Notes Comp. Science, Vol. 1810, Barcelona, Espanha, Maio 2000.
Em outra concretização, o protocolo STARTS é usado para exportar sumários originários do provedor de conteúdo para prover informação referente à estatística de entidades em serviços. O STARTS é uma proposta de protocolo para a pesquisa da Internet coordenada pela Universidade de Stanford que envolve organizações privadas e públicas. O STARTS especifica que os provedores de conteúdo devem exportar sumários que incluem estatística de entidade fy e wy. Os detalhes do protocolo STARTS são descritos por Gravano e outros, em "STARTS: Proposta da Stanford para Meta-pesquisa da Internet", Ata da Conferência ACM SIGMOD de 1997.
Em 2152, qualquer de inúmeras medidas de similaridade bem conhecidas podem subseqüentemente ser usadas para medir a similaridade entre cada serviço e o documento expandido. Por exemplo, pode ser usada a métrica de distância de Cosseno. Altemativamente, uma medida de correlação poderia ser usada em 2152 para medir similaridade. Para uma maior experiência relacionada à computação de métricas de distância, vide "Foun-dations of Statistical Natural Language Processing", de Manning e Schutze, MIT Press, 1999.
Em ainda outra concretização, as entidades e freqüências associadas (isto é, a similaridade para entidades e pesos) poderíam ser novamente mapeadas para definir um espaço de característica reduzido com o uso de indexação semântica latente (LSI) (para a experiência relacionada à indexação semântica latente, vide artigos com autoria de Dumais disponíveis na Internet em http://www.cs.utk.edu/~lsi/), superando assim os problemas associados com os sinônimos e polinômios (isto é, a mesma palavra apresenta diferentes interpretações dependendo do contexto). Subseqüente-mente, nesta concretização alternativa, as medidas de similaridade podem ser executadas neste espaço de característica reduzido.
Em 2154, os serviços N superior (isto é, com as mais altas medidas de similaridade) poderíam ser então selecionados como os serviços e incorporados na nova personalidade. A Figura 17 ilustra uma representação gráfica deste processo de seleção com um documento expandido e dois serviços A e B. O eixo horizontal do gráfico explica cada entidade no banco de dados de entidade (isto é, ei...en), e o eixo vertical explica a freqüência ponderada exemplificai iva de cada entidade. No exemplo mostrado, o serviço A apresenta um maior grau de similaridade do que o serviço B ao documento expandido.
Outra medida de utilidade classifica a lista de serviços depois da aquisição da estatística de entidade que usa uma medição de utilidade, conforme explicado no diagrama de fluxo mostrado na Figura 18. A Figura 18 explica um processo para filtrar serviços em 1716. Inicialmente, em 2355, são recebidos uma lista de serviços e um banco de dados de entidade. Em 2356, é selecionado um próximo serviço na lista de serviços, e em 2357, uma nova entidade é escolhida do banco de dados de entidades. Em 2258, uma consulta é formulada para o serviço selecionado com o uso da entidade selecionada, conforme explicado acima. Em 2359, a consulta é submetida ao serviço. O uso dos resultados N superiores do serviço em 2359, uma medida de similaridade entre a entidade e a informação contextual referente à entidade selecionada e cada um dos resultados N superior é computada em 2360, como segue: EntityUtility(Entity, Service) = ^Similarity (Entity, Doc), Doc e TopMatchesForService onde a "entity" é uma das entidades no banco de dados de entidade; "service" é um serviço; e "doe" é um dos resultados superiores N.
Mais especificamente, "entity" na equação indica tanto uma cadeia de entidades como um contexto circundante. Para simplicidade, pode-se assumir que uma entidade ocorra apenas em uma localização no documento expandido. O contexto circundante para uma entidade pode ser determinado de inúmeras maneiras com o uso de técnicas de análise gramatical conhecidas que delimitam as sentenças, parágrafos, etc. Por exemplo, as técnicas para determinar o contexto que circunda uma entidade incluem: (a) deixar o contexto ser o conteúdo textual de todo o documento, que faz parte de um documento expandido, ser o contexto; (b) deixar o contexto ser a sentença na qual a cadeia de entidades ocorre; (c) deixar o contexto ser o parágrafo no qual a cadeia de entidades ocorre; ou (d) deixar o contexto ser o texto tópico no qual ocorre então a cadeia de entidades, conforme detectado pelas técnicas conhecidas de detecção de tópico.
Também na equação, "doc" se refere ao sumário de documento que aparece (como um elemento em uma lista de resultados) na página de resultados do serviço, ou, alternativamente, a todo o documento, a partir do qual o sumário foi derivado. A medida de similaridade pode ser executada com o uso de uma forma tampouco resultante. Nesta equação, uma medida de similaridade é gerada para cada entidade (representada como a entidade mais um contexto), resultando no documento "doc" (representado como um sumário ou todo o conteúdo de documento). A fim de computar tal medida de similaridade, tanto a entidade como o documento de resultado são primeiramente processados, como segue: (a) as palavras de interrupção são eliminadas; e (b) cada palavra é derivada com o uso de técnicas de derivação conhecidas, tal como o derivador de Porter. Subseqüentemente, uma medida de similaridade, tal como a medição de Cosseno, podería ser usada para calcular o grau de similaridade entre a entidade e o documento resultante com base nas características de texto.
Em uma concretização alternativa, as características do texto são transformadas com o uso de indexação semântica latente em um espaço de características reduzido. Esta transformação de indexação semântica latente é calculada com o uso de entidade e banco de dados de freqüência de entidade que é extraído conforme descrito acima. Tendo transformado as características que usam a indexação semântica latente, uma medida de similaridade, tal como uma medida de distância de Cosseno, pode ser usada para calcular a similaridade entre a entidade (e seu contexto) e o documento resultante "doe".
No exemplo, no qual uma entidade que ocorre em múltiplos contextos existe para uma entidade (isto é, a entidade existe em múltiplas localizações em um documento ou documento expandido), cada localização da entidade e seu contexto associado são tratados separadamente (isto é, como entidades diferentes).
Em 2361, se for determinado que a última entidade no banco de dados de entidade foi examinada, então as similaridades medidas serão somadas para todas as entidades relacionadas ao serviço selecionado em 2362, como segue: ServiceUtility(Service) = ^EntityUtiIity(E, Service), E e EntityDB onde E é uma entidade no banco de dados de entidade, e "Service" é um serviço. Em 2363, se isto for executado para todos os serviços, então os serviços N superiores serão selecionados com a medida de utilidade de serviço mais elevada para especificar os serviços filtrados; de outra maneira, o processo continuará em 2356, com o próximo serviço na lista.
Os serviços podem ser organizados de diversas maneiras, tal como superficialmente ou hierarquicamente. Os serviços, conforme representados desta forma, poderíam ser agrupados e um serviço representativo poderia ser selecionado de cada cluster. Nesta concretização, um gráfico multi-dimensional é definido com uma dimensão para cada entidade no banco de dados de entidade. A freqüência de cada entidade que ocorre no do- cumento expandido e os serviços são plotados um contra o outro. Os clus-ters são formados e associados com um serviço. Estes clusters podem ser então usados para hierarquicamente organizar os serviços.
Em uma concretização alternativa, um serviço genérico é aplicado ao documento expandido subseqüente ao procedimento 2363. O serviço genérico usa os conteúdos do documento expandido para consultar um provedor de informação de uso geral ao invés de um provedor de informação que é especializado em um assunto específico. Em ainda outra concretização, uma utilidade de serviço é computada para um tipo de entidade ao invés de ser para todos os tipos de entidades, conforme descrito acima. Nesta concretização alternativa, a utilidade de serviços pode ser avaliada para tipos específicos de entidades. Por exemplo, uma utilidade de serviço é computada para o tipo de entidade de biologia 2002 para o serviço 2004 mostrado na Figura 15. C.4 Usando Personalidades e Níveis de Conhecimento Predefinidos Em ainda uma concretização adicional, pode ser especificado um nível de conhecimento existente ou de relativa habilidade em um campo, conforme mostrado em 1516 na Figura 10. O nível de conhecimento específico 1516 pode ser usado, por exemplo, para criar novas personalidades que acessam diferentes níveis de provedores de serviço originários de personalidades predefinidas especificadas em 1504. Por exemplo, com uma personalidade dirigida para informação medida, se o conhecimento de alguém for nocivo (isto é, um leigo), então mais provedores de informação básica serão especificados e mais serviços definicionais básicos serão especificados na personalidade. Além disso, o nível de conhecimento pode ser usado ou para incluir ou para excluir entidades de um banco de dados de entidade que é usado para criar uma personalidade. Por exemplo, um especialista no campo médico pode não estar interessado nas mesmas entidades que um novato no campo médico estaria.
Além de prover um nível de conhecimento de personalidade desejada, uma dica (isto é, uma dica do assunto) é fornecida ao tipo de personalidade que é desejado, conforme mostrado em 1514 na Figura 10. Com o recebimento de uma dica, o servidor de metadocumento se refere à dica da personalidade desejada a um conjunto de ações que são especificamente relacionadas ao assunto da dica. De modo geral, a dica 1514 pode ser usada para aperfeiçoar qualquer dos processos para criar personalidades que podem ser especificadas na Figura 10. A dica 1514 e o nível de conhecimento podem ser usados individualmente ou em combinação.
Em um exemplo específico, se uma dica 1514 de uma personalidade medida for especificada ao servidor de metadocumento juntamente com o conteúdo de documento mencionado pelas hiperligações em 1508 ou pelo nome em 1510, então o servidor de metadocumento 200 criará uma personalidade através da identificação de serviços que enriquecem o conteúdo identificado que se refere a: (a) um acesso a uma guia farmacêutica geral para drogas mencionadas no conteúdo de documento; (b) registros médicos relacionados ao usuário e aos itens mencionados no conteúdo de documento; (c) imagens, vídeo clipes, etc., associados com os itens mencionados no conteúdo de documento originário de um banco de dados médico; (d) links para uma comunidade de sofredores de quaisquer doenças mencionadas no conteúdo do documento; (e) produtos alternativos àqueles mencionados no conteúdo de documento; (f) conexões a drogarias online; (g) conexões à pesquisa comum em qualquer das áreas mencionadas no conteúdo de documento; (h) informação sobre quaisquer companhias mencionadas no conteúdo de documento; e (g) qualquer outra informação medida relacionada ao itens encontrados no conteúdo de documento.
Em outro exemplo específico, fornecida uma dica 1514 que é uma personalidade de construção, a personalidade será criada pelo servidor de metadocumento 200 através da identificação do conteúdo de documento mencionado pelas hiperligações em 1508 ou pelo nome em 1510, e da identificação de serviços que enriquecem o conteúdo identificado referente a: (a) códigos de construção, leis de divisão em zonas, avaliações de propriedade e outros documentos legais referentes aos itens (por exemplo, endereços) identificados no conteúdo de documento; (b) imagens (fotos, diagramas, cópias heliográficas) dos itens (por exemplo, construções, materiais) mencio- nados no conteúdo de documento; (c) histórico (por exemplo, social, de construtor, de inquilinatos, etc.) referente ao conteúdo de documento; (d) construções similares no mundo, arquitetos que constróem tais edifícios; (e) construções vizinhas, inquilinos, etc.; (f) simulações das áreas/construções, mencionadas sob certas condições (por exemplo, terremoto, à prova de fogo); (g) mapas das áreas mencionadas no conteúdo de documento; (h) dispositivos sensores (por exemplo, câmeras, termômetros, etc.) das áreas mencionadas no conteúdo de documento; e (i) custos, fornecedores, varejistas, taxas de entrega, especificações técnicas, tutoriais, etc., para materi-i ais mencionados no conteúdo de documento. C.5 Usando Técnicas de Extração de Informação O servidor de metadocumento, conforme descrito acima, enriquece (por exemplo, marca) o conteúdo de documento com resultados de diferentes serviços. Tipicamente, estes resultados são listas de documentos, i listas de sumários, informação extraída tipicamente de uma natureza de estrutura muito simples. Por exemplo, os resultados podem incluir cotações de ações e entradas biográficas. Nesta seção, é descrito um processo que extrai a informação de uma natureza mais sofisticada originária de texto não-estruturado. Isto é conseguido com o uso de técnicas de extração de infor-i mação, tais como respostas a questões.
Em uma técnica de extração de informação, personalidades podem também ser criadas e/ou modificadas com o uso de questões predefini-das que podem ser usadas em conjunção com um léxico ou léxicos associados com uma personalidade para criar um ou mais formulários de perguntas. » Cada formulário de pergunta é usado para criar uma nova solicitação de serviço de documento que é satisfeita com o uso de um sistema de respostas a perguntas conhecido que usa uma combinação de técnicas de recuperação de informação e de associação sintática ou padrão.
Em uma concretização, os formulários de perguntas são criados > automaticamente com o uso de uma pergunta de entrada definida por um usuário em 1520 na Figura 10. Por exemplo, se a pergunta fosse "Qual o procedimento para ablação do fígado?" e a personalidade específica em 1504 incluísse um léxico que‘são órgãos do corpo, que inclui a palavra "fígado", então o servidor de metadocumento identificaria o órgão do corpo encontrado na pergunta 1504 (por exemplo, o fígado) e o substituiría por um símbolo genérico representativo do léxico identificado. Neste exemplo específico, a palavra "fígado" seria substituída pelo símbolo genérico <ÓRGÃO-DO-CORPO> para produzir o formulário de perguntas "Qual o procedimento para ablação do <ÓRGÃO-DO-CORPO>?" Formulários de perguntas alternativos podem ser definidos com o uso da mesma pergunta para o exemplo fornecido acima, dependendo de quantos léxicos alternativos são definidos na personalidade específica. Dessa forma, com a mesma pergunta, mas com um léxico diferente, por exemplo, de procedimentos cirúrgicos, o formulário de perguntas pode ser definido: "Qual o procedimento para <PRO-CEDIMENTO-CIRÚRGICO> do fígado?" Ainda outro formulário de perguntas poderia ser produzido com o uso da mesma pergunta, se a personalidade incluísse ambos os léxicos para órgãos do corpo e procedimentos cirúrgicos. Isto produziría o formulário de perguntas: "Qual é o procedimento para <PROCEDIMENTO-CIRÚRGICO> do <ÓRGÃO-DO-CORPO>?" Uma vez que todos os formulários de perguntas possíveis são gerados, cada formulário de perguntas é acrescentado à personalidade como um novo serviço de documento. Cada serviço de documento acrescentou exemplos (isto é, cria um exemplo específico) ao formulário de perguntas com quaisquer entidades encontradas no conteúdo de documento 102 ou marca 108 que está também nos léxicos identificados pelo símbolo genérico no formulário de perguntas. Por exemplo, assume-se o conteúdo de documento incluído na entidade "rim", que fez parte também do léxico de órgãos do corpo. A pergunta exemplificativa neste exemplo seria: "Qual é o procedimento para ablação do rim"? Em uma concretização, estes formulários resultantes são avaliados quanto à sua utilidade.
Quando um documento é enriquecido com uma personalidade que inclui uma consulta exemplificativa, a solicitação de serviço de documento que inclui a consulta exemplificativa a satisfaz com uma técnica de resposta à perguntas para produzir uma resposta ou resultado. A resposta no exemplo acima seria "umanefrectomia". Um exemplo de uma técnica de resposta a questões é descrito por Cooper e outros no texto "A Simple Question Answering System", publicado na ata da Nona Conferência de Recuperação de Texto (TREC-9), conduzida em Gaithersburg, Maryland, em 13-16 de novembro de 2000.
Uma vez que o serviço de documento satisfaz uma consulta exemplificativa com uma resposta, o serviço de documento enriquece o documento através da ligação da entidade no documento com a consulta exemplificativa e a resposta. No exemplo fornecido acima, a entidade "rim" é ligada à consulta exemplificativa (isto é, Qual o procedimento para ablação do rim?) e a resposta (isto é, uma nefrectomia). Em uma concretização, a consulta exemplificativa e a resposta são exibidas em uma janela instantânea 1028, conforme mostrado na Figura 5, quando um usuário localiza um indicador 1030 nas proximidades de uma entidade reconhecida 1032 (por exemplo, entidade reconhecida Xerox e a consulta exemplificativa de "Qual é o preço das ações do <NOME DA COMPANHIA?").
No caso de múltiplos símbolos genéricos poderem ser acrescentados a uma pergunta especificada pelo usuário, o usuário poderá ter a opção de que apenas uma solicitação de serviço de documento seja especificada para apenas o formulário de perguntas mais genéricas (por exemplo, Qual é o procedimento para <PROCEDIMENTO-CIRÚRGICO> do <ÓR-GÃO-DO-CORPO>?). Alternativamente, o usuário pode ter a opção de que as solicitações de serviço de documento sejam especificadas para todos os formulários de perguntas identificados ou para aqueles selecionados. Além disso, o usuário pode dispor de múltiplas respostas e múltiplas fontes de informação de onde possa selecionar. A Figura 19 é um diagrama de fluxo que descreve uma concretização para identificar uma resposta de uma pergunta exemplificativa. Inicialmente, em 2402, o servidor de metadocumento 200 recebe a pergunta exemplificativa. O tipo de pergunta é determinado no 2404 e convertido para uma pergunta em 2406. Em 2408, a pergunta é submetida a um serviço de informação adaptado para lidar com perguntas do tipo identificado. Em 2410, as passagens dos resultados N superiores da consulta são extraídas com o uso de um sumarizador, por exemplo. Em 2412, as passagens dos resultados N superiores extraídos da consulta recebem parte das etiquetas de fala e são analisadas gramaticalmente de forma superficial. Em 2414, as ponderações da relevância são calculadas para cada palavra nas passagens dos resultados N superiores extraídos da consulta com o uso da pergunta exem-plificativa e do tipo de pergunta determinado. Em 2416, as sentenças ou parte das sentenças das passagens extraídas com palavras que apresentam a ponderação computada mais elevada de relevância são selecionadas como respostas propostas à questão exemplificativa. C.6 Usando Personalidades de Aprendizado O servidor de metadocumento 200 apresenta uma personalidade de e-aprendizado que pode, por exemplo, ficar disponível na janela de personalidades 1014 na Figura 5. Quando uma personalidade de e-aprendizado for aplicada a um documento, cada serviço na personalidade analisará os conteúdos do documento, reconhecendo as entidades e os conceitos e combinações específicas a esse serviço. Cada serviço liga então estas entidades, conceitos ou combinações ao novo conteúdo encontrado por uma pesquisa de banco de dados possivelmente com base no Web, ou prepara a pesquisa e insere um link, que, quando ativado, executará a pesquisa. Os serviços de personalidade não são limitados à simples pesquisa, mas podem executar quaisquer ações dependendo do conteúdo analisado. A Figura 20 ilustrará uma lista de serviços 2502 disponível, quando uma personalidade de e-aprendizado for selecionada para enriquecer o conteúdo de documento. Os serviços de e-aprendizado 2504 e 2506 ligam as palavras ou expressões de múltiplas palavras encontradas no documento às suas definições e/ou traduções, respectivamente. Este serviço pode executar a lematização ou a derivação antes de acessar um dicionário. Além disso, este serviço pode usar o contexto das palavras ou expressões de múltiplas palavras que circundam um elemento no conteúdo para limitar o número de definições e/ou as traduções exibidas. Outro serviço de e-aprendizado 2508 liga cada unidade de texto (isto é, documento, parágrafo, locução, palavra) a um tutoria! referente a esse elemento. Ainda outro serviço de e-aprendizado 2510 liga cada unidade de texto a um tutorial referente à unidade de texto. Ainda serviços de aprendizado adicionais 2512, 2514 e 2516 ligam cada unidade de texto a cursos interativos, cursos online disponíveis, ou recursos online referentes ao assunto das unidades de texto, respectivamente.
Vantajosamente, as personalidades preparam e executam uma multiplicidade de tarefas de aprendizado de linguagem independentes em um documento(s) específico(s). Quando a personalidade for aplicada ao conteúdo de documento, cada serviço selecionado na personalidade analisará os conteúdos do(s) documento(s) específico(s), reconhecendo as entidades e conceitos e combinações específicas desse serviço. O serviço liga então estas entidades, conceitos ou combinação ao novo conteúdo encontrado por uma pesquisa de banco de dados possivelmente com base no Web, ou prepara a pesquisa e insere um link, que, quando ativado, executará a pesquisa.
Em uma variação, a personalidade de e-aprendizado poderá também incluir um serviço que trilha a ação passada do usuário (ou o acesso de um perfil de usuário) para prover nova informação, quando a mesma entidade for ligada a outros documentos. Em uma concretização específica, a personalidade de e-aprendizado é especificamente dirigida em linguagens de aprendizado. Nesta concretização, o servidor de metadocumento 200 apresenta um aprendizado de linguagem assistido por computador através do uso dos mecanismos de enriquecimento de documento aqui descritos. A Figura 26 ilustra uma lista exemplificativa de serviços 2602 disponível, quando da seleção de uma personalidade de aprendizado de linguagem para enriquecer o conteúdo de documento.
Mais especificamente, a personalidade de aprendizado de linguagem é definida com o uso de uma personalidade que executa dois ou mais serviços definidos na Figura 21, que inclui: (a) os serviços 2604 e 2606 que ligam as palavras ou as expressões de múltiplas palavras encontradas no documento às suas definições e/ou traduções, respectivamente (possi- velmente executando a lematização ou derivação antes de acessar o dicionário e possivelmente com o uso do contexto do elemento para limitar o número de definições exibidas); (b) o serviço 2608 que liga cada sentença, ou locução, à descrição gramatical da estrutura da sentença ou locução (possivelmente ligando a uma explanação textual da estrutura na língua nativa do leitor, ou a uma lição de gramática de áudio ou vídeo textual que corresponde à essa estrutura); (c) o serviço 2610 que liga cada palavra, expressão de múltiplas palavras, locução ou sentença a outros exemplos do mesmo em diferentes contextos originários do atual (por exemplo, através da recuperação de segmentos de texto similares, com a exceção de segmentos de texto diferentes que dispõem da mesma palavra, expressão de múltiplas palavras, locução ou sentença; os elementos recuperados poderíam ser apresentados, por exemplo, em um formato que traz a estrutura similar para o centro do campo de visão do usuário para a fácil comparação de contexto diferente); (d) o serviço 2612 que liga cada palavras, expressão de múltiplas palavra, locução ou sentença a um ou mais exercícios gramaticais interativos que se referem a esse elemento; e (e) os serviços 2614 e 2616 que são ligados ao recurso de ensinamento da língua específica que corresponde ao conteúdo de documento. Uma abordagem similar pode ser seguida para outros tópicos de aprendizado. C.7 Automaticamente Inserindo e/ou Ligando Conteúdo A Figura 7 ilustra, em 1220, um mecanismo para seletivamente especificar em um nível de personalidade se insere ou não-enriquecimento como links 1222, ou conteúdo 1224, ou automaticamente determina se liga ou insere ou não-conteúdo em 1226. Em cada caso, os links são retirados de entidades reconhecidas no conteúdo de documento 102 ou para conteúdo ou para serviços localizados em uma localização remota (no caso de 1222) ou conteúdo localizado na marca de documento 108 de um metado-cumento.
Em uma concretização alternativa mostrada na Figura 22, o usuário tem a habilidade de seletivamente especificar comportamentos da personalidade e/ou do serviço às entidades reconhecidas em conteúdo ou documentos especificados. Nesta concretização, um usuário, por exemplo, pode selecionar uma porção do documento enriquecido 1018 mostrado na Figura 5 e selecionar, por exemplo, os resultados de serviço global de cotação de ações 1026. Esta série de ações que usa as técnicas de seleção de indicador conhecidas ocasiona a exibição da janela de opções de cotação de ações 2710 mostrada na Figura 22.
Na janela de opções 2710, um usuário pode especificar se um comportamento de serviço específico é aplicado a todos os documentos selecionados, a um documento atualmente selecionado, ou a uma seleção em 2712. Além disso, a janela de opções 2710 permite que um usuário estati-camente ou dinamicamente atualize a informação ligada em 2714 que é inserida em uma forma específica em 2716. Por exemplo, a informação pode ser inserida como links ou conteúdo, conforme descritos acima. O conteúdo que é inserido pode ser inserido, por exemplo, como notas de rodapé ou uma lista de conteúdo no final de um documento. O conteúdo que é acessado dinamicamente é recalculado cada vez que um link ou conteúdo é acessado (por exemplo, com o uso de técnicas semelhantes a Microsoft OLE). O conteúdo que é acessado estaticamente é feito em uma frequência especificada em 2718 (por exemplo, mensalmente, diariamente, por hora, etc.).
Vantajosamente, um usuário tem a habilidade de modificar um comportamento padrão de um serviço, enquanto especifica se as mudanças se aplicam a todos os documentos que o usuário controla, ao documento atual apenas, ou à seleção atual de um documento que contém uma ou mais entidades. Dependendo do nível de mudança, eles são ou armazenados como propriedades de um metadocumento específico ou como parte de um perfil de usuário. A alternativa de ligar ou recuperar e inserir o conteúdo em um metadocumento pode ser especificada para cada personalidade ou pode ser executada automaticamente, caso especificado em 2724, na Figura 22, ou em 1226, na Figura 7. A determinação de ligar ou inserir o conteúdo automaticamente é executada com o uso da informação originária de um histórico passado do usuário de interação com o servidor de metadocumento 200.
Se especificada para automaticamente ligar ou inserir conteúdo a uma personalidade específica em 2724 ou como uma propriedade de uma personalidade em 1226, então a decisão de inserir informação como links ou conteúdo irá depender ou não de se a informação está dentro ou fora do histórico de interação de um usuário. Se estiver fora do histórico de um usuário, então os links serão inseridos; de outro modo, se estiver dentro do histórico de interação do usuário, o conteúdo será recuperado e inserido em um metado-cumento.
Um histórico de interação de um usuário pode ser especificado com o uso de um histórico de links acessado pelo usuário e/ou uma lista de conceitos de interesses ao usuário. Uma lista de conceitos de interesse ao usuário pode ser determinada com o uso, por exemplo, de links freqüente-mente seguidos ou a partir de um perfil de usuário desenvolvido com o registro do histórico de correio eletrônico ou com o uso de um sistema reco-mendador, tal como Knowledge Pump desenvolvido pela Xerox Corporation. Neste modo de operação, a informação originária de um histórico de interação de usuário a partir de padrões de navegação de entidade é usada para determinar se o conteúdo de documento deve ser ou não-enriquecido. C.8 Cateaorizador de Texto O objetivo de um sistema de classificação de texto, tal como o categorizador de texto 3610 mostrado na figura 23, é o de classificar um documento 3612 em um conjunto de uma ou mais classes 3620, que são também referidas como categorias. Na operação, o categorizador de texto 3610 atribui a um documento uma ou mais classes em um conjunto de classes que são definidas em uma ontologia representada na base de conhecimento 3622. Um exemplo de uma ontologia é a ontologia DMOZ (publicada na Internet em dmoz.org).
Além disso, o categorizador de texto 3610 inclui um módulo de pré-processamento 3614 e um módulo de raciocínio aproximado 3618. A finalidade do módulo de pré-processamento de texto 3614 é a de transformar o documento 3612 em uma representação que facilita o categorizador de texto 3610 a executar a tarefa de classificação de documento de maneira precisa, automática, eficiente e efetiva. As representações de documento 3624 produzidas pelo módulo de pré-processamento 3614 incluem um conjunto de características e pesos associados.
Diferentes combinações de técnicas conhecidas originárias do processamento de linguagem natural, tais como a tradução de HTML para texto, a sinalização, a derivação, a remoção de palavra de interrupção, as técnicas de análise gramatical, e o reconhecimento de entidade, podem ser usadas para gerar os conjuntos de características 3624. Conseqüentemente, o módulo de pré-processamento de texto 3614 pode incluir inúmeros componentes, tal como um conversor de HTML em texto, um sinalizador, um derivador, um gerador de característica com base na gramática, um gerador de características, um analisador de freqüência de palavra, e um analisador (ou extrator) de locução nominal para produzir um conjunto de características 3616 a partir do documento 3612. O valor de peso associado com cada característica é calculado com o uso de qualquer das inúmeras técnicas bem conhecidas, variando de uma contagem de freqüência normalizada para um esquema de ponderação mais sofisticado que é calculado com base em uma agregação de inúmeras medidas, tal como a freqüência de cada termo no documento, sua localização em um documento, a freqüência de cada termo em um corpo de referência, e a freqüência de documento inversa do termo. O livro-texto de Man-ning e Schutze, "Foundations of Statistical Natural Language Processing", publicado em 1999, MIT Press, Cambridge, MA, fornece uma apresentação mais detalhada do pré-processamento de texto executado pelo módulo 3614. O módulo de raciocínio aproximado 3618 processa as categorias, conforme representando em termos das regras (ou outras formas de conhecimento) armazenadas na base de conhecimento 3622, em conjunção com as representação de documento (por exemplo, características e pesos associados) 3624, para atribuir uma etiqueta de classe 3620 ao documento de entrada 3612. Em uma concretização, o módulo de pré-processamento transforma um documento 3612 em listas de sinais que são delimitadas por espaços, caracteres de pontuação, ou semelhantes. Os sinais que correspondem às palavras de interrupção (isto é, palavras que não aperfeiçoam a qualidade da categorização) são subsequentemente eliminadas desta lista de sinais. Os sinais restantes na lista são então derivados com o uso do algoritmo de derivação de Portes. Então, as palavras de interrupção são removidas da lista de palavras derivadas, resultando em uma lista de ter-mos/palavras. Finalmente, esta lista de termos é transformada em uma distribuição de freqüência que consiste em tuplas <termo, freqüência>, onde a freqüência indica o número de ocorrências desse termo no documento para definir o conjunto de termos (isto é, as representações de documento 3624).
Subseqüentemente, o módulo de raciocínio aproximado 3618 acessa uma base de conhecimento 3622 que registra variáveis (isto é, características de documento e freqüências associadas) que são usadas para definir uma função que modela o mapeamento do documento 3612, ou sua representação transformada 3624, para uma classe em uma ontologia. Uma concretização mais específica de tal base de conhecimento é representada com o uso de um conjunto de regras que descrevem relações entre as variáveis registradas. Tipicamente, cada classe é representada por uma regra. No mapeamento da função, o motor de inferência 3618 associa o documento com cada regra de classe armazenada na base de conhecimento 3622 e usa um criador de decisões para tirar conclusões à qual ação confiar. A função, conforme representada pela base de conhecimento 3622 e módulo de raciocínio aproximado 3618, pode ser definida com o uso de uma variedade de tipos de modelo que incluem o seguinte: modelos pro-babilísticos, modelos lógicos/de conjunto vago, modelos lógicos com valor Booleano; abordagens vizinhas mais próximas, e redes neurais, alguns dos quais são descritos em maiores detalhes abaixo.
Além dos elementos mostrados na Figura 23, o categorizador 3610 pode incluir um módulo de aprendizado. A formação exata do módulo de aprendizado irá depender do modelo (por exemplo, probabilístico, vago, etc.) usado pelo módulo de raciocínio aproximado 3618 para mapear um conjunto de documentos para a lista de categorias. Geralmente, o módulo de aprendizado assume exemplos de documento classificado de entrada para cada classe e gera uma base de conhecimento correspondente. C.9 Recomendando Personalidades O servidor de metadocumento 200 apresenta um serviço para recomendar as personalidades em 216 na Figura 2. Em um exemplo, as personalidades são recomendadas para cada documento depois que um usuário envia para o servidor de metadocumento 200 e que o usuário tiver selecionado a propriedade de personalidade 1214 mostrada na Figura 6. Depois que um usuário seleciona a propriedade de personalidade 1214, o recomendador de personalidade 216 automaticamente recomenda uma personalidade para cada documento enviado pelo usuário. Com a recomendação de uma personalidade, o recomendador de personalidade 216 ajuda um usuário a decidir qual de uma pluralidade de temas de enriquecimento de documento deve ser aplicado a um documento enviado através da análise de conteúdo de documento ou de outra informação contextual (por exemplo, ações executadas no documento) do documento enviado.
Em uma concretização, as personalidades que são recomendadas pelo recomendador de personalidade 216 são automaticamente conectadas ao documento enviado sem exigir a confirmação do usuário e estes documentos são imediatamente enriquecidos pelo servidor de metadocumento. Alternativamente, as personalidades que são recomendadas pelo recomendador de personalidade 216 são conectadas a um metadocumeno apenas depois que o usuário apresenta uma confirmação que a personalidade recomendada é aceitável para o usuário. A fim de decidir qual personalidade (ou personalidades) recomendar para conectar a um documento, o servidor de metadocumento 200 usa um documento enviado 3712 como entrada para o sistema recomendador de personalidade 216, uma concretização 3700 do qual é mostrada em detalhes na Figura 24. De modo geral, o sistema recomendador de personalidade 3700 mostrado na Figura 24 é similar ao categorizador de documento 3610 mostrado na Figura 23, exceto pelo fato do recomendador de personalidade atribuir uma lista de uma ou mais personalidades 3720 ao invés de uma lista de uma ou mais categorias, conforme especificado para o catego-rizador. O recomendador de personalidade 3700 pode aprender regras para recomendar personalidades e para desenvolver uma ontologia de personalidade com o uso de documentos anteriormente enviados para o servidor de metadocumento 200 e atribuída uma personalidade por um usuário.
Mais especificamente, o sistema recomendador de personalidade 3700 mostrado na Figura 24 é uma variante do categorizador de texto descrito e mostrado na Figura 23. A base de conhecimento 3722 pode ser definida manualmente com o uso de dados do banco de dados de personalidade 212, que pode conter as personalidades específicas do usuário ou personalidades geralmente disponíveis (por exemplo, com o uso de características e ponderações escolhidas manualmente para cada personalidade que poderia ser aplicada) e documentos que foram anteriormente atribuídos a essas personalidades no banco de dados de metadocumento 202.
Alternativamente, a base de conhecimento pode ser definida semi-automaticamente ou automaticamente com o uso de características e ponderações escolhidas pelas técnicas de aprendizado mecânico. No caso de aprendizado mecânico das características e ponderações, o módulo de aprendizado 3730 pode usar metadocumentos que existem no banco de dados de metadocumento 202 para treinar a base de conhecimento 3722. Subseqüentemente, o módulo de aprendizado 3730 valida a base de conhecimento 3722 com o uso do banco de dados de perfil 3708. O banco de dados do perfil do usuário 3708, que inclui porções do banco de dados de metadocumento 202 e o banco de dados de personalidade 212, inclui referências aos metadocumentos que os usuários já aplicaram uma personalidade ao mesmo.
Em operação, o módulo de pré-processamento 3614 do recomendador de personalidade 3700 extrai as características 3616 de um documento enviado 3712. Subseqüentemente, o módulo de raciocínio aproximado 3618 deriva uma lista de personalidades 3720 com o uso da base de conhecimento 3722. Estas características extraídas seriam então exploradas, novamente com o uso de técnicas padrões (usando, por exemplo, a inferência Bayesiana, a distância de cosseno, conforme descrito acima), para classificar o novo documento e classificar a possível lista de personalidades 3720 para recomendar o conteúdo de documento especificado de enriquecimento. Cada classificação de personalidade acima de um certo limite ou apenas as personalidades superiores N(N>=1) podem ser recomendadas pelo módulo de raciocínio aproximado 3618.
Em uma variante do recomendador de personalidade 3700, as personalidades classificadas para um novo documento são novamente classificadas com o uso do perfil do usuário. Por exemplo, se o módulo de raciocínio aproximado 3618 conectar a um documento uma personalidade comercial e esportiva, mas o próprio perfil do usuário em 3708 revelar que este usuário jamais aplicou uma personalidade comercial, então a classificação poderá ser alterada em 3701, de modo que apenas a personalidade esportiva seja proposta, ou aplicada com uma maior prioridade, antes da personalidade comercial. Conseqüentemente, as recomendações de personalidade podem ser configuradas para um usuário específico que usa o histórico de interação do usuário com o servidor de metadocumento 200.
Claims (3)
1. Sistema para enriquecer conteúdo de documento, caracterizado pelo fato de que compreende: uma interface de usuário para especificar uma personalidade (104) que define um conjunto de solicitações de serviço de documento (106) que identifica temas de enriquecimento; um usuário-gerenciador (214) para receber o conteúdo de documento (102) e a personalidade (104); o usuário-gerenciador (214) formando um metadocumento (100) com o conteúdo do documento (102) e a personalidade (104); um agendador (204) para selecionar uma solicitação de serviço de documento (106) a partir do conjunto; o agendador (204) iniciando e ge-renciando a comunicação com um provedor de serviço para satisfazer o serviço de documento selecionado; um gerenciador de conteúdo (208) para integrar os resultados a partir do serviço de documento selecionado no metadocumento (100) como marca de documento (108); em que a interface do usuário, o usuário-gerenciador (214), o agendador (204), e o gerenciador de conteúdo (208) operam juntos para gerarem ou recomendarem novas personalidades ou para modificarem personalidades existentes com o uso de uma ou mais em combinação de um conjunto de computações algébricas, um conjunto de referências de documento, um conjunto de personalidades predefinidas, um conjunto de personalidades de aprendizado, um nível de conhecimento, e uma classificação de personalidades.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: um extrator de entidade (1802) para desenvolver um documento expandido (1800) com um conjunto de documentos identificados e construir um banco de dados de entidade (1804) com o documento expandido (1800), e um gerador de serviço (1806) para criar uma solicitação de ser- viço para cada formulário identificado no documento expandido (1800) e definir uma nova personalidade usando as solicitações de serviço criadas e o banco de dados de entidade (1804).
3. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: meios para receber uma questão definida pelo usuário; meios para identificar léxicos na questão definida pelo usuário; meios para substituir os léxicos identificados com símbolos genéricos para definir uma questão genérica; meios para acrescentar a questão genérica a uma nova personalidade ou a uma personalidade existente.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31185701P | 2001-08-13 | 2001-08-13 | |
US09/683,236 US6732090B2 (en) | 2001-08-13 | 2001-12-05 | Meta-document management system with user definable personalities |
Publications (2)
Publication Number | Publication Date |
---|---|
BR0203479A BR0203479A (pt) | 2003-05-13 |
BRPI0203479B1 true BRPI0203479B1 (pt) | 2015-06-09 |
Family
ID=26978111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0203479-4A BRPI0203479B1 (pt) | 2001-08-13 | 2002-08-13 | Sistema para enriquecer conteúdo de documento |
Country Status (4)
Country | Link |
---|---|
US (1) | US6732090B2 (pt) |
EP (1) | EP1284461A1 (pt) |
JP (1) | JP4365074B2 (pt) |
BR (1) | BRPI0203479B1 (pt) |
Families Citing this family (333)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822720A (en) | 1994-02-16 | 1998-10-13 | Sentius Corporation | System amd method for linking streams of multimedia data for reference material for display |
WO1998053637A1 (en) * | 1997-05-21 | 1998-11-26 | E.S.P. Communications, Inc. | System, method and apparatus for 'caller only' initiated two-way wireless communication with caller generated billing |
EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
US20020174201A1 (en) * | 1999-09-30 | 2002-11-21 | Ramer Jon E. | Dynamic configuration of context-sensitive personal sites and membership channels |
US7536561B2 (en) * | 1999-10-15 | 2009-05-19 | Ebrary, Inc. | Method and apparatus for improved information transactions |
US8311946B1 (en) | 1999-10-15 | 2012-11-13 | Ebrary | Method and apparatus for improved information transactions |
US20040148274A1 (en) * | 1999-10-15 | 2004-07-29 | Warnock Christopher M. | Method and apparatus for improved information transactions |
US6981040B1 (en) * | 1999-12-28 | 2005-12-27 | Utopy, Inc. | Automatic, personalized online information and product services |
DE60005293T2 (de) * | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
US7712024B2 (en) | 2000-06-06 | 2010-05-04 | Microsoft Corporation | Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings |
US7788602B2 (en) | 2000-06-06 | 2010-08-31 | Microsoft Corporation | Method and system for providing restricted actions for recognized semantic categories |
US7770102B1 (en) | 2000-06-06 | 2010-08-03 | Microsoft Corporation | Method and system for semantically labeling strings and providing actions based on semantically labeled strings |
US7716163B2 (en) | 2000-06-06 | 2010-05-11 | Microsoft Corporation | Method and system for defining semantic categories and actions |
US7660737B1 (en) | 2000-07-18 | 2010-02-09 | Smartpenny.Com, Inc. | Economic filtering system for delivery of permission based, targeted, incentivized advertising |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
US20020169735A1 (en) * | 2001-03-07 | 2002-11-14 | David Kil | Automatic mapping from data to preprocessing algorithms |
US7032174B2 (en) * | 2001-03-27 | 2006-04-18 | Microsoft Corporation | Automatically adding proper names to a database |
US7502770B2 (en) * | 2001-04-11 | 2009-03-10 | Metaweb Technologies, Inc. | Knowledge web |
US7778816B2 (en) | 2001-04-24 | 2010-08-17 | Microsoft Corporation | Method and system for applying input mode bias |
US20020169738A1 (en) * | 2001-05-10 | 2002-11-14 | Giel Peter Van | Method and system for auditing an enterprise configuration |
US7133862B2 (en) * | 2001-08-13 | 2006-11-07 | Xerox Corporation | System with user directed enrichment and import/export control |
US7284191B2 (en) | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
US7130861B2 (en) | 2001-08-16 | 2006-10-31 | Sentius International Corporation | Automated creation and delivery of database content |
US8112529B2 (en) | 2001-08-20 | 2012-02-07 | Masterobjects, Inc. | System and method for asynchronous client server session communication |
US20090006543A1 (en) * | 2001-08-20 | 2009-01-01 | Masterobjects | System and method for asynchronous retrieval of information based on incremental user input |
EP1288792B1 (en) * | 2001-08-27 | 2011-12-14 | BDGB Enterprise Software Sàrl | A method for automatically indexing documents |
US7451390B2 (en) * | 2001-09-10 | 2008-11-11 | Fujitsu Limited | Structured document processing system, method, program and recording medium |
WO2003040963A1 (en) * | 2001-11-02 | 2003-05-15 | Medical Research Consultants L.P. | Knowledge management system |
DE10157487C1 (de) * | 2001-11-23 | 2003-06-18 | Sgl Carbon Ag | Faserverstärkter Verbundkörper für Schutzpanzerungen, seine Herstellung und Verwendungen |
US20030125929A1 (en) * | 2001-12-10 | 2003-07-03 | Thomas Bergstraesser | Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network |
US7052277B2 (en) * | 2001-12-14 | 2006-05-30 | Kellman A.C.T. Services, Inc. | System and method for adaptive learning |
US6965900B2 (en) * | 2001-12-19 | 2005-11-15 | X-Labs Holdings, Llc | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents |
US7072883B2 (en) * | 2001-12-21 | 2006-07-04 | Ut-Battelle Llc | System for gathering and summarizing internet information |
US7243092B2 (en) * | 2001-12-28 | 2007-07-10 | Sap Ag | Taxonomy generation for electronic documents |
US20030128236A1 (en) * | 2002-01-10 | 2003-07-10 | Chen Meng Chang | Method and system for a self-adaptive personal view agent |
US7062711B2 (en) * | 2002-01-30 | 2006-06-13 | Sharp Laboratories Of America, Inc. | User interface and method for providing search query syntax help |
AU2003214975A1 (en) * | 2002-02-01 | 2003-09-02 | John Fairweather | System and method for navigating data |
DE10204657A1 (de) * | 2002-02-05 | 2003-08-07 | Rohde & Schwarz | Nachrichtenanalyseeinrichtung und Verfahren zum Anzeigen von Nachrichten |
US20030195834A1 (en) * | 2002-04-10 | 2003-10-16 | Hillis W. Daniel | Automated online purchasing system |
US7844610B2 (en) * | 2003-12-12 | 2010-11-30 | Google Inc. | Delegated authority evaluation system |
US8069175B2 (en) | 2002-04-10 | 2011-11-29 | Google Inc. | Delegating authority to evaluate content |
US7707496B1 (en) | 2002-05-09 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings |
US6941318B1 (en) * | 2002-05-10 | 2005-09-06 | Oracle International Corporation | Universal tree interpreter for data mining models |
US7752252B2 (en) * | 2002-05-17 | 2010-07-06 | Ntt Docomo, Inc. | De-fragmentation of transmission sequences |
US7219164B2 (en) * | 2002-05-17 | 2007-05-15 | University Of Miami | Multimedia re-editor |
US7742048B1 (en) | 2002-05-23 | 2010-06-22 | Microsoft Corporation | Method, system, and apparatus for converting numbers based upon semantically labeled strings |
US7707024B2 (en) | 2002-05-23 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting currency values based upon semantically labeled strings |
US20040205580A1 (en) * | 2002-05-23 | 2004-10-14 | Mindflash Technologies, Inc. | Method and system for document management |
US7281245B2 (en) * | 2002-06-05 | 2007-10-09 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7827546B1 (en) | 2002-06-05 | 2010-11-02 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7356537B2 (en) | 2002-06-06 | 2008-04-08 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
US20030236773A1 (en) * | 2002-06-19 | 2003-12-25 | Wen Say Ling | Input system and method with dynamic database adjustment function |
US20040003341A1 (en) * | 2002-06-20 | 2004-01-01 | Koninklijke Philips Electronics N.V. | Method and apparatus for processing electronic forms for use with resource constrained devices |
US7003522B1 (en) * | 2002-06-24 | 2006-02-21 | Microsoft Corporation | System and method for incorporating smart tags in online content |
US7716676B2 (en) | 2002-06-25 | 2010-05-11 | Microsoft Corporation | System and method for issuing a message to a program |
US7209915B1 (en) | 2002-06-28 | 2007-04-24 | Microsoft Corporation | Method, system and apparatus for routing a query to one or more providers |
JP3783665B2 (ja) * | 2002-08-05 | 2006-06-07 | ブラザー工業株式会社 | 画像形成装置及びネットワークシステム |
US6999962B2 (en) * | 2002-08-13 | 2006-02-14 | Xerox Corporation | Shared document repository with coupled recommender system |
US7185271B2 (en) * | 2002-08-20 | 2007-02-27 | Hewlett-Packard Development Company, L.P. | Methods and systems for implementing auto-complete in a web page |
FI112998B (fi) * | 2002-08-21 | 2004-02-13 | Nokia Corp | Menetelmä ja laite tiedonsiirtoon |
US7283989B1 (en) * | 2002-09-27 | 2007-10-16 | At&T Bls Intellectual Property, Inc. | System and method for use of application metadata |
US7130844B2 (en) * | 2002-10-31 | 2006-10-31 | International Business Machines Corporation | System and method for examining, calculating the age of an document collection as a measure of time since creation, visualizing, identifying selectively reference those document collections representing current activity |
US7954043B2 (en) * | 2002-12-02 | 2011-05-31 | International Business Machines Corporation | Concurrent editing of a file by multiple authors |
US7392231B2 (en) * | 2002-12-03 | 2008-06-24 | International Business Machines Corporation | Determining utility functions from ordenal rankings |
US8012025B2 (en) * | 2002-12-13 | 2011-09-06 | Applied Minds, Llc | Video game controller hub with control input reduction and combination schemes |
US7765206B2 (en) * | 2002-12-13 | 2010-07-27 | Metaweb Technologies, Inc. | Meta-Web |
US20040133574A1 (en) * | 2003-01-07 | 2004-07-08 | Science Applications International Corporaton | Vector space method for secure information sharing |
US7124955B2 (en) * | 2003-01-28 | 2006-10-24 | American Express Travel Related Services Company, Inc. | Compact or convenient transaction cards |
US7783614B2 (en) | 2003-02-13 | 2010-08-24 | Microsoft Corporation | Linking elements of a document to corresponding fields, queries and/or procedures in a database |
US7703000B2 (en) * | 2003-02-13 | 2010-04-20 | Iparadigms Llc | Systems and methods for contextual mark-up of formatted documents |
US20040199584A1 (en) * | 2003-03-05 | 2004-10-07 | Evan Kirshenbaum | Method and system for customized configuration of an appearance of a website for a user |
US20040186705A1 (en) * | 2003-03-18 | 2004-09-23 | Morgan Alexander P. | Concept word management |
US20040190774A1 (en) * | 2003-03-28 | 2004-09-30 | Baker Daniel P. | Method for classifying and accessing writing composition examples |
WO2004090692A2 (en) | 2003-04-04 | 2004-10-21 | Icosystem Corporation | Methods and systems for interactive evolutionary computing (iec) |
US7243085B2 (en) * | 2003-04-16 | 2007-07-10 | Sony Corporation | Hybrid personalization architecture |
US7711550B1 (en) | 2003-04-29 | 2010-05-04 | Microsoft Corporation | Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names |
US20040231526A1 (en) * | 2003-05-21 | 2004-11-25 | Schreiber Foods, Inc. | Method and apparatus for shaping a body of cheese into a plurality of curved bodies of cheese |
CA2468481A1 (en) * | 2003-05-26 | 2004-11-26 | John T. Forbis | Multi-position rail for a barrier |
US7739588B2 (en) * | 2003-06-27 | 2010-06-15 | Microsoft Corporation | Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data |
CN1567303A (zh) * | 2003-07-03 | 2005-01-19 | 富士通株式会社 | 结构文档信息块的自动分割方法和装置 |
JP4073841B2 (ja) * | 2003-07-24 | 2008-04-09 | 富士フイルム株式会社 | 電子メール・サーバ |
US7779345B2 (en) | 2003-07-30 | 2010-08-17 | Aol Inc. | Reverse mapping method and apparatus for form filling |
EP1649346A2 (en) | 2003-08-01 | 2006-04-26 | Icosystem Corporation | Methods and systems for applying genetic operators to determine system conditions |
US7296027B2 (en) | 2003-08-06 | 2007-11-13 | Sbc Knowledge Ventures, L.P. | Rhetorical content management with tone and audience profiles |
US20050033811A1 (en) | 2003-08-07 | 2005-02-10 | International Business Machines Corporation | Collaborative email |
US7213036B2 (en) | 2003-08-12 | 2007-05-01 | Aol Llc | System for incorporating information about a source and usage of a media asset into the asset itself |
US8209185B2 (en) * | 2003-09-05 | 2012-06-26 | Emc Corporation | Interface for management of auditory communications |
US8103873B2 (en) * | 2003-09-05 | 2012-01-24 | Emc Corporation | Method and system for processing auditory communications |
US7499531B2 (en) * | 2003-09-05 | 2009-03-03 | Emc Corporation | Method and system for information lifecycle management |
US7457396B2 (en) * | 2003-09-05 | 2008-11-25 | Emc Corporation | Automated call management |
US7676358B2 (en) * | 2003-09-24 | 2010-03-09 | International Business Machines Corporation | System and method for the recognition of organic chemical names in text documents |
US9547994B2 (en) * | 2003-10-01 | 2017-01-17 | Kenneth Nathaniel Sherman | Progressive reference system, method and apparatus |
US20060075345A1 (en) * | 2004-09-27 | 2006-04-06 | Sherman Kenneth N | Progressive reference system, method and apparatus |
US9489853B2 (en) * | 2004-09-27 | 2016-11-08 | Kenneth Nathaniel Sherman | Reading and information enhancement system and method |
US7165119B2 (en) | 2003-10-14 | 2007-01-16 | America Online, Inc. | Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter |
US7640232B2 (en) | 2003-10-14 | 2009-12-29 | Aol Llc | Search enhancement system with information from a selected source |
US20050108316A1 (en) * | 2003-11-18 | 2005-05-19 | Sbc Knowledge Ventures, L.P. | Methods and systems for organizing related communications |
US20050125254A1 (en) * | 2003-12-03 | 2005-06-09 | Roy Schoenberg | Key maintenance method and system |
US7464330B2 (en) * | 2003-12-09 | 2008-12-09 | Microsoft Corporation | Context-free document portions with alternate formats |
US20050131918A1 (en) * | 2003-12-12 | 2005-06-16 | W. Daniel Hillis | Personalized profile for evaluating content |
US7373373B2 (en) | 2003-12-12 | 2008-05-13 | Arinc Incorporated | Systems and methods for host/client communications |
US7299110B2 (en) * | 2004-01-06 | 2007-11-20 | Honda Motor Co., Ltd. | Systems and methods for using statistical techniques to reason with noisy data |
US7415106B2 (en) * | 2004-03-09 | 2008-08-19 | Sbc Knowledge Ventures, Lp | Network-based voice activated auto-attendant service with B2B connectors |
US7383500B2 (en) * | 2004-04-30 | 2008-06-03 | Microsoft Corporation | Methods and systems for building packages that contain pre-paginated documents |
US7631254B2 (en) * | 2004-05-17 | 2009-12-08 | Gordon Peter Layard | Automated e-learning and presentation authoring system |
EP1605369A1 (en) * | 2004-06-07 | 2005-12-14 | ArchiveOnline AB | Document database |
CA2571509A1 (en) * | 2004-06-24 | 2006-01-05 | Amir Lavi | System for facilitating search over a network |
US9268780B2 (en) | 2004-07-01 | 2016-02-23 | Emc Corporation | Content-driven information lifecycle management |
US8180743B2 (en) | 2004-07-01 | 2012-05-15 | Emc Corporation | Information management |
US7707037B2 (en) * | 2004-07-01 | 2010-04-27 | Emc Corporation | Archiving of surveillance data |
US20060004579A1 (en) * | 2004-07-01 | 2006-01-05 | Claudatos Christopher H | Flexible video surveillance |
US8180742B2 (en) * | 2004-07-01 | 2012-05-15 | Emc Corporation | Policy-based information management |
US7444287B2 (en) * | 2004-07-01 | 2008-10-28 | Emc Corporation | Efficient monitoring system and method |
US8244542B2 (en) * | 2004-07-01 | 2012-08-14 | Emc Corporation | Video surveillance |
US20060004818A1 (en) * | 2004-07-01 | 2006-01-05 | Claudatos Christopher H | Efficient information management |
US8229904B2 (en) * | 2004-07-01 | 2012-07-24 | Emc Corporation | Storage pools for information management |
US7707220B2 (en) * | 2004-07-06 | 2010-04-27 | Icosystem Corporation | Methods and apparatus for interactive searching techniques |
US20060010117A1 (en) * | 2004-07-06 | 2006-01-12 | Icosystem Corporation | Methods and systems for interactive search |
JP2006023878A (ja) * | 2004-07-07 | 2006-01-26 | Quin Land Co Ltd | データ抽出システム |
US7603349B1 (en) * | 2004-07-29 | 2009-10-13 | Yahoo! Inc. | User interfaces for search systems using in-line contextual queries |
US20090198714A1 (en) * | 2004-08-02 | 2009-08-06 | Clairvoyance Corporation | Document processing and management approach for reflecting changes in one representation of a document to another representation |
US20060048042A1 (en) * | 2004-08-30 | 2006-03-02 | Xerox Corporation | Individually personalized customized report document system with user feedback |
US20060048053A1 (en) * | 2004-08-30 | 2006-03-02 | Xerox Corporation | Individually personalized customized report document system |
US8626514B2 (en) * | 2004-08-31 | 2014-01-07 | Emc Corporation | Interface for management of multiple auditory communications |
US8244726B1 (en) | 2004-08-31 | 2012-08-14 | Bruce Matesso | Computer-aided extraction of semantics from keywords to confirm match of buyer offers to seller bids |
US20060073461A1 (en) * | 2004-09-22 | 2006-04-06 | Gillaspy Thomas R | Method and system for estimating educational resources |
US8386453B2 (en) * | 2004-09-30 | 2013-02-26 | Google Inc. | Providing search information relating to a document |
US7617450B2 (en) * | 2004-09-30 | 2009-11-10 | Microsoft Corporation | Method, system, and computer-readable medium for creating, inserting, and reusing document parts in an electronic document |
US9495467B2 (en) * | 2004-10-13 | 2016-11-15 | Bloomberg Finance L.P. | System and method for managing news headlines |
US7412442B1 (en) * | 2004-10-15 | 2008-08-12 | Amazon Technologies, Inc. | Augmenting search query results with behaviorally related items |
US8631347B2 (en) * | 2004-11-15 | 2014-01-14 | Microsoft Corporation | Electronic document style matrix |
US7617229B2 (en) * | 2004-12-20 | 2009-11-10 | Microsoft Corporation | Management and use of data in a computer-generated document |
US20060136816A1 (en) * | 2004-12-20 | 2006-06-22 | Microsoft Corporation | File formats, methods, and computer program products for representing documents |
US7617451B2 (en) * | 2004-12-20 | 2009-11-10 | Microsoft Corporation | Structuring data for word processing documents |
US7770180B2 (en) * | 2004-12-21 | 2010-08-03 | Microsoft Corporation | Exposing embedded data in a computer-generated document |
US7752632B2 (en) * | 2004-12-21 | 2010-07-06 | Microsoft Corporation | Method and system for exposing nested data in a computer-generated document in a transparent manner |
US20060149710A1 (en) | 2004-12-30 | 2006-07-06 | Ross Koningstein | Associating features with entities, such as categories of web page documents, and/or weighting such features |
US7433866B2 (en) | 2005-01-11 | 2008-10-07 | International Business Machines Corporation | Systems, methods, and media for awarding credits based on provided usage information |
US7386569B2 (en) * | 2005-01-11 | 2008-06-10 | International Business Machines Corporation | Systems, methods, and media for aggregating electronic document usage information |
US7421426B2 (en) * | 2005-01-11 | 2008-09-02 | International Business Machines Corporation | Systems, methods, and media for utilizing electronic document usage information with search engines |
US20060195361A1 (en) * | 2005-10-01 | 2006-08-31 | Outland Research | Location-based demographic profiling system and method of use |
US20060229058A1 (en) * | 2005-10-29 | 2006-10-12 | Outland Research | Real-time person-to-person communication using geospatial addressing |
US20070189544A1 (en) | 2005-01-15 | 2007-08-16 | Outland Research, Llc | Ambient sound responsive media player |
US7542816B2 (en) * | 2005-01-27 | 2009-06-02 | Outland Research, Llc | System, method and computer program product for automatically selecting, suggesting and playing music media files |
US7489979B2 (en) * | 2005-01-27 | 2009-02-10 | Outland Research, Llc | System, method and computer program product for rejecting or deferring the playing of a media file retrieved by an automated process |
US7562117B2 (en) * | 2005-09-09 | 2009-07-14 | Outland Research, Llc | System, method and computer program product for collaborative broadcast media |
US20060161621A1 (en) * | 2005-01-15 | 2006-07-20 | Outland Research, Llc | System, method and computer program product for collaboration and synchronization of media content on a plurality of media players |
US7337170B2 (en) * | 2005-01-18 | 2008-02-26 | International Business Machines Corporation | System and method for planning and generating queries for multi-dimensional analysis using domain models and data federation |
US20060173556A1 (en) * | 2005-02-01 | 2006-08-03 | Outland Research,. Llc | Methods and apparatus for using user gender and/or age group to improve the organization of documents retrieved in response to a search query |
US20070276870A1 (en) * | 2005-01-27 | 2007-11-29 | Outland Research, Llc | Method and apparatus for intelligent media selection using age and/or gender |
US20060179056A1 (en) * | 2005-10-12 | 2006-08-10 | Outland Research | Enhanced storage and retrieval of spatially associated information |
US20060173828A1 (en) * | 2005-02-01 | 2006-08-03 | Outland Research, Llc | Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query |
US20070229350A1 (en) * | 2005-02-01 | 2007-10-04 | Scalisi Joseph F | Apparatus and Method for Providing Location Information on Individuals and Objects using Tracking Devices |
US7598855B2 (en) | 2005-02-01 | 2009-10-06 | Location Based Technologies, Inc. | Apparatus and method for locating individuals and objects using tracking devices |
US20060179044A1 (en) * | 2005-02-04 | 2006-08-10 | Outland Research, Llc | Methods and apparatus for using life-context of a user to improve the organization of documents retrieved in response to a search query from that user |
US7921365B2 (en) | 2005-02-15 | 2011-04-05 | Microsoft Corporation | System and method for browsing tabbed-heterogeneous windows |
US7840564B2 (en) | 2005-02-16 | 2010-11-23 | Ebrary | System and method for automatic anthology creation using document aspects |
US7680781B1 (en) * | 2005-03-04 | 2010-03-16 | Teradata Us, Inc. | Automatic search query generation and results set management |
US20060253210A1 (en) * | 2005-03-26 | 2006-11-09 | Outland Research, Llc | Intelligent Pace-Setting Portable Media Player |
WO2006107347A2 (en) * | 2005-03-31 | 2006-10-12 | Lehman Brothers Inc. | System and method for grouping a collection of documents using document series |
US20060223637A1 (en) * | 2005-03-31 | 2006-10-05 | Outland Research, Llc | Video game system combining gaming simulation with remote robot control and remote robot feedback |
US20060256008A1 (en) * | 2005-05-13 | 2006-11-16 | Outland Research, Llc | Pointing interface for person-to-person information exchange |
US20060223635A1 (en) * | 2005-04-04 | 2006-10-05 | Outland Research | method and apparatus for an on-screen/off-screen first person gaming experience |
US20060241864A1 (en) * | 2005-04-22 | 2006-10-26 | Outland Research, Llc | Method and apparatus for point-and-send data transfer within an ubiquitous computing environment |
US20060253421A1 (en) * | 2005-05-06 | 2006-11-09 | Fang Chen | Method and product for searching title metadata based on user preferences |
US20060259948A1 (en) * | 2005-05-12 | 2006-11-16 | International Business Machines Corporation | Integrated document handling in distributed collaborative applications |
US20060256007A1 (en) * | 2005-05-13 | 2006-11-16 | Outland Research, Llc | Triangulation method and apparatus for targeting and accessing spatially associated information |
US20060259574A1 (en) * | 2005-05-13 | 2006-11-16 | Outland Research, Llc | Method and apparatus for accessing spatially associated information |
US20070150188A1 (en) * | 2005-05-27 | 2007-06-28 | Outland Research, Llc | First-person video-based travel planning system |
US20060271286A1 (en) * | 2005-05-27 | 2006-11-30 | Outland Research, Llc | Image-enhanced vehicle navigation systems and methods |
EP1896969A2 (en) * | 2005-05-31 | 2008-03-12 | Ipifini, Inc. | Computer program for identifying and automating repetitive user inputs |
US7359897B2 (en) * | 2005-06-02 | 2008-04-15 | Toshiba Corporation | System and method for document management and retrieval |
US20070022128A1 (en) * | 2005-06-03 | 2007-01-25 | Microsoft Corporation | Structuring data for spreadsheet documents |
US20060277452A1 (en) * | 2005-06-03 | 2006-12-07 | Microsoft Corporation | Structuring data for presentation documents |
US8175511B1 (en) * | 2005-06-08 | 2012-05-08 | Globalenglish Corporation | Techniques for intelligent network-based teaching |
US10699593B1 (en) * | 2005-06-08 | 2020-06-30 | Pearson Education, Inc. | Performance support integration with E-learning system |
US8805781B2 (en) * | 2005-06-15 | 2014-08-12 | Geronimo Development | Document quotation indexing system and method |
US8768911B2 (en) | 2005-06-15 | 2014-07-01 | Geronimo Development | System and method for indexing and displaying document text that has been subsequently quoted |
US20060186197A1 (en) * | 2005-06-16 | 2006-08-24 | Outland Research | Method and apparatus for wireless customer interaction with the attendants working in a restaurant |
US20080032719A1 (en) * | 2005-10-01 | 2008-02-07 | Outland Research, Llc | Centralized establishment-based tracking and messaging service |
US7433869B2 (en) * | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
US7853618B2 (en) | 2005-07-21 | 2010-12-14 | The Boeing Company | Methods and apparatus for generic semantic access to information systems |
US20070027895A1 (en) * | 2005-07-27 | 2007-02-01 | Lexmark International, Inc. | Systems and methods for providing customized multi-function device interfaces using user authentication |
US7580924B1 (en) * | 2005-07-28 | 2009-08-25 | Xilinx, Inc. | Method and system for collection, analysis, and display of semiconductor manufacturing information |
US7739305B1 (en) | 2005-07-28 | 2010-06-15 | Xilinx, Inc. | Network appliance for data collection and processing from multiple locations and data schema therefor |
JP4702940B2 (ja) * | 2005-09-09 | 2011-06-15 | キヤノン株式会社 | ドキュメント管理システム及びその制御方法 |
US8001526B2 (en) * | 2005-09-15 | 2011-08-16 | Microsoft Corporation | Hierarchical property storage |
US7721205B2 (en) * | 2005-09-15 | 2010-05-18 | Microsoft Corporation | Integration of composite objects in host applications |
US20070061349A1 (en) * | 2005-09-15 | 2007-03-15 | Microsoft Corporation | Hierarchically describing shapes |
US7783971B2 (en) * | 2005-09-13 | 2010-08-24 | Microsoft Corporation | Graphic object themes |
US20070061351A1 (en) * | 2005-09-13 | 2007-03-15 | Microsoft Corporation | Shape object text |
WO2007035848A2 (en) * | 2005-09-21 | 2007-03-29 | Icosystem Corporation | System and method for aiding product design and quantifying acceptance |
US8176101B2 (en) | 2006-02-07 | 2012-05-08 | Google Inc. | Collaborative rejection of media for physical establishments |
US7788590B2 (en) | 2005-09-26 | 2010-08-31 | Microsoft Corporation | Lightweight reference user interface |
US7992085B2 (en) | 2005-09-26 | 2011-08-02 | Microsoft Corporation | Lightweight reference user interface |
US7577522B2 (en) * | 2005-12-05 | 2009-08-18 | Outland Research, Llc | Spatially associated personal reminder system and method |
US20070106627A1 (en) * | 2005-10-05 | 2007-05-10 | Mohit Srivastava | Social discovery systems and methods |
US7586032B2 (en) * | 2005-10-07 | 2009-09-08 | Outland Research, Llc | Shake responsive portable media player |
US20070083323A1 (en) * | 2005-10-07 | 2007-04-12 | Outland Research | Personal cuing for spatially associated information |
US20070088680A1 (en) * | 2005-10-14 | 2007-04-19 | Microsoft Corporation | Simultaneously spawning multiple searches across multiple providers |
US20070112833A1 (en) * | 2005-11-17 | 2007-05-17 | International Business Machines Corporation | System and method for annotating patents with MeSH data |
US9495349B2 (en) * | 2005-11-17 | 2016-11-15 | International Business Machines Corporation | System and method for using text analytics to identify a set of related documents from a source document |
US20060227047A1 (en) * | 2005-12-13 | 2006-10-12 | Outland Research | Meeting locator system and method of using the same |
US20070192363A1 (en) * | 2005-12-19 | 2007-08-16 | Microsoft Corporation | Document-centric application environment |
US20070075127A1 (en) * | 2005-12-21 | 2007-04-05 | Outland Research, Llc | Orientation-based power conservation for portable media devices |
US7685198B2 (en) * | 2006-01-25 | 2010-03-23 | Yahoo! Inc. | Systems and methods for collaborative tag suggestions |
US7953740B1 (en) | 2006-02-13 | 2011-05-31 | Amazon Technologies, Inc. | Detection of behavior-based associations between search strings and items |
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
US20080057481A1 (en) * | 2006-03-17 | 2008-03-06 | William Charles Schmitt | Common Format Learning Device |
US8762418B1 (en) | 2006-05-31 | 2014-06-24 | Oracle America, Inc. | Metadata that allows refiltering and data reclassification without accessing the data |
US20080005685A1 (en) * | 2006-06-30 | 2008-01-03 | Clemens Drews | Interface mechanism for quickly accessing recently used artifacts in a computer desktop environment |
US7502807B2 (en) * | 2006-06-30 | 2009-03-10 | Microsoft Corporation | Defining and extracting a flat list of search properties from a rich structured type |
US20080005226A1 (en) * | 2006-07-03 | 2008-01-03 | Srinivasan Subbian | A method and system for one-to-one communication through proxy |
US20080005228A1 (en) * | 2006-07-03 | 2008-01-03 | Srinivasan Subbian | Method and system for communicating to networks using mobile phones |
US20080005227A1 (en) * | 2006-07-03 | 2008-01-03 | Srinivasan Subbian | Method and system for content processing |
US20100198697A1 (en) | 2006-07-21 | 2010-08-05 | Videoegg, Inc. | Fixed Position Interactive Advertising |
US7783622B1 (en) | 2006-07-21 | 2010-08-24 | Aol Inc. | Identification of electronic content significant to a user |
US8732019B2 (en) | 2006-07-21 | 2014-05-20 | Say Media, Inc. | Non-expanding interactive advertisement |
US9208500B2 (en) | 2006-07-21 | 2015-12-08 | Microsoft Technology Licensing, Llc | Fixed position multi-state interactive advertisement |
US20090018920A1 (en) * | 2006-07-21 | 2009-01-15 | Videoegg, Inc. | Interaction Prompt for Interactive Advertising |
US7792830B2 (en) * | 2006-08-01 | 2010-09-07 | International Business Machines Corporation | Analyzing the ability to find textual content |
NZ575190A (en) * | 2006-08-30 | 2012-03-30 | Thomson Reuters Glo Resources | Document-centric workflow based on document contents, metadata, and context |
CN101145152B (zh) * | 2006-09-14 | 2010-08-11 | 国际商业机器公司 | 在特定上下文内自动精细化本体的***和方法 |
JP2008083856A (ja) * | 2006-09-26 | 2008-04-10 | Toshiba Corp | 情報処理装置、情報処理方法及び情報処理プログラム |
US7890442B2 (en) * | 2006-10-20 | 2011-02-15 | International Business Machines Corporation | Method and system for autocompletion of multiple fields in electronic forms |
US7562088B2 (en) * | 2006-12-27 | 2009-07-14 | Sap Ag | Structure extraction from unstructured documents |
US20080183691A1 (en) * | 2007-01-30 | 2008-07-31 | International Business Machines Corporation | Method for a networked knowledge based document retrieval and ranking utilizing extracted document metadata and content |
US7792816B2 (en) * | 2007-02-01 | 2010-09-07 | Icosystem Corporation | Method and system for fast, generic, online and offline, multi-source text analysis and visualization |
US8166389B2 (en) * | 2007-02-09 | 2012-04-24 | General Electric Company | Methods and apparatus for including customized CDA attributes for searching and retrieval |
US8386478B2 (en) * | 2007-03-07 | 2013-02-26 | The Boeing Company | Methods and systems for unobtrusive search relevance feedback |
US9111189B2 (en) * | 2007-10-31 | 2015-08-18 | Location Based Technologies, Inc. | Apparatus and method for manufacturing an electronic package |
US8244468B2 (en) * | 2007-11-06 | 2012-08-14 | Location Based Technology Inc. | System and method for creating and managing a personalized web interface for monitoring location information on individuals and objects using tracking devices |
US8224355B2 (en) * | 2007-11-06 | 2012-07-17 | Location Based Technologies Inc. | System and method for improved communication bandwidth utilization when monitoring location information |
US8774827B2 (en) | 2007-04-05 | 2014-07-08 | Location Based Technologies, Inc. | Apparatus and method for generating position fix of a tracking device in accordance with a subscriber service usage profile to conserve tracking device power |
US8497774B2 (en) | 2007-04-05 | 2013-07-30 | Location Based Technologies Inc. | Apparatus and method for adjusting refresh rate of location coordinates of a tracking device |
US8102256B2 (en) | 2008-01-06 | 2012-01-24 | Location Based Technologies Inc. | Apparatus and method for determining location and tracking coordinates of a tracking device |
US20080262883A1 (en) * | 2007-04-19 | 2008-10-23 | Weiss Stephen J | Systems and methods for compliance and announcement display and notification |
US9128954B2 (en) * | 2007-05-09 | 2015-09-08 | Illinois Institute Of Technology | Hierarchical structured data organization system |
US9633028B2 (en) | 2007-05-09 | 2017-04-25 | Illinois Institute Of Technology | Collaborative and personalized storage and search in hierarchical abstract data organization systems |
US10042898B2 (en) | 2007-05-09 | 2018-08-07 | Illinois Institutre Of Technology | Weighted metalabels for enhanced search in hierarchical abstract data organization systems |
US8521511B2 (en) * | 2007-06-18 | 2013-08-27 | International Business Machines Corporation | Information extraction in a natural language understanding system |
US9058319B2 (en) * | 2007-06-18 | 2015-06-16 | International Business Machines Corporation | Sub-model generation to improve classification accuracy |
US8285539B2 (en) * | 2007-06-18 | 2012-10-09 | International Business Machines Corporation | Extracting tokens in a natural language understanding application |
US9342588B2 (en) * | 2007-06-18 | 2016-05-17 | International Business Machines Corporation | Reclassification of training data to improve classifier accuracy |
US9251137B2 (en) * | 2007-06-21 | 2016-02-02 | International Business Machines Corporation | Method of text type-ahead |
US8918437B2 (en) * | 2007-07-17 | 2014-12-23 | International Business Machines Corporation | Fragment reconstitution in a content management system |
US8654974B2 (en) * | 2007-10-18 | 2014-02-18 | Location Based Technologies, Inc. | Apparatus and method to provide secure communication over an insecure communication channel for location information using tracking devices |
US8543898B2 (en) * | 2007-11-09 | 2013-09-24 | Oracle International Corporation | Techniques for more efficient generation of XML events from XML data sources |
US8250062B2 (en) * | 2007-11-09 | 2012-08-21 | Oracle International Corporation | Optimized streaming evaluation of XML queries |
US8316035B2 (en) | 2008-01-16 | 2012-11-20 | International Business Machines Corporation | Systems and arrangements of text type-ahead |
JP5224851B2 (ja) * | 2008-02-27 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索エンジン、検索システム、検索方法およびプログラム |
US8086557B2 (en) * | 2008-04-22 | 2011-12-27 | Xerox Corporation | Method and system for retrieving statements of information sources and associating a factuality assessment to the statements |
US8359532B2 (en) * | 2008-04-28 | 2013-01-22 | International Business Machines Corporation | Text type-ahead |
US8332394B2 (en) * | 2008-05-23 | 2012-12-11 | International Business Machines Corporation | System and method for providing question and answers with deferred type evaluation |
US8275803B2 (en) | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
US20090307203A1 (en) * | 2008-06-04 | 2009-12-10 | Gregory Keim | Method of locating content for language learning |
US8429196B2 (en) * | 2008-06-06 | 2013-04-23 | Oracle International Corporation | Fast extraction of scalar values from binary encoded XML |
US20100031190A1 (en) * | 2008-07-29 | 2010-02-04 | Yahoo! Inc. | System and method for copying information into a target document |
US8090794B1 (en) * | 2008-08-25 | 2012-01-03 | Intuit Inc. | Technique for customizing displayed content |
US7730061B2 (en) * | 2008-09-12 | 2010-06-01 | International Business Machines Corporation | Fast-approximate TFIDF |
US8914359B2 (en) * | 2008-12-30 | 2014-12-16 | Microsoft Corporation | Ranking documents with social tags |
US8321514B2 (en) | 2008-12-30 | 2012-11-27 | International Business Machines Corporation | Sharing email |
US20100287188A1 (en) * | 2009-05-04 | 2010-11-11 | Samir Kakar | Method and system for publishing a document, method and system for verifying a citation, and method and system for managing a project |
US8332763B2 (en) * | 2009-06-09 | 2012-12-11 | Microsoft Corporation | Aggregating dynamic visual content |
WO2011005854A1 (en) * | 2009-07-07 | 2011-01-13 | Chacha Search, Inc. | Method and system of providing search tools |
US8832133B2 (en) * | 2009-08-24 | 2014-09-09 | Microsoft Corporation | Answering web queries using structured data sources |
US9152883B2 (en) * | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
US8321357B2 (en) * | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
US9213756B2 (en) * | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
US9158833B2 (en) * | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US8521744B2 (en) * | 2009-11-13 | 2013-08-27 | Electronics And Telecommunications Research Institute | Apparatus and method for authoring data in communication system |
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
US9152702B2 (en) * | 2010-04-09 | 2015-10-06 | Yahoo! Inc. | System and method for selecting search results facets |
JP2012027723A (ja) | 2010-07-23 | 2012-02-09 | Sony Corp | 情報処理装置、情報処理方法及び情報処理プログラム |
US8340425B2 (en) * | 2010-08-10 | 2012-12-25 | Xerox Corporation | Optical character recognition with two-pass zoning |
CA2810041C (en) | 2010-09-03 | 2015-12-08 | Iparadigms, Llc | Systems and methods for document analysis |
US8943051B2 (en) | 2010-09-24 | 2015-01-27 | International Business Machines Corporation | Lexical answer type confidence estimation and application |
US8892550B2 (en) | 2010-09-24 | 2014-11-18 | International Business Machines Corporation | Source expansion for information retrieval and information extraction |
US20120078926A1 (en) | 2010-09-24 | 2012-03-29 | International Business Machines Corporation | Efficient passage retrieval using document metadata |
WO2012040356A1 (en) | 2010-09-24 | 2012-03-29 | International Business Machines Corporation | Providing question and answers with deferred type evaluation using text with limited structure |
JP5816936B2 (ja) | 2010-09-24 | 2015-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム |
US20120078062A1 (en) | 2010-09-24 | 2012-03-29 | International Business Machines Corporation | Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system |
WO2012047530A1 (en) | 2010-09-28 | 2012-04-12 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
WO2012047541A1 (en) | 2010-09-28 | 2012-04-12 | International Business Machines Corporation | Providing answers to questions using multiple models to score candidate answers |
EP2622428A4 (en) | 2010-09-28 | 2017-01-04 | International Business Machines Corporation | Providing answers to questions using hypothesis pruning |
KR20140032341A (ko) | 2010-10-12 | 2014-03-14 | 웨스페케 아이앤시. | 언어 학습 교류 |
US8732660B2 (en) * | 2011-02-02 | 2014-05-20 | Novell, Inc. | User input auto-completion |
US8266245B1 (en) * | 2011-10-17 | 2012-09-11 | Google Inc. | Systems and methods for incremental loading of collaboratively generated presentations |
US10430388B1 (en) | 2011-10-17 | 2019-10-01 | Google Llc | Systems and methods for incremental loading of collaboratively generated presentations |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
RU2479017C1 (ru) * | 2011-12-27 | 2013-04-10 | Закрытое акционерное общество "Фирма "АйТи". Информационные технологии" | Система аналитического выявления проблемных вопросов в нормах правового регулирования |
US10331785B2 (en) * | 2012-02-17 | 2019-06-25 | Tivo Solutions Inc. | Identifying multimedia asset similarity using blended semantic and latent feature analysis |
US9785883B2 (en) | 2012-04-27 | 2017-10-10 | Excalibur Ip, Llc | Avatars for use with personalized generalized content recommendations |
US8996530B2 (en) * | 2012-04-27 | 2015-03-31 | Yahoo! Inc. | User modeling for personalized generalized content recommendations |
US9836545B2 (en) | 2012-04-27 | 2017-12-05 | Yahoo Holdings, Inc. | Systems and methods for personalized generalized content recommendations |
EP2875468A1 (en) | 2012-07-20 | 2015-05-27 | Microsoft Technology Licensing, LLC | Color coding of layout structure elements in a flow format document |
US9245428B2 (en) | 2012-08-02 | 2016-01-26 | Immersion Corporation | Systems and methods for haptic remote control gaming |
US10621880B2 (en) | 2012-09-11 | 2020-04-14 | International Business Machines Corporation | Generating secondary questions in an introspective question answering system |
US9992243B2 (en) | 2012-09-17 | 2018-06-05 | International Business Machines Corporation | Video conference application for detecting conference presenters by search parameters of facial or voice features, dynamically or manually configuring presentation templates based on the search parameters and altering the templates to a slideshow |
US9665550B2 (en) * | 2012-11-30 | 2017-05-30 | Michael E. Lee | Expert based integrated annotation software interface and database using e-book technology |
JP6070936B2 (ja) * | 2013-01-31 | 2017-02-01 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法及びプログラム |
US9256341B2 (en) | 2013-03-20 | 2016-02-09 | Microsoft Technology Licensing, Llc | Tracking changes in collaborative authoring environment |
US9547417B2 (en) * | 2013-03-29 | 2017-01-17 | Deere & Company | Retracting shortcut bars, status shortcuts and edit run page sets |
US9727656B2 (en) * | 2013-07-04 | 2017-08-08 | Excalibur Ip, Llc | Interactive sitemap with user footprints |
US10776375B2 (en) | 2013-07-15 | 2020-09-15 | Microsoft Technology Licensing, Llc | Retrieval of attribute values based upon identified entities |
JP6326786B2 (ja) * | 2013-11-29 | 2018-05-23 | ブラザー工業株式会社 | プログラム、情報処理装置、および通信システム |
US10824787B2 (en) | 2013-12-21 | 2020-11-03 | Microsoft Technology Licensing, Llc | Authoring through crowdsourcing based suggestions |
US11514399B2 (en) | 2013-12-21 | 2022-11-29 | Microsoft Technology Licensing, Llc | Authoring through suggestion |
US20150347357A1 (en) * | 2014-05-30 | 2015-12-03 | Rovi Guides, Inc. | Systems and methods for automatic text recognition and linking |
US11120210B2 (en) * | 2014-07-18 | 2021-09-14 | Microsoft Technology Licensing, Llc | Entity recognition for enhanced document productivity |
US9928410B2 (en) * | 2014-11-24 | 2018-03-27 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing object, and method and apparatus for training recognizer |
JP6002256B2 (ja) * | 2015-02-02 | 2016-10-05 | 富士通株式会社 | アノテーション制御方法、アノテーション制御プログラム及びアノテーション制御システム |
US9785620B2 (en) * | 2015-02-05 | 2017-10-10 | Salesforce.Com, Inc. | Creating linked communications |
US10013433B2 (en) * | 2015-02-24 | 2018-07-03 | Canon Kabushiki Kaisha | Virtual file system |
US11916916B2 (en) | 2015-06-04 | 2024-02-27 | Wymsical, Inc. | System and method for authenticating, storing, retrieving, and verifying documents |
US10341353B1 (en) * | 2015-06-04 | 2019-07-02 | Wymsical, Inc. | System and method for issuing, authenticating, storing, retrieving, and verifying documents |
US10564794B2 (en) | 2015-09-15 | 2020-02-18 | Xerox Corporation | Method and system for document management considering location, time and social context |
US9817814B2 (en) * | 2015-12-31 | 2017-11-14 | Accenture Global Solutions Limited | Input entity identification from natural language text information |
US10467318B2 (en) * | 2016-02-25 | 2019-11-05 | Futurewei Technologies, Inc. | Dynamic information retrieval and publishing |
US10404549B2 (en) | 2016-07-28 | 2019-09-03 | At&T Intellectual Property I, L.P. | Applying machine learning to heterogeneous data of existing services to generate a new service |
US10572595B2 (en) * | 2017-04-13 | 2020-02-25 | Baidu Usa Llc | Global normalized reader systems and methods |
KR102004978B1 (ko) * | 2018-03-14 | 2019-07-30 | 주식회사 한글과컴퓨터 | 튜토리얼 기능이 구비된 전자 문서 편집 장치 및 이의 동작 방법 |
CN109002483A (zh) * | 2018-06-22 | 2018-12-14 | 平安科技(深圳)有限公司 | 文档管理方法、装置、计算机设备及存储介质 |
EP3598377A1 (en) * | 2018-07-20 | 2020-01-22 | KBC Groep NV | Improved claim handling |
US11972490B2 (en) | 2018-07-20 | 2024-04-30 | Kbc Groep Nv | Determining a category of a request by word vector representation of a natural language text string with a similarity value |
US10929453B2 (en) * | 2018-08-09 | 2021-02-23 | Nec Corporation | Verifying textual claims with a document corpus |
CN109522411B (zh) * | 2018-11-12 | 2022-10-28 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
JP2021022123A (ja) * | 2019-07-26 | 2021-02-18 | キヤノン株式会社 | ディスプレイを搭載した電子機器、その制御方法、情報処理システム及びプログラム |
US11783224B2 (en) | 2019-12-06 | 2023-10-10 | International Business Machines Corporation | Trait-modeled chatbots |
CN111125566B (zh) * | 2019-12-11 | 2021-08-31 | 贝壳找房(北京)科技有限公司 | 信息获取方法和装置、电子设备和存储介质 |
US11822622B2 (en) * | 2020-05-08 | 2023-11-21 | Docusign, Inc. | Machine learned feature recommendation engine in a digital transaction management platform |
US11947571B2 (en) * | 2021-04-20 | 2024-04-02 | Microsoft Technology Licensing, Llc | Efficient tagging of content items using multi-granular embeddings |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5940614A (en) | 1991-04-18 | 1999-08-17 | International Business Machines Corporation | Hypertext control method and apparatus for displaying help information in an interactive data processing system |
US5367621A (en) | 1991-09-06 | 1994-11-22 | International Business Machines Corporation | Data processing method to provide a generalized link from a reference point in an on-line book to an arbitrary multimedia object which can be dynamically updated |
US5359514A (en) | 1993-08-03 | 1994-10-25 | International Business Machines Corporation | Method and apparatus for facilitating comprehension of on-line documents |
US5822720A (en) | 1994-02-16 | 1998-10-13 | Sentius Corporation | System amd method for linking streams of multimedia data for reference material for display |
US5963205A (en) * | 1995-05-26 | 1999-10-05 | Iconovex Corporation | Automatic index creation for a word processor |
US5930787A (en) | 1995-09-27 | 1999-07-27 | Sharp Kabushiki Kaisha | Method for retrieving related word information, information processing apparatus, method for controlling related information display, and related information display apparatus |
MY119393A (en) | 1996-08-14 | 2005-05-31 | Nippon Telegraph & Telephone | Method and system for preparing and registering homepages, interactive input apparatus for multimedia information, and recording medium including interactive input programs of the multimedia information |
US6189019B1 (en) * | 1996-08-14 | 2001-02-13 | Microsoft Corporation | Computer system and computer-implemented process for presenting document connectivity |
US6029182A (en) * | 1996-10-04 | 2000-02-22 | Canon Information Systems, Inc. | System for generating a custom formatted hypertext document by using a personal profile to retrieve hierarchical documents |
US5999929A (en) * | 1997-09-29 | 1999-12-07 | Continuum Software, Inc | World wide web link referral system and method for generating and providing related links for links identified in web pages |
US6092074A (en) | 1998-02-10 | 2000-07-18 | Connect Innovations, Inc. | Dynamic insertion and updating of hypertext links for internet servers |
US6178430B1 (en) * | 1998-05-11 | 2001-01-23 | Mci Communication Corporation | Automated information technology standards management system |
US6324551B1 (en) | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
US6493702B1 (en) | 1999-05-05 | 2002-12-10 | Xerox Corporation | System and method for searching and recommending documents in a collection using share bookmarks |
EP1087306A3 (en) | 1999-09-24 | 2004-11-10 | Xerox Corporation | Meta-documents and method of managing them |
WO2001031479A1 (en) | 1999-10-27 | 2001-05-03 | Zapper Technologies Inc. | Context-driven information retrieval |
US7757168B1 (en) | 2000-04-07 | 2010-07-13 | Xerox Corporation | Meta-document and method of managing |
US20010047365A1 (en) * | 2000-04-19 | 2001-11-29 | Hiawatha Island Software Co, Inc. | System and method of packaging and unpackaging files into a markup language record for network search and archive services |
-
2001
- 2001-12-05 US US09/683,236 patent/US6732090B2/en not_active Expired - Lifetime
-
2002
- 2002-08-13 BR BRPI0203479-4A patent/BRPI0203479B1/pt not_active IP Right Cessation
- 2002-08-13 EP EP02018111A patent/EP1284461A1/en not_active Withdrawn
- 2002-08-13 JP JP2002235923A patent/JP4365074B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20030033287A1 (en) | 2003-02-13 |
JP2003114906A (ja) | 2003-04-18 |
JP4365074B2 (ja) | 2009-11-18 |
US6732090B2 (en) | 2004-05-04 |
BR0203479A (pt) | 2003-05-13 |
EP1284461A1 (en) | 2003-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0203479B1 (pt) | Sistema para enriquecer conteúdo de documento | |
Attardi et al. | Automatic Web page categorization by link and context analysis | |
US6778979B2 (en) | System for automatically generating queries | |
Collins-Thompson et al. | Personalizing web search results by reading level | |
Kowalski | Information retrieval architecture and algorithms | |
US7882097B1 (en) | Search tools and techniques | |
US6820075B2 (en) | Document-centric system with auto-completion | |
Steichen et al. | A comparative survey of personalised information retrieval and adaptive hypermedia techniques | |
US7117432B1 (en) | Meta-document management system with transit triggered enrichment | |
US7133862B2 (en) | System with user directed enrichment and import/export control | |
US7769757B2 (en) | System for automatically generating queries | |
US20060106793A1 (en) | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation | |
US20060047649A1 (en) | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation | |
US20050022114A1 (en) | Meta-document management system with personality identifiers | |
US20030061201A1 (en) | System for propagating enrichment between documents | |
Lingras et al. | Building an intelligent Web: Theory and practice | |
Schoefegger et al. | A survey on socio-semantic information retrieval | |
Kruschwitz | Intelligent document retrieval: exploiting markup structure | |
Mamoon et al. | Interactive visualization of retrieved information | |
Al-Saffar et al. | Computing information value from rdf graph properties | |
Heenan | Manual and Technology-Based Approaches to Using Classification for the Facilitation of Access to Unstructured Text | |
Mamoon et al. | Visualization of retrieved information: a survey | |
Alcic | Web image context extraction: methods and evaluation | |
Gilchrist | Text retrieval: an overview | |
Tikk et al. | Topic and language specific internet search engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 09/06/2015, OBSERVADAS AS CONDICOES LEGAIS. |
|
B25A | Requested transfer of rights approved | ||
B21F | Lapse acc. art. 78, item iv - on non-payment of the annual fees in time |
Free format text: REFERENTE A 22A ANUIDADE. |