DE102005051429A1 - Verfahren und Software zur Analyse von Forschungsveröffentlichungen - Google Patents

Verfahren und Software zur Analyse von Forschungsveröffentlichungen Download PDF

Info

Publication number
DE102005051429A1
DE102005051429A1 DE102005051429A DE102005051429A DE102005051429A1 DE 102005051429 A1 DE102005051429 A1 DE 102005051429A1 DE 102005051429 A DE102005051429 A DE 102005051429A DE 102005051429 A DE102005051429 A DE 102005051429A DE 102005051429 A1 DE102005051429 A1 DE 102005051429A1
Authority
DE
Germany
Prior art keywords
publications
citation
computer system
author
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102005051429A
Other languages
English (en)
Inventor
Darin Mason McBeath
Stephen Stipdonk
M'hamed El Aisati
Robbertjan Kalff
Ijsbrand Jan Aalbersberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Elsevier BV
Original Assignee
Elsevier BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Elsevier BV filed Critical Elsevier BV
Publication of DE102005051429A1 publication Critical patent/DE102005051429A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/942Legal/academic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

In einem Aspekt weist die Erfindung ein Computersystem zum Durchsuchen von Datenbanken und zum Anzeigen von Suchergebnissen auf, wobei die Datenbanken Informationen im Zusammenhang mit Veröffentlichungen und Autoren speichern, die den Autor, den Titel, das Veröffentlichungsdatum, zitierte Referenzen und Zitierungsreferenzdaten enhalten, und Internetserver in Kommunikation mit diesen Datenbanken, wobei mindestens einer der Internetserver mit einem Web-Browser, der auf dem Computer eines Benutzers resident ist, in Kommunikation ist und zu diesem Daten übertragen kann und wobei die Daten ausreichen, um es dem Browser zu ermöglichen, eine Zitierungsübersichtsseite anzuzeigen, die Folgendes enthält: (a) eine Liste eines oder mehrerer Titel von Veröffentlichungen oder Namen von Autoren und (b) ein oder mehrere angezeigte Zielwörter, die darstellen, wie viele Veröffentlichungen in einer oder mehreren vorgegebenen Kategorien zu jeder der Veröffentlichungen zitieren oder, für Autorennamen, wie viele Veröffentlichungen in einer oder mehreren vorgegebenen Kategorien zu Veröffentlichungen zitieren, auf welchen diese Namen als Autoren aufgelistet sind.

Description

  • QUERVERWEIS ZU VERWANDTEN ANMELDUNGEN
  • Diese Anmeldung beansprucht die vorläufige US-amerikanische Anmeldung Nr. 60/622 710, eingereicht am 27. Oktober 2004. Der gesamte Inhalt dieser vorläufigen Anmeldung wird hiermit durch Bezugnahme eingegliedert.
  • ALLGEMEINER STAND DER TECHNIK & KURZBESCHREIBUNG
  • In einem Aspekt umfasst die vorliegende Erfindung ein Übersichtstool zum Dokumentzitieren (CTO), das es dem Benutzer erlaubt zu sehen, wie oft Dokumente von verschiedenen Ressourcen (bestimmte Autoren, Journale oder Aufzeichnungsablagen) in einer ausgewählten Jahreszeitspanne zitiert wurden. Das CTO entspricht einem Bedarf des wissenschaftlichen Markts für einfach zu verwendende Tools für bibliometrische Analysen.
  • Auf der Übersichtsseite der Dokumentzitierung (siehe 1), wird eine zwei-dimensionale Tabelle verwendet, um Zitierungszählungen anzuzeigen. Es gibt eine Vielfalt von Zitierungszählungen, die von dieser Tabelle bereitgestellt werden:
    • • nach ausgewähltem Dokument und ausgewähltem Jahr (Zellenwert)
    • • nach ausgewähltem Dokument und ausgewähltem Jahresbereich (Reihensumme)
    • • nach allen ausgewählten Dokumenten und nach ausgewähltem Jahr (Spaltensumme)
    • • nach allen ausgewählten Dokumenten und ausgewähltem Jahresbereich (Gesamtsumme)
  • Tausende von Dokumenten können gemeinsam analysiert werden. Der Benutzer kann einem Jahresbereich auswählen, die Anzahl der auf jeder Seite angezeigten Dokumente konfigurieren, wenn mehrere Seiten zur Anzeige erforderlich sind, und anhand der Schaltflächen „Zurück" und „Vor" durch die Seiten browsen. Eine Zitierungsgewichtung kann angezeigt werden, die die Anzahl von Zitierungen (Gesamtsumme) geteilt durch die Anzahl aller ausgewählten Dokumente für den ausgewählten Jahresbereich zeigt.
  • Die Benutzer können auch ein Dokument speichern, das in eine Speicherablage gegeben wird, und auf eine Ergebnisliste „zitiert von" zugreifen, indem sie eine Zitierungszählung anklicken, um alle Zitierungen, die mit dieser Zählung verbunden sind, anzuzeigen. In verschiedenen Ausführungsformen können die Benutzer zusätzlich zum Gebrauch von Maßen des Dokuments und des Jahrs, auf der Grundlage anderer Parameter (Autorennamen, Institute, Journalnamen, Subjekte usw.) in verschiedenen Kombinationen suchen.
  • Obwohl der Fachmann in der Lage ist, ein Zitierungstool und Zitierungsübersichtseiten anzulegen und zu verwenden, die auf der unten stehenden Funktionsbeschreibung beruhen, waren zusätzliche technische Lösungen für technische Probleme erforderlich, um ein Zitierungstool zu erhalten, das Suchergebnisse innerhalb einer kurzen Zeitspanne bereitstellen kann. Die Benutzer sind typisch nicht mit guten Ergebnissen zufrieden, wenn diese Ergebnisse zu lange brauchen, um erzielt zu werden. Diese technischen Lösungen werden hier ebenfalls beschrieben.
  • Eine Strategie, die wahrscheinlich von Personen, die den früheren Stand der Technik kennen, verwendet worden wäre, wäre der Gebrauch eines naiven XQuery-Ansatzes für Zitierungsabfragen.
  • Beispiel:
    Figure 00030001
  • Aber dieser Ansatz hat mehrere Nachteile: (1) der Gebrauch von distinct-values() erfordert, dass alle Werte gleichzeitig in dem Speicher sind; (2) komplexe XPath-Ausdrücke erfordern Nachfiltern von Datenstrukturen, um zu bestätigen, dass Indextreffer richtig sind; und (3) ein E/A ist für jedes Bezugnahmedokument erforderlich, um die Jahrdaten zu holen. Dieser Ansatz skaliert klar nicht gut.
  • Zu den Zielen der vorliegenden Erfindung gehören: (1) Lösen einer Abfrage komplett aus Indexen, (2) Minimieren der Index-bezogenen Festplatten-E/A, und (3) Minimieren der Rechenzeit pro Zelle.
  • Die bevorzugte Lösung, die unten beschrieben ist, beruht auf einer Strategie, die: (a) xdmp:estimate() verwendet, um die Zählaktivitäten auf Nur-Indexberechnungen zu beschränken, und (b) eine Kombination von Indextechniken verwendet, um das Caching der Indexe zu optimieren, so dass die Gleichgewichtszustandsbewertung einer Abfrage festplattenfrei gelöst wird.
  • In einem Aspekt weist die vorliegende Erfindung ein Computersystem zum Durchsuchen von Datenbanken und zum Anzeigen von Suchergebnissen auf, das Folgendes umfasst: eine oder mehrere Datenbanken, die Information speichern, die Veröffentlichungen betreffen, wobei die Information den Autor, den Titel, das Veröffentlichungsdatum, zitierte Referenzen und Zitierungsreferenzdaten enthält, und einen oder mehrere Internetserver, die mit der einen oder mehreren Datenbanken in Kommunikation stehen, wobei mindestens einer des einen oder der mehreren Internetserver in Kommunikation mit einem Web-Browser ist, der auf dem Computer eines Benutzers resident ist und betrieben werden kann, um Daten zum Web-Browser zu übertragen, und wobei die Daten ausreichen, um es dem Browser zu ermöglichen, eine Zitierungsübersichtseite anzuzeigen, die Folgendes enthält: (a) eine Liste mit einem oder mehreren Titeln von Veröffentlichungen und (b) ein oder mehrere angezeigte Zahlwörter, die darstellen, wie viele Veröffentlichungen einer oder mehrerer vorgegebener Kategorien zu jeder der Veröffentlichungen zitieren.
  • Bei verschiedenen Ausführungsformen in verschiedenen Kombinationen: (1) entspricht eine oder entsprechen mehrere vorgegebenen Kategorien Veröffentlichungsjahren, (2) stellt oder stellen mindestens eines des einen oder der mehreren angezeigten Zahlwörter die Gesamtsumme dessen dar, wie viele Veröffentlichungen aller vorgegebenen Kategorien zu einer der aufgelisteten Veröffentlichungen zitieren, (3) weist die Zitierungsübersichtsseite eine Zitierungsgewichtungsanzeige auf, die die Gesamtsumme geteilt durch die Anzahl der Veröffentlichungen darstellt, die auf der Zitierungsübersichtsseite aufgelistet sind, (4) sind die angezeigten Zahlwörter Hyperlinks, und/oder (5) reichen die Daten aus, um es dem Browser zu ermöglichen, eine Ergebnisseite „zitiert von" anzuzeigen, die mit einem des einen oder der mehreren angezeigten Zahlwörter verbunden ist und Veröffentlichungen in einer Kategorie auflistet, die einem des einen oder der mehreren angezeigten Zahlwörter entspricht.
  • Bei einem weiteren Aspekt umfasst die Erfindung ein Computersystem zum Durchsuchen von Datenbanken und zum Anzeigen von Suchergebnissen, das Folgendes umfasst: eine oder mehrere Datenbanken, die Information in Zusammenhang mit Veröffentlichungen speichern, wobei die Daten den Autor, den Titel, das Veröffentlichungsdatum, zitierte Referenzen und Zitierungsreferenzdaten enthalten, und einen oder mehrere Internetserver in Kommunikation mit der einen oder den mehreren Datenbanken, wobei mindestens einer des einen oder der mehreren Internetserver in Kommunikation mit einem Web-Browser, der auf dem Computer eines Benutzers resident ist, und betreibbar ist, um Daten zu diesem Web-Browser zu übertragen, und wobei die Daten ausreichen, um es dem Browser zu ermöglichen, eine Zitierungsübersichtsseite anzuzeigen, die Folgendes enthält: (a) eine Liste eines oder mehrerer Namen von Autoren und (b) für jeden der Namen ein oder mehrere Zahlwörter, die darstellen, wie viele Veröffentlichungen eines Typs oder mehrerer vorgegebener Typen zu Veröffentlichungen zitieren, auf welchen der Name als ein Autor oder Mitautor zitiert ist.
  • Bei verschiedenen Ausführungsformen in verschiedenen Kombinationen: (1) entspricht/entsprechen die eine oder mehreren vorgegebenen Kategorien Veröffentlichungsjahren, (2) stellt mindestens eines des einen oder der mehreren angezeigten Zahlwörter eine Gesamtsumme dessen dar, wie viele Veröffentlichungen aller vorgegebenen Kategorien zu irgendeinem der aufgelisteten Autorennamen zitieren, (3) umfasst die Zitierungsübersichtsseite eine Zitierungsgewichtungsanzeige, die die Gesamtsumme geteilt durch die Anzahl der Namen von Autoren darstellt, die auf der Zitierungsübersichtsseite aufgelistet sind, (4) sind die angezeigten Zahlwörter Hyperlinks, (5) reichen die Daten aus, um es dem Browser zu ermöglichen, eine Ergebnisseite „zitiert von" anzuzeigen, die mit einem des einen oder der mehreren Zahlwörter verbunden ist und Veröffentlichungen in einer Kategorie auflistet, die dem einen oder den mehreren angezeigten Zahlwörtern entsprechen, (6) umfasst die Zitierungsübersichtsseite eine Schaltfläche zum Ausschließen von Autorselbstzitierungen, die verwendet werden kann, um eine Anfrage zu mindestens einem des einen oder der mehreren Internetserver für Daten zu senden, die ausreichen, um es dem Browser zu ermöglichen, eine Zitierungsübersichtsseite mit ausgeschlossenen Autorselbstzitierungen für einen ausgewählten Namen eines Autors anzuzeigen, (7) umfasst die Zitierungsübersichtsseite mit ausgeschlossenen Autorselbstzitierungen für einen ausgewählten Namen eines Autors ein erstes angezeigtes Zahlwort, das darstellt, wie viele Veröffentlichungen in einer der vorgegebenen Kategorien zu Veröffentlichungen zitieren, die den ausgewählten Namen als einen Autor auflisten, und/oder (8) umfasst die Zitierungsübersichtsseite ein zweites angezeigtes Zahlwort, das darstellt, wie viele Veröffentlichungen in der einen der vorgegebenen Kategorien, die aber den Namen als einen Autor nicht auflistet, die Veröffentlichungen zitierten, die den Namen als einen Autor auflisten.
  • Bei anderen Ausführungsformen: (1) ist mindestens eine der einen oder mehreren Datenbanken eine Datenbank auf XML-Basis, (2) kann die Datenbank auf XML-Basis betrieben werden, um anhand von XQuery-Aussagen durchsucht zu werden, die zählen, wie viele Veröffentlichungen in einer vorgegebenen Kategorie zu einer vorgegebenen Veröffentlichung zitieren, (3) ist mindestens eine der XQuery-Aussagen als ein geschätzter XPath geschrieben und werden unnötige XPath-Schritte eliminiert, und (4) ist mindestens eine der XQuery-Aussagen mit einem oder mehreren Prädikatindexen geschrieben, und ist mindestens einer der Prädikatindexe in den Speicher vermappt.
  • Weitere Aspekte und Ausführungsformen der Erfindung ergeben sich für den Fachmann nach der Durchsicht der unten bereitgestellten Zeichnungen, Detailbeschreibung und Ansprüche.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 stellt eine bevorzugte Dokumentzitierungs-Übersichtsseite dar.
  • 2 stellt eine bevorzugte Autorennamenlistenseite dar.
  • 3 stellt eine bevorzugte Quelleninformationsseite dar.
  • 4 stellt eine bevorzugte Aufzeichnungsablageseite dar.
  • 5 stellt eine bevorzugte Warteseite dar.
  • 6 stellt eine bevorzugte Fehlerseite dar.
  • 7 stellt eine bevorzugte Ergebnisseite dar.
  • 8 stellt eine bevorzugte druckerfreundliche Seite dar.
  • 9 ist ein Aktivitätsdiagramm, das bevorzugte Prozesse zusammenfasst.
  • 10 stellt eine bevorzugte Autorensuchformularseite dar.
  • 11 stellt eine bevorzugte Autorensuchergebnisseite dar.
  • 12 stellt eine bevorzugte Autorenzitierungsübersichtsseite dar.
  • 13 stellt eine bevorzugte Seite zum Ausschließen von Autorselbstzitierungen dar.
  • 14 stellt eine bevorzugte Zitierungsübersichtsseite mit ausgeschlossenen Autorenselbstzitierungen dar.
  • 15 stellt eine bevorzugte „Meine Liste"-Seite dar.
  • 16 stellt eine bevorzugte Meine-Liste-Dokumentzitierungsübersichtsseite dar.
  • 17 stellt eine bevorzugte Meine-Liste-Dokumentzitierungsübersichtsseite mit einem Rollover-Toolspitzen-Feature dar.
  • 18 stellt Bauteile einer bevorzugten CTO-Systemumsetzung dar.
  • 19 stellt Probetestinhalt dar.
  • 20 & 21 stellen beispielhafte Testergebnisse dar.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Verschiedene Ausführungsformen der vorliegenden Erfindung werden unten beschrieben. Zur Erleichterung der Bezugnahme nennen wir diese Ausführungsformen gemeinsam „CTO". Wie der Fachmann jedoch erkennen wird, ist die Erfindung selbst nicht auf diese Ausführungsformen oder auf bestimmte darin besprochene Details beschränkt. Der Geltungsbereich der Erfindung ist allein durch die anliegenden Patentansprüche definiert, wie sie präsentiert und/oder danach geändert oder durch andere, später hinzugefügte Ansprüche definiert sind.
  • Bei einer Ausführungsform wird das CTO verbunden mit Scopus, einer Suchmaschine verwendet, die ebenfalls in der vorläufigen US-amerikanischen Patentanmeldung Nr. 60/622 710, eingereicht am 27. Oktober 2004, beschrieben ist, und die man auf der Scopus-Website unter www.scopus.com findet.
  • Eine Dokumentzitierungsübersichtsseite (unten beschrieben) ist vorzugsweise ausgehend von den folgenden Stellen auf der Scopus-Website zugänglich (obwohl der Fachmann erkennt, dass analoge Seiten auf anderen Such-Sites ebenfalls funktionieren, um mit einer Dokumentzitierungsübersichtsseite zu verbinden):
  • 1. Ausgehend von einer Autorennamenliste (siehe 2)
  • Durch Aktivieren der Kontrollkästchen 210 neben den Autorennamen und Klicken auf eine „Zitierungsübersicht"-Schaltfläche 220, gelangen Benutzer zu der Dokumentzitierungsübersichtsseite (siehe 1). Diese Seite enthält alle Dokumente der ausgewählten Autoren. Der Jahresbereich beträgt standardgemäß die 3 letzen Jahre plus das laufende Jahr.
  • 2. Ausgehend von einer Quelleninformationsseite (siehe 3)
  • Durch Klicken auf einen „Zitierungsübersichts"-Link 310 neben einem Band/einer Herausgabe/einem Jahr, gelangt der Benutzer zu der Dokumentzitierungsübersichtsseite (siehe 1). Diese Seite enthält alle Dokumente dieses Bands/dieser Ausgabe/dieses Jahrs. Standardgemäß beträgt der Jahresbereich die 3 letzten Jahre plus das laufende Jahr eingestellt.
  • 3. Aus einer Aufzeichnungsablageseite (siehe 4)
  • Durch Aktivieren der Kontrollkästchen 410 neben den Dokumenten in einer Aufzeichnungsablage (aktuell oder gespeichert) und durch Klicken auf eine „Zitierungsübersicht"-Schaltfläche 420, gelangt der Benutzer zu der Dokumentzitierungsübersichtsseite (siehe 1). Diese Seite enthält alle aus dieser Aufzeichnungsablage ausgewählten Dokumente. Standardgemäß beträgt der Jahresbereich die 3 letzen Jahre plus das laufende Jahr, kann jedoch angepasst werden.
  • Warteseite
  • Das Zitierungsanalyseverfahren ist ein im Hinblick auf das Rechnen teurer Vorgang und kann langsam sein. Eine Warteseite (siehe 5) kann angezeigt werden, bevor die Analysedaten dargestellt werden. Eine Stoppschaltfläche 510 ist auf der Warteseite bereitgestellt, um es dem Benutzer zu ermöglichen, zu der Abrufseite zurückzukehren. Werden zum Beispiel zum Abschließen des typischen Analyseprozesses 60 Sekunden erwartet, kann eine stationäre 60-Sekundenfortschrittsleiste auf der Seite angezeigt werden. Überschreitet die Prozesszeit eine vorausbestimmte Zeit (zum Beispiel 80 Sekunden), kann eine Fehlerseite angezeigt werden (siehe 6). Eine Zurück-Schaltfläche 610 auf der Fehlerseite funktioniert ähnlich wie die Stoppschaltfläche 510 auf der Warteseite.
  • Zitierungsübersichtsseite
  • Sobald die Zitierungsanalysedaten bereit sind, wird eine Dokumentzitierungsübersichtsseite (siehe 1) angezeigt. Die auf dieser Seite dargestellte Information enthält eine zweidimensionale Tabelle zum Anzeigen verschiedener Zitierungszählungen (Zellwert 110, Reihensumme 120, Spaltensumme 130 und Gesamtsumme 140), die zu diesen Dokumenten gehören. Eine Zitierungsgewichtung 150 kann unter der Kontrolle einer Systemkonfigurationsvariablen, die die Anzahl von Zitierungen (Gesamtsumme) geteilt durch die Anzahl der Dokumente 170 für den ausgewählten Jahresbereich (160) darstellt, angezeigt werden. In 1 hat das Zitierungsgewicht einen Wert von 2,58 (Gesamtsumme von 160 geteilt durch die Anzahl (45) von Dokumenten).
  • Auf der Dokumentzitierungsübersichtsseite ändern das Auswählen des Startjahres und/oder Endjahres aus den entsprechenden Aufklappmenüs 160 und das Klicken auf die Schaltfläche „Aktualisieren" 180 den Jahresbereich auf der Zitierungsübersichtstabelle und bewirkt, dass der Zitierungsanalyseprozess neu mit dem neu ausgewählten Jahresbereich durchgeführt wird. Das Auswählen eines Zahlworts in dem Anzeigedokumente-Aufklappmenü 190 ändert die maximale Anzahl von Dokumenten, die pro Seite angezeigt werden. Das Klicken auf die Schaltflächen „Zurück" oder „Vor" browst durch mehrere Seiten.
  • „Zitiert von"-Ergebnisseite
  • Das Klicken auf einen Zitierungszählungslink auf der Dokumentzitierungsübersichtsseite bringt die Benutzer zu einer „Zitiert von"-Ergebnisseite (siehe 7), die alle Zitierungen auflistet, die mit dieser Zitierungszählung verbunden sind. Diese Ergebnisseite hat Funktionalitäten einer normalen Scopus-Suchergebnisseite und dazu noch eine Infor mationszusammenfassung 710 für die aufgelisteten Zitierungsdokumente.
  • Druckerfreundliche Seite
  • Durch Klicken auf die Schaltfläche „Drucken" 185 auf der Dokumentzitierungsübersichtsseite gelangt der Benutzer zu einer „druckerfreundlichen" Seite (siehe 8), die nur die Zitierungsinformation in der laufenden Seite (bei einem mehrseitigen Fall) enthält und nicht die ganze Tabelle. Diese Seite enthält auch eine Copyright-Aussage 810 und einen Datumstempel 820.
  • Gespeicherte Aufzeichnungs-Ablage-Seite
  • Das Klicken auf den Link 195 „In die Liste speichern" auf der Dokumentzitierungsübersichtsseite speichert alle in der Zitierungsübersichtsanalyse betroffenen Dokumente (auf allen Seiten eines mehrseitigen Falls) in eine Ablage für gespeicherte Aufzeichnungen (siehe 4).
  • 9 stellt ein Aktivitätsdiagramm dar, das die oben beschriebenen Aktivitäten zusammenfasst. Die EIDs sind Autoren-IDs.
  • Bei einer anderen Ausführungsform greift ein Benutzer zuerst auf das Autorensuchformular (siehe 10) zu und gibt dann den Namen eines Autors (in diesem Beispiel „Brown") ein. Eine Autorensuchergebnisseite wird angezeigt (siehe 11), die Autoren auflistet, die als den eingegebenen Suchbegriffen entsprechend identifiziert wurden (in diesem Beispiel alle Autoren, deren Familienname „Brown" lautet oder mit „Brown" beginnt).
  • Ein Benutzer wählt dann einen oder mehrere der aufgelisteten Autoren über Kontrollkästchen 1110 aus. In diesem Beispiel wurde der Autor „Brownlee D.E." ausgewählt. Alle Dokumente, die Veröffentlichungen dieses Autors zitieren, sind auf einer Autorenzitierungsübersichtsseite (siehe 12) aufgelistet.
  • Ein Benutzer kann dann auf die Schaltfläche „Autorenselbstzitierungen ausschließen" 1210 klicken, um Veröffentlichungen aus der Zitierungsübersicht auszuschließen, die der ausgewählte Autor geschrieben hat (in diesem Beispiel Veröffentlichungen des Autors „Brownlee D.E."). Wurden auf der Autorensuchergebnisseite (siehe 11) mehrere Autoren ausgewählt, kann ein Benutzer auswählen, für welche dieser Autoren die selbst geschriebenen Zitierungen auszuschließen sind (siehe 13).
  • Eine Zitierungsübersichtsseite mit ausgeschlossenen Selbstzitierungen wird dann angezeigt (siehe 14). Eine Liste 1410 von Autoren mit ausgeschlossenen Selbstzitierungen wird angezeigt. Die schwarzen Zitierungsnummern 1420 (größerer Schriftsatz) werden als Hyperlinks zu Suchergebnisseiten (siehe 7) gezeigt. Die grauen Zahlwörter 1430 in Klammern sind Zahlwörter von Zitierungen, die Selbstzitierungen enthalten. Die Farben oder anderen Mittel, die verwendet werden, um diese zwei Zitierungszählungen zu unterscheiden, werden natürlich von den Systemverwaltern ausgewählt.
  • Bei einer anderen Ausführungsform kann ein Benutzer auf eine Zitierungsübersichtsseite ausgehend von einer Meine-Liste-Seite von Scopus (siehe 15) zugreifen. Der Benutzer hakt die Kontrollkästchen 1510, die den interessanten Dokumenten entsprechen ab, und klickt dann auf eine „Zitierungsübersicht"-Schaltfläche 1520. Dadurch wird die Meine-Liste-Dokumentzitierungsübersichtsseite angezeigt (siehe 16). Die Zitierungsdaten jedes der ausgewählten Dokumente werden angezeigt.
  • 17 stellt dar, wie ein Benutzer mit dem Mauszeiger über einen kurzen Dokumenttitel fahren kann, so dass eine erweiterte Beschreibung des Titels angezeigt wird.
  • Wie oben besprochen, beruht eine bevorzugte Ausführungsform des CTO auf einer Strategie, bei der (a) xdmp:estimate() verwendet wird, um die Zählungstätigkeiten auf Nur-Indexzählungen zu beschränken, und (b) eine Kombination von Indextechniken verwendet wird, um das Caching von Indexen zu optimieren, so dass eine Gleichgewichtszustandsbewertung einer Abfrage festplattenfrei gelöst wird. Die Auflagen umfassen: (a) eine Kurzfassung pro Abstrakt oder ein Abstrakt pro Kurzfassung, und (b) Beachten potenzieller Doppelzählungen obsoleter Abstrakte mit ihren Aktualisierungen.
  • Xdmp:estimate() ist eine Mark Logic-Funktion. Die auf XML basierenden Mark Logic-Server und Dienste sind dem Fachmann gut bekannt. Siehe dazu die Website MarkLogic.com, deren Inhalt hiermit durch Bezugnahme zum Beschreiben der Mark Logic-Technik eingegliedert wird. Diese Technik gehört nicht zu der beanspruchten Erfindung, das Verstehen dieser Technik verleiht jedoch den Zusammenhang für bestimmte Aspekte der Erfindung.
  • Die erwünschte Optimierung beruht auf dem Reduzieren einer Abfrage auf ihre elementarste Form und dann auf dem Optimieren in mehreren Schritten. Für jede Zelle muss ein XQuery-Ausdruck der folgenden Form beurteilt werden:
    Xdmp:estimate (Elemente, die im Jahr N veröffentlicht wurden, die das Element mit eid E referenzieren)
  • Unten steht eine repräsentative XQuery-Aussage (ähnlich wie SQL), die von dem CTO verwendet wird.
  • Figure 00140001
  • Figure 00150001
  • Dieser Code zählt wie viele Dokumente das laufende Dokument für ein gegebenes Jahr referenzieren. Das erfolgt durch die folgenden Schritte:
    • 1. Die Dokumente finden, die ein id-scp-Referenzelement gleich der „eid" für das laufende Dokument enthalten.
    • 2. Innerhalb der oben ausgewählten Dokumente die Dokumente zählen, die ein Jahreselement gleich einem gegebenen Jahreswert (zum Beispiel 2000) enthalten.
  • Der erste Optimierungsschritt besteht im Schreiben der Abfrage als ein geschätzter XPath:
    Figure 00150002
  • Danach eliminiert man unnütze XPath-Schritte, um die folgende Abfrage zu erzielen:
    Figure 00150003
  • Man beachte, dass: (a) das <Jahr>-Element allein verwendet wird, (b) <itemid> sowohl im Kopf- als auch im Fußteil auftritt, und (c) die Beurteilung des zweiten Prädikats entlang von zwei Dimensionen „unzuverlässig" ist:
    reference//itemid und itemid[@attribute=value]=value.
  • Der dritte Optimierungsschritt umfasst das Neumapping des zweiten Prädikats (durch Anlegen eines neuen XML-Elements in den Scopus-Abstrakten), um Zuverlässigkeit zu erzielen:
    Figure 00160001
  • Man beachte, dass: (a) jetzt nur noch drei Index-Schnitte pro Zellknoten bestehen, (b) //item-Index nach der ersten Zelle gecached wird, (c) [.//year=$column-year]-Index nach der ersten Reihe gecached wird, und (d) [.//reference-id-scp=$eid]-Index auf einer Basis pro Reihe geholt wird.
  • Ein „range index" ist eine spezifische Mark Logic-Fähigkeit, ähnlich mit Indexen, die im Allgemeinen für die meisten relationalen Datenbanken angelegt werden (wie zum Beispiel für Oracle). Durch Leverage eines range index bringt Mark Logic jedoch diesen ganzen Index in den Speicher, wenn der Mark Logic-Server startet. In dem oben stehenden Beispiel wäre ein range index für eid angelegt worden. Der Mark Logic-Server verwendet dann eine Funktionalität des Basisbetriebssystems (Speicher-Maps genannt), um Lookups von dem range index zu lösen, der in dem Speicher enthalten ist. Obwohl es für das CTO nicht wesentlich ist, ist es wichtig, dass der Index in den Speicher gebracht wird, denn das eliminiert so gut wie die ganze E/A-Verarbeitung für eine Abfrage. Indem so gut wie alle E/A eliminiert werden (und indem die Indexe im Speicher behalten werden), kann man die Hochgeschwindigkeitsleistung für das CTO erzielen.
  • Die Server auf XML-Basis von Mark Logic und Dienste sind dem Fachmann gut bekannt. Siehe die Website MarkLogic.com, deren Inhalt hiermit durch Bezugnahme zur Beschreibung der Mark Logic-Technik eingegliedert wird. Diese Technik gehört nicht zu der beanspruchten Erfindung, das Verstehen dieser Technik verleiht jedoch gewissen Aspekten der Erfindung den Zusammenhang.
  • Ein vierter bevorzugter Optimierungsschritt umfasst die Cache-Optimierung durch Speichermapping des zweiten Prädikats des range index:
    Figure 00170001
  • Zu beachten ist, dass alle drei Indexe nun gecached sind, und dass beim Sortieren des Speicher-gemappten range index in Dokumentenreihenfolge vor dem Schnitt nur kleine inkrementale Kosten anfallen.
  • Wenn man den Index-Schnitt ansieht:
    Figure 00170002
    sieht man, dass die Leistung durch den Schnitt mit langen Indexen dominiert wird. Ferner ist zu beachten, dass die range indexes vor dem Schnitt sortiert werden müssen.
  • Um diese Probleme zu lindern, kann ein fünfter Optimierungsschritt (oder Unterschritt) verwendet werden:
    • (1) Eliminieren der Dummy-Aufzeichnungen:
      Figure 00170003
      Figure 00180001
    • (2) Eliminieren der Kernaufzeichnungen ohne Referenzen:
      Figure 00180002
    • (3) Eliminieren der Notwendigkeit, die Kernaufzeichnungen überhaupt zu berücksichtigen:
      Figure 00180003
  • Teststrategie: Der aktuelle Datensatz ist für das genaue Modellieren nicht relevant, denn es brauchen während Abfragebewertung keine E/A aktueller Elemente durchgeführt zu werden. Testansatz: (a) Bauen „simulierter" Datensätze in voller Größe mit entsprechenden (1:1) Indexen für die von der CTO-Abfrage verwendeten Indexglieder, (b) Benchmarking der Full-Flight-Abfragelösung im Vergleich zu simulierten Datensätzen und (3) Betrachten der Auswirkung der Deltas im Material-Setup zwischen den verschiedenen Lagen.
  • Mustertestinhalt – siehe 19
  • Testannahmen
  • Grundlegende Annahmen: (a) 30 MB Dummy-Aufzeichnungen zu je 1 K, (b) 18,5 MB Kernaufzeichnungen ohne Referenzen zu je 9 K und (c) 11 MB Kernaufzeichnungen mit Referenzen zu je 100 K. Ferner: 30 Referenzen pro Aufzeichnungsdurchschnitt (etwas höher als 26/27) – implementiert als hätten die Aufzeichnungen zwischen 0 und 60 Referenzen. Verteilung der Aufzeichnungen über die Jahre: Annehmen, dass 80 % der Aufzeichnungen aus einer 10-Jahresspanne kommen und maximal 8 % der Kernaufzeichnungen in einem einzigen Jahr annehmen. Schließlich annehmen, dass die itemid[@idtype="SCP"]-Elementwerte positive Ganzzahlen zu 32 Bit sind.
  • Testergebnisse – siehe 10 und 21.
  • Die Tests nehmen 29.000.000 Gesamtaufzeichnungen (Scopus-Abstrakte) gleichförmig verteilt durch 10 Forests über 2 Doppel-CPU-Solarissysteme (SunFire v240s), getrennter Einzelabfrage-Beurteilungsserver, alle Server CIS 2.2-Prealpha an. Von diesen 29.000.000 Aufzeichnungen enthalten 11.000.000 Aufzeichnungen Referenzinformation.
  • Unten besteht eine typische Abfrage in der Berechnung von 100 Zellen. Eine Zelle entspricht dem Querschnitt des Werts eines Jahrs (zum Beispiel 1996) und allen Referenzen für ein vorgegebenes Dokument für dieses Jahr.
  • Die folgende Abfrage mappiert zu dem vierten Optimierungsschritt:
    xdmp:estimate(//item[.//year=$year][.//reference-id-scp=$eid])
    Abfragezeit (95 % der Abfragen): 280 ms, pro Zelle: 2,8 ms.
  • Diese Abfrage wurde in Produktion verwendet.
  • Die folgende Abfrage mappiert zu dem fünften Optimierungsschritt, Teil 1 (Eliminieren der Dummy-Aufzeichnungen).
    xdmp:estimate(//references[.//year=$year][.//reference-id-scp=$eid])
    Abfragezeit (95 % der Abfragen): 187 ms, pro Zelle: 1,87 ms.
  • Die folgende Anfrage mappiert zu der fünften Optimierung, Teil 3 (Eliminieren des Bedarfs der Berücksichtigung von Kernaufzeichnungen).
    xdmp:estimate(//core-1997[.//reference-id-scp=$eid])
    Abfragezeit (95 % der Abfragen): 140 ms, pro Zelle: 1,4 ms.
  • Die „naive" Abfrage des früheren Stands der Technik (siehe Besprechung des allgemeinen Stands der Technik und Kurzdarstellung oben) würde angesichts eines Dokumentencorpus dieser Größe nicht einmal laufen. Das ist weitgehend auf die Anzahl physikalischer E/A zurückzuführen, die beim Lösen der Abfrage des früheren Stands der Technik erforderlich wären. Im Wesentlichen wäre ein E/A für nahezu jedes Dokument (das Referenzen enthält) in dem Corpus erforderlich gewesen (in diesem Fall fast 11 Millionen). Angenommen, dass man 10 ms pro physikalischem E/A braucht und jeder der 10 Forests auf einer getrennten Festplatte verteilt ist, hätte das zu der folgenden angenäherten Mindest-Abfragelösungszeit und Berechnungszeit pro Zelle geführt:
    Abfragezeit: 11.000 s (oder etwa 180 Minuten), pro Zelle 110 s (oder etwa 1,8 Minuten).
  • Es ist klar, dass die optimierte Abfrage signifikant schneller ist als die Abfrage des früheren Stands der Technik. Auch wenn nur der vierte Optimierungsschritt verwendet wird, wird die Suchzeit pro Zelle um (110 s – 0,0028 s)/110 s = 99,9975 % verringert. Mit anderen Worten braucht der Abfrageansatz des früheren Stands der Technik fast 40.000 Mal so lang wie der neue Ansatz (mit dem vierten Optimierungsschritt).
  • Eine weitere Geschwindigkeitsverbesserung kann durch Gebrauch des fünften Optimierungsschritts (oder Teile dieses) erzielt werden. Die Implementierung dieses Schritts kann jedoch das Hinzufügen von Elementen zu den Daten erfordern, und das kann unter bestimmten Umständen nicht erwünscht sein. Das System kann eine konsistente Leistung ungeachtet des Abfragetyps verwirklichen (und ohne die Notwendigkeit, zusätzliche Elemente zu den Daten hinzuzufügen), ohne den fünften Schritt durchzuführen.
  • Während besondere Elemente, Ausführungsformen und Anwendungen der vorliegenden Erfindung gezeigt und beschrieben wurden, ist es klar, dass die Erfindung nicht auf diese beschränkt ist, denn Änderungen können durch den Fachmann durchgeführt werden, insbesondere angesichts der oben stehenden Lehre. Die anliegenden Ansprüche sollen alle solchen Änderungen, die innerhalb des Geltungsbereichs der Erfindung liegen, decken. Obwohl hier mehrere Ausführungsformen beschrieben wurden, sind diese Ausführungsformen nicht unbedingt getrennt, Ausführungsformen können Merkmale gemeinsam haben.

Claims (14)

  1. Computersystem zum Durchsuchen von Datenbanken und Anzeigen von Suchergebnissen, umfassend: eine oder mehrere Datenbanken, die Information in Zusammenhang mit Veröffentlichungen speichern, wobei die Information den Autor, den Titel, das Datum der Veröffentlichung, zitierte Referenzen und Zitierungsreferenzdaten enthält, und ein oder mehrere Internetserver in Kommunikation mit der einen oder den mehreren Datenbanken, wobei mindestens einer des einen oder der mehreren Internetserver mit einem Web-Browser, der auf dem Computer eines Benutzers resident ist, in Kommunikation ist und betrieben werden kann, um zu dem Web-Browser Daten zu übertragen, und wobei die Daten ausreichen, um es dem Browser zu ermöglichen, eine Zitierungsübersichtsseite anzuzeigen, die Folgendes aufweist: (a) eine Liste eines oder mehrerer Titel von Veröffentlichungen und (b) ein oder mehrere angezeigte Ziffern, die darstellen, wie viele Veröffentlichungen einer oder mehrerer vorgegebener Kategorien zu jeder der Veröffentlichungen zitieren.
  2. Computersystem nach Anspruch 1, wobei die eine oder die mehreren vorgegebenen Kategorien Veröffentlichungsjahren entsprechen.
  3. Computersystem nach Anspruch 1, wobei mindestens eine oder mehrere der angezeigten Ziffern eine Gesamtsumme dessen darstellt, wie viele Veröffentlichungen aller vorgegebenen Kategorien zu irgendeiner der aufgelisteten Veröffentlichungen zitieren, wobei die Zitierungsübersichtsseite ferner eine Zitierungsgewichtungsanzeige aufweist, die die Gesamtsumme geteilt durch wie viele Veröffentlichungen auf der Zitierungsübersichtsseite aufgelistet sind, darstellt.
  4. Computersystem nach Anspruch 1, wobei die angezeigten Ziffern Hyperlinks sind und wobei die Daten ausreichen, um es dem Browser zu ermöglichen, eine nach „Zitiert von"-Ergebnisseite anzuzeigen, die mit dem einen oder mehreren angezeigten Ziffern verbunden ist und Veröffentlichungen in einer Kategorie anzeigt, die einer der einen oder der mehreren angezeigten Ziffern entspricht.
  5. Computersystem zum Durchsuchen von Datenbanken und Anzeigen von Suchergebnissen, das Folgendes umfasst: eine oder mehrere Datenbanken, die Information in Zusammenhang mit Veröffentlichungen speichern, wobei die Information den Autor, den Titel, das Veröffentlichungsdatum, zitierte Referenzen und Zitierungsreferenzdaten enthält; und einen oder mehrere Internetserver in Kommunikation mit der einen oder mehreren Datenbanken, wobei mindestens einer des einen oder der mehreren Internetserver mit einem Web-Browser, der auf dem Computer eines Benutzers resident ist, in Kommunikation ist und betrieben werden kann, um Daten zu diesem zu übertragen, und wobei die Daten ausreichen, um es dem Browser zu ermöglichen, eine Zitierungsübersichtsseite anzuzeigen, die Folgendes enthält: (a) eine Liste eines oder mehrerer Namen von Autoren und (b) für jeden der Namen ein oder mehrere Ziffern, die anzeigen, wie viele Veröffentlichungen des einen Typs oder der mehreren vorgegebenen Typen zu Veröffentlichungen zitieren, auf welchen dieser Name als ein Autor oder Mitautor aufgelistet ist.
  6. Computersystem nach Anspruch 5, wobei die eine oder die mehreren vorgegebenen Kategorien Veröffentlichungsjahren entsprechen.
  7. Computersystem nach Anspruch 5, wobei mindestens eine des einen oder der mehreren angezeigten Ziffern eine Gesamtsumme dessen darstellt, wie viele Veröffentlichungen aller vorgegebenen Kategorien zu einem der aufgelisteten Namen von Autoren zitieren, und wobei die Zitierungsübersichtsseite ferner eine Zitierungsgewichtungsanzeige aufweist, die die Gesamtsumme geteilt durch wie viele Namen von Autoren auf der Zitierungsübersichtsseite aufgelistet sind, darstellt.
  8. Computersystem nach Anspruch 5, wobei die angezeigten Ziffern Hyperlinks sind und wobei die Daten ausreichen, um es dem Browser zu ermöglichen, eine „Zitiert von"-Ergebnisseite anzuzeigen, die mit einem der einen oder der mehreren angezeigten Ziffern verbunden ist und Veröffentlichungen in einer Kategorie auflistet, die einem der einen oder der mehreren angezeigten Ziffern entspricht.
  9. Computersystem nach Anspruch 5, wobei die Zitierungsübersichtsseite eine Schaltfläche zum Ausschließen von Selbstzitierungen von Autoren aufweist, um eine Anfrage zu mindestens einem des einen oder der mehreren Internetserver für Daten zu senden, die ausreicht, um es dem Browser zu ermöglichen, eine Zitierungsübersichtsseite mit ausgeschlossenen Autorselbstzitierungen für einen ausgewählten Namen eines Autors anzuzeigen.
  10. Computersystem nach Anspruch 9, wobei die Zitierungsübersichtsseite mit ausgeschlossenen Autorselbstzitierungen für einen ausgewählten Namen eines Autors ein erstes angezeigtes Zahlwort aufweist, das darstellt, wie viele Veröffentlichungen in einer der vorgegebenen Kategorien zu Veröffentlichungen zitieren, die den ausgewählten Namen als einen Autor auflisten, und ferner ein zweites angezeigtes Zahlwort aufweist, das darstellt, wie viele Veröffentlichungen in einer der vorgegebenen Kategorien, die den Namen als Autor aber nicht auflisten, zu den Veröffentlichungen zitieren, die den Namen als einen Autor auflisten.
  11. Computersystem nach Anspruch 1, wobei mindestens eine der einen oder mehreren Datenbanken eine Datenbank auf XML-Basis ist.
  12. Computersystem nach Anspruch 11, wobei die Datenbank auf XML-Basis betrieben werden kann, um unter Gebrauch von XQuery-Aussagen durchsucht zu werden, die zählen, wie viele Veröffentlichungen in einer vorgegebenen Kategorie zu einer vorgegebenen Veröffentlichung zitieren.
  13. Computersystem nach Anspruch 5, wobei mindestens eine der einen oder mehreren Datenbanken eine Datenbank auf XML-Basis ist.
  14. Computersystem nach Anspruch 13, wobei die Datenbank auf XML-Basis betrieben werden kann, um unter Gebrauch von XQuery-Aussagen durchsucht zu werden, die zählen, wie viele Veröffentlichungen in einer vorgegebenen Kategorie zu einer spezifizierten Veröffentlichung zitieren.
DE102005051429A 2004-10-27 2005-10-27 Verfahren und Software zur Analyse von Forschungsveröffentlichungen Ceased DE102005051429A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US62271004P 2004-10-27 2004-10-27
US60/622,710 2004-10-27

Publications (1)

Publication Number Publication Date
DE102005051429A1 true DE102005051429A1 (de) 2006-06-14

Family

ID=35515847

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102005051429A Ceased DE102005051429A1 (de) 2004-10-27 2005-10-27 Verfahren und Software zur Analyse von Forschungsveröffentlichungen

Country Status (5)

Country Link
US (4) US7783619B2 (de)
EP (1) EP1653384A3 (de)
DE (1) DE102005051429A1 (de)
GB (1) GB2419708A (de)
NL (1) NL1030282C2 (de)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8316001B1 (en) * 2002-07-22 2012-11-20 Ipvision, Inc. Apparatus and method for performing analyses on data derived from a web-based search engine
TWI276979B (en) * 2004-06-09 2007-03-21 Asustek Comp Inc Method and system for downloading data from networks using a network device
US20060036451A1 (en) 2004-08-10 2006-02-16 Lundberg Steven W Patent mapping
US7818668B2 (en) * 2005-04-19 2010-10-19 Microsoft Corporation Determining fields for presentable files
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
JP4882040B2 (ja) * 2005-06-21 2012-02-22 公立大学法人広島市立大学 情報処理装置、情報処理システム、およびプログラム
AU2006272510B8 (en) 2005-07-27 2011-12-08 Schwegman, Lundberg & Woessner, P.A. Patent mapping
US8996482B1 (en) * 2006-02-10 2015-03-31 Amazon Technologies, Inc. Distributed system and method for replicated storage of structured data records
US8447829B1 (en) 2006-02-10 2013-05-21 Amazon Technologies, Inc. System and method for controlling access to web services resources
AU2007253724A1 (en) * 2006-05-19 2007-11-29 Jorn Lyseggen Source search engine
US7558787B2 (en) * 2006-07-05 2009-07-07 Yahoo! Inc. Automatic relevance and variety checking for web and vertical search engines
AR062635A1 (es) * 2006-09-01 2008-11-19 Thomson Global Resources Sistema, metodos, software e interfases para dar formato a citas de legislacion
US20080104542A1 (en) * 2006-10-27 2008-05-01 Information Builders, Inc. Apparatus and Method for Conducting Searches with a Search Engine for Unstructured Data to Retrieve Records Enriched with Structured Data and Generate Reports Based Thereon
US20080133476A1 (en) * 2006-12-05 2008-06-05 Ivo Welch Automated peer performance measurement system for academic citation databases
US20080229828A1 (en) * 2007-03-20 2008-09-25 Microsoft Corporation Establishing reputation factors for publishing entities
US20080243799A1 (en) * 2007-03-30 2008-10-02 Innography, Inc. System and method of generating a set of search results
CA2682938A1 (en) * 2007-04-13 2008-10-23 Thomson Licensing System and method for mapping logical and physical assets in a user interface
US9183290B2 (en) 2007-05-02 2015-11-10 Thomas Reuters Global Resources Method and system for disambiguating informational objects
US7953724B2 (en) * 2007-05-02 2011-05-31 Thomson Reuters (Scientific) Inc. Method and system for disambiguating informational objects
KR101373284B1 (ko) * 2007-05-04 2014-03-12 삼성전자 주식회사 시간 기반 데이터 처리 방법 및 정보 처리 장치
US9009649B2 (en) * 2007-05-16 2015-04-14 Accenture Global Services Limited Application search tool for rapid prototyping and development of new applications
US20080294675A1 (en) * 2007-05-24 2008-11-27 Oracle International Corporation Column file storage estimation tool with text indexes
US8019742B1 (en) 2007-05-31 2011-09-13 Google Inc. Identifying related queries
US8401930B1 (en) * 2007-06-21 2013-03-19 Oclc Online Computer Library Center, Inc. Computerized system and method for library collection analysis
US20090070297A1 (en) * 2007-07-18 2009-03-12 Ipvision, Inc. Apparatus and Method for Performing Analyses on Data Derived from a Web-Based Search Engine
AU2008295561A1 (en) * 2007-08-28 2009-03-12 Lexisnexis Group Document search tool
US9135340B2 (en) * 2007-09-12 2015-09-15 Datalaw, Inc. Research system and method with record builder
WO2009051681A1 (en) * 2007-10-15 2009-04-23 Lexisnexis Group System and method for searching for documents
US8332384B2 (en) * 2007-11-29 2012-12-11 Bloomberg Finance Lp Creation and maintenance of a synopsis of a body of knowledge using normalized terminology
US20090171905A1 (en) * 2008-01-02 2009-07-02 Edouard Garcia Producing information disclosure statements
GB2471432A (en) * 2008-04-03 2010-12-29 Icurrent Inc Information display system based on user profile data with assisted and explicit profile modification
US9183323B1 (en) 2008-06-27 2015-11-10 Google Inc. Suggesting alternative query phrases in query results
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US9245033B2 (en) 2009-04-02 2016-01-26 Graham Holdings Company Channel sharing
US8150831B2 (en) * 2009-04-15 2012-04-03 Lexisnexis System and method for ranking search results within citation intensive document collections
US10282373B2 (en) * 2009-04-17 2019-05-07 Excalibur Ip, Llc Subject-based vitality
JP5517524B2 (ja) * 2009-08-10 2014-06-11 キヤノン株式会社 医療診断支援装置、医療診断支援装置の制御方法およびプログラム
US20110093280A1 (en) * 2009-10-20 2011-04-21 Jan Andre Heybroek Computer Implemented Modular Based Medical Market Analysis System
US8849785B1 (en) 2010-01-15 2014-09-30 Google Inc. Search query reformulation using result term occurrence count
US10146864B2 (en) * 2010-02-19 2018-12-04 The Bureau Of National Affairs, Inc. Systems and methods for validation of cited authority
US20110219017A1 (en) * 2010-03-05 2011-09-08 Xu Cui System and methods for citation database construction and for allowing quick understanding of scientific papers
US20110295875A1 (en) * 2010-05-27 2011-12-01 Microsoft Corporation Location-aware query based event retrieval and alerting
CN102279856B (zh) 2010-06-09 2013-10-02 阿里巴巴集团控股有限公司 一种网站导航实现方法及***
CN101957857B (zh) * 2010-09-30 2013-03-20 华为终端有限公司 一种信息主动推送方法及服务器
US9176938B1 (en) * 2011-01-19 2015-11-03 LawBox, LLC Document referencing system
US9075873B2 (en) * 2011-03-11 2015-07-07 Microsoft Technology Licensing, Llc Generation of context-informative co-citation graphs
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US8527863B2 (en) * 2011-06-08 2013-09-03 International Business Machines Corporation Navigating through cross-referenced documents
US8903828B1 (en) * 2011-06-16 2014-12-02 Emc Corporation Method and system for configuring a multi-path index
US8903829B1 (en) * 2011-06-16 2014-12-02 Emc Corporation Method and system for indexing a structured document
US10540403B1 (en) * 2011-09-22 2020-01-21 Veritas Technologies Llc Method and system to automatically resume linear review of search results
US10242066B2 (en) 2011-10-03 2019-03-26 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US8972385B2 (en) * 2011-10-03 2015-03-03 Black Hills Ip Holdings, Llc System and method for tracking patent ownership change
US9223857B2 (en) * 2011-10-24 2015-12-29 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating a two-dimensional graphical grid representation of the treatment of a document
US8676787B2 (en) 2011-12-22 2014-03-18 International Business Machines Corporation Distributed multi-step abstract queries
US9075498B1 (en) 2011-12-22 2015-07-07 Symantec Corporation User interface for finding similar documents
CN103218719B (zh) * 2012-01-19 2016-12-07 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及***
US20130205186A1 (en) * 2012-02-02 2013-08-08 Mostafa SHAHEE JamSciencePaper.Org
CN102446165A (zh) * 2012-02-12 2012-05-09 上海量明科技发展有限公司 选取文档内容替换文档名称的方法及***
US20130239027A1 (en) * 2012-03-12 2013-09-12 Apple Inc. Apparatus and method for generating wiki previews
US9607024B2 (en) * 2012-06-13 2017-03-28 Google Inc. Sharing information with other users
US10198776B2 (en) 2012-09-21 2019-02-05 Graham Holdings Company System and method for delivering an open profile personalization system through social media based on profile data structures that contain interest nodes or channels
MX2015013023A (es) 2013-03-15 2016-07-05 Harpercollins Christian Publishing Sistema, metodo e interfaz para trabajo literario compilado.
US11222084B2 (en) 2013-10-22 2022-01-11 Steven Michael VITTORIO Content search and results
US11238114B2 (en) 2013-10-22 2022-02-01 Steven Michael VITTORIO Educational content search and results
CA3030747C (en) 2013-12-02 2020-11-10 Austin Star Detonator Company Method and apparatus for wireless blasting
WO2015084968A1 (en) * 2013-12-03 2015-06-11 University Of Massachusetts System and methods for predicting probable relationships between items
US10863354B2 (en) 2014-11-24 2020-12-08 Facebook, Inc. Automated check-ins
US10503377B2 (en) * 2014-11-24 2019-12-10 Facebook, Inc. Dynamic status indicator
US9430451B1 (en) 2015-04-01 2016-08-30 Inera, Inc. Parsing author name groups in non-standardized format
WO2016168811A1 (en) * 2015-04-17 2016-10-20 Vittorio Steven Michael Content search and results
US10635705B2 (en) * 2015-05-14 2020-04-28 Emory University Methods, systems and computer readable storage media for determining relevant documents based on citation information
US10255359B2 (en) * 2016-10-27 2019-04-09 HighWire Press, Inc. Rejected article tracker
US11120074B2 (en) * 2016-12-06 2021-09-14 International Business Machines Corporation Streamlining citations and references
CA3105048C (en) 2020-01-06 2023-09-26 Tarek Abdunabi Academic search and analytics system and method therefor
US20220414168A1 (en) * 2021-06-24 2022-12-29 Kyndryl, Inc. Semantics based search result optimization

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5594897A (en) * 1993-09-01 1997-01-14 Gwg Associates Method for retrieving high relevance, high quality objects from an overall source
US5991751A (en) * 1997-06-02 1999-11-23 Smartpatents, Inc. System, method, and computer program product for patent-centric and group-oriented data processing
US5907837A (en) * 1995-07-17 1999-05-25 Microsoft Corporation Information retrieval system in an on-line network including separate content and layout of published titles
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5692181A (en) * 1995-10-12 1997-11-25 Ncr Corporation System and method for generating reports from a computer database
GB2331166B (en) * 1997-11-06 2002-09-11 Ibm Database search engine
US7062500B1 (en) * 1997-02-25 2006-06-13 Intertrust Technologies Corp. Techniques for defining, using and manipulating rights management data structures
US6088707A (en) * 1997-10-06 2000-07-11 International Business Machines Corporation Computer system and method of displaying update status of linked hypertext documents
US6266675B1 (en) * 1997-10-07 2001-07-24 Phycom Corporation System and method for using a relational database to enable the dynamic configuration of an application program
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6286018B1 (en) 1998-03-18 2001-09-04 Xerox Corporation Method and apparatus for finding a set of documents relevant to a focus set using citation analysis and spreading activation techniques
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US6957191B1 (en) * 1999-02-05 2005-10-18 Babcock & Brown Lp Automated financial scenario modeling and analysis tool having an intelligent graphical user interface
US6292796B1 (en) * 1999-02-23 2001-09-18 Clinical Focus, Inc. Method and apparatus for improving access to literature
US6470319B1 (en) * 1999-06-25 2002-10-22 Community Corrections Improvement Association Data processing system for determining case management plan for criminal offender
US6175824B1 (en) * 1999-07-14 2001-01-16 Chi Research, Inc. Method and apparatus for choosing a stock portfolio, based on patent indicators
US6324534B1 (en) * 1999-09-10 2001-11-27 Requisite Technology, Inc. Sequential subset catalog search engine
US6907424B1 (en) * 1999-09-10 2005-06-14 Requisite Technology, Inc. Sequential subset catalog search engine
US7216115B1 (en) * 1999-11-10 2007-05-08 Fastcase.Com, Inc. Apparatus and method for displaying records responsive to a database query
EP1109106A1 (de) * 1999-12-14 2001-06-20 Sun Microsystems, Inc. Literaturhinweisdatenbank
US20020022974A1 (en) * 2000-04-14 2002-02-21 Urban Lindh Display of patent information
US6625595B1 (en) * 2000-07-05 2003-09-23 Bellsouth Intellectual Property Corporation Method and system for selectively presenting database results in an information retrieval system
GB0026353D0 (en) * 2000-10-27 2000-12-13 Canon Kk Apparatus and a method for facilitating searching
WO2002041190A2 (en) * 2000-11-15 2002-05-23 Holbrook David M Apparatus and method for organizing and/or presenting data
GB2386531B (en) * 2000-11-29 2005-07-06 Unilogic Inc Method of facilitating operations on data
US6594670B1 (en) * 2000-12-22 2003-07-15 Mathias Genser System and method for organizing search criteria match results
US6748392B1 (en) * 2001-03-06 2004-06-08 Microsoft Corporation System and method for segmented evaluation of database queries
US6728725B2 (en) * 2001-05-08 2004-04-27 Eugene Garfield, Ph.D. Process for creating and displaying a publication historiograph
US20030061226A1 (en) * 2001-09-25 2003-03-27 Bowman David M. Data loader for handling imperfect data and supporting multiple servers and data sources
US7610358B2 (en) * 2001-11-26 2009-10-27 Time Warner Cable System and method for effectively presenting multimedia information materials
US7774855B2 (en) * 2002-05-07 2010-08-10 Savvis Communications Corporation Integrity monitoring system and data visualization tool for viewing data generated thereby
US20040060006A1 (en) * 2002-06-13 2004-03-25 Cerisent Corporation XML-DB transactional update scheme
US6944612B2 (en) * 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
US20050060287A1 (en) * 2003-05-16 2005-03-17 Hellman Ziv Z. System and method for automatic clustering, sub-clustering and cluster hierarchization of search results in cross-referenced databases using articulation nodes
US20050010559A1 (en) * 2003-07-10 2005-01-13 Joseph Du Methods for information search and citation search
US8024335B2 (en) * 2004-05-03 2011-09-20 Microsoft Corporation System and method for dynamically generating a selectable search extension
US7171424B2 (en) * 2004-03-04 2007-01-30 International Business Machines Corporation System and method for managing presentation of data
US20050256734A1 (en) * 2004-05-14 2005-11-17 Clikeman Richard R Method and data structure for augmenting invention and analysis of intellectual property
US7730012B2 (en) * 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
JP4814239B2 (ja) * 2004-08-23 2011-11-16 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 指標的判例識別システム及び方法
US20060064411A1 (en) * 2004-09-22 2006-03-23 William Gross Search engine using user intent
US7725448B2 (en) * 2007-08-31 2010-05-25 International Business Machines Corporation Method and system for disjunctive single index access

Also Published As

Publication number Publication date
US20120047127A1 (en) 2012-02-23
US20060112084A1 (en) 2006-05-25
US7783619B2 (en) 2010-08-24
NL1030282A1 (nl) 2006-05-01
US7930295B2 (en) 2011-04-19
GB2419708A (en) 2006-05-03
NL1030282C2 (nl) 2007-02-09
GB0521942D0 (en) 2005-12-07
US8489630B2 (en) 2013-07-16
EP1653384A3 (de) 2006-07-19
US20060112085A1 (en) 2006-05-25
US8805814B2 (en) 2014-08-12
US20100318509A1 (en) 2010-12-16
EP1653384A2 (de) 2006-05-03

Similar Documents

Publication Publication Date Title
DE102005051429A1 (de) Verfahren und Software zur Analyse von Forschungsveröffentlichungen
DE69727421T2 (de) Hypertext-Dokumentwiederauffindungssystem zum Wiederauffinden zusammengehöriger Hypertextdokumente
DE69433165T2 (de) Assoziatives textsuch- und wiederauffindungssystem
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE10215495A1 (de) Computersystem und Verfahren für die Recherche, statistische Auswertung und Analyse von Dokumenten
DE112018004946T5 (de) Kognitive datenanonymisierung
DE102007037646B4 (de) Computerspeichersystem und Verfahren zum Indizieren, Durchsuchen und zur Datenwiedergewinnung von Datenbanken
DE10120869A1 (de) Verwendung eines Index für den Zugriff auf eine mehrdimensionale Subjektdatenbank
DE69628374T2 (de) Datenverwaltungssystem
DE102006057149A1 (de) System und Verfahren zum Erleichtern eines visuellen Vergleichs von Eingangsdaten mit vorhandenen Daten
EP1311989A2 (de) Verfahren zur automatischen recherche
DE60030735T2 (de) Voraussage der realisierbarkeit eines verbindungsweges
DE112012003366T5 (de) Synthese von Verzeichnissen, Domains und Subdomains
DE102012221251A1 (de) Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern
DE60037681T2 (de) Verfahren zum automatischen und gesicherten suchen von daten mit hilfe eines datenübertragungsnetzwerks
EP1276056A1 (de) Verfahren zum Verwalten einer Datenbank
EP1030254B1 (de) Verfahren und System zum Verwalten von Dokumenten
DE10393809B4 (de) Computer-implementiertes Verfahren zum Verarbeiten von Information, die zwischen einem Client und einem Server ausgetauscht wird
DE19952630A1 (de) Verfahren zum Erzeugen einer Auswahlmaske für den Abruf von Daten aus einer Datenbank mit Hilfe programmierbarer Informationsobjekte
WO2009033632A1 (de) Verfahren zum automatischen erfassen einer menge von elementen
DE10025219A1 (de) Verfahren, Computerprogrammprodukt und Vorrichtung zum automatischen Verknüpfen von Datensätzen aus zumindest einer Datenquelle sowie System zum Abrufen von verknüpften Datensätzen aus zumindest einer Datenquelle
DE102008062830B3 (de) Vorrichtung und Verfahren zum Speichern, Suchen und Darstellen von Informationen
WO2010127670A2 (de) Verfahren zum suchenden abgleich zwischen mindestens einer suchdatenmenge mit mindestens einer objektdatenmenge
DE10160920B4 (de) Verfahren und Vorrichtung zur Erzeugung eines Extrakts von Dokumenten

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final
R003 Refusal decision now final

Effective date: 20141028