DE102021202469A1 - System und verfahren zur generativen textzusammenfassung - Google Patents

System und verfahren zur generativen textzusammenfassung Download PDF

Info

Publication number
DE102021202469A1
DE102021202469A1 DE102021202469.6A DE102021202469A DE102021202469A1 DE 102021202469 A1 DE102021202469 A1 DE 102021202469A1 DE 102021202469 A DE102021202469 A DE 102021202469A DE 102021202469 A1 DE102021202469 A1 DE 102021202469A1
Authority
DE
Germany
Prior art keywords
algorithm
text
candidate words
sbwr
procedure according
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021202469.6A
Other languages
English (en)
Inventor
Bingqing WANG
Kaiqiang Song
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of DE102021202469A1 publication Critical patent/DE102021202469A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Es werden ein System und ein Verfahren zur automatischen generativen Textzusammenfassung offenbart, die eine Such- und Neueinstufungsstrategie anwenden können, um die Leistungsfähigkeit einer Zusammenfassungsaufgabe zu verbessern. Das System und das Verfahren können ein neuronales Transformatorenmodell einsetzen, um die Zusammenfassungsaufgabe zu unterstützen. Das neuronale Transformatorenmodell kann trainiert werden, menschliche Kurzfassungen zu lernen, und kann dann betreibbar sein, abstrahierende Zusammenfassungen zu erzeugen. Mit mehreren erzeugten Zusammenfassungshypothesen können ein Besten-Suchalgorithmus und ein Neueinstufungsalgorithmus eingesetzt werden, um die beste Kandidatenzusammenfassung als Teil der ausgegebenen Zusammenfassung zu wählen.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Offenbarung bezieht sich auf ein System und ein Verfahren zur generativen Textzusammenfassung.
  • HINTERGRUND
  • Textzusammenfassungsstrategien tendieren dazu, Algorithmen für maschinelles Lernen einzusetzen, die eine prägnante Zusammenfassung größerer Texte erzeugen. Zum Beispiel kann eine Textzusammenfassung verwendet werden, um eine kürzere Absatzzusammenfassung für einen längeren Nachrichtenartikel oder einen Textartikel, der einige zehn bis einige hundert Seiten lang sein kann, zu erzeugen. Das eingesetzte maschinelle Lernen muss redundante oder unwichtige Informationen durchsuchen und eine Zusammenfassung erzeugen, die die Bedeutung des größeren Texts genau vermittelt.
  • ZUSAMMENFASSUNG
  • Es wird ein System und ein Verfahren für ein Modell zur generativen Textzusammenfassung offenbart. Das Modell kann einen Eingangstextdatensatz empfangen und einen Suchraum für ein oder mehrere Kandidatenwörter, die zur Einbeziehung in eine Textzusammenfassung gewählt werden sollen, vergrößern. Das Modell kann eines oder mehrere der Kandidatenwörter im Suchraum enthalten und unter Verwendung eines Besten-Suchalgorithmus einstufen. Das Modell kann auch das eine oder die mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, unter Verwendung eines Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus) neueinstufen. Es ist vorgesehen, dass der SBWR-Algorithmus einen abnehmenden Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwenden kann, wenn die Textzusammenfassung einen behaupteten Längenschwellenwert überschreitet. Der SBWR-Algorithmus kann außerdem einen erhöhten Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwenden, wenn die Textzusammenfassung unter dem behaupteten Längenschwellenwert liegt. Der SBWR-Algorithmus kann ferner das eine oder die mehreren Kandidatenwörter wählen, wenn die Textzusammenfassung gleich dem behaupteten Längenschwellenwert ist.
  • Das Modell kann ferner den abnehmenden Belohnungswert und den erhöhten Belohnungswert unter Verwendung einer Sigmoidfunktion glätten. Der abnehmende Belohnungswert und der erhöhte Belohnungswert können unter Verwendung eines Werts skaliert werden, der trainiert wurde, das eine oder die mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, zu wählen. Außerdem können das eine oder die mehreren Kandidatenwörter neueingestuft werden, wenn der Eingangstextdatensatz einen vordefinierten Längenschwellenwert überschreitet.
  • Eine BP-Normierung kann berechnet werden, um eine Strafe auf das eine oder die mehreren Kandidatenwörter, die den behaupteten Längenschwellenwert nicht erfüllen, anzuwenden. Die BP-Normierung kann durch Addieren eines logarithmischen Werts einer Knappheitsstrafe mit einer Längennormierungsbewertungsfunktion berechnet werden. Außerdem kann die Knappheitsstrafe derart ausgelegt sein, dass das Modell zur generativen Textzusammenfassung keine kurze Übertragung aus dem Eingangstextdatensatz erzeugt. Die Knappheitsstrafe kann auch einen Kopierratenwert enthalten, der die Knappheitsstrafe zu null verringert.
  • Das Modell zur generativen Textzusammenfassung kann auch unter Verwendung eines neuronalen Transformatorenmodells, das einen Codieralgorithmus für maschinelles Lernen und einen Decodieralgorithmus für maschinelles Lernen enthält, trainiert werden. Während der Trainingssequenz kann der Eingangstextdatensatz in den Codieralgorithmus für maschinelles Lernen eingegeben werden und ein Zielzusammenfassungstextdatensatz kann in den Decodieralgorithmus für maschinelles Lernen eingegeben werden. Das neuronale Transformatorenmodell kann auch einen Wahrscheinlichkeitswert für einen oder mehrere Zielzusammenfassungstoken unter Verwendung eines oder mehrerer Quelltoken bestimmen.
  • Figurenliste
    • 1 ist ein beispielhaftes System zum Einsetzen eines neuronalen Modells zur generativen Textzusammenfassung.
    • 2 ist ein beispielhaftes Flussidagramm zum Einsetzen des neuronalen Modells zur generativen Textzusammenfassung.
    • 3 ist ein beispielhafter Abschnitt von Quellcode zum Implementieren der Besten-Suchstrategie.
    • 4 ist eine beispielhafte Ausführungsform eines neuronalen Transformatorenmodells zum Training des neuronalen Modells zur generativen Textzusammenfassung.
  • GENAUE BESCHREIBUNG
  • Hier werden Ausführungsformen der vorliegenden Offenbarung beschrieben. Es versteht sich allerdings, dass die offenbarten Ausführungsformen lediglich Beispiele sind und weitere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale können übertrieben oder minimiert sein, um Details bestimmter Komponenten zu zeigen. Deshalb sollen spezifische strukturelle und funktionelle Details, die hier offenbart werden, nicht als einschränkend interpretiert werden, sondern lediglich als eine repräsentative Basis zur Unterweisung eines Fachmanns, die Ausführungsformen unterschiedlich einzusetzen. Wie einschlägige Fachleute verstehen werden, können verschieden Merkmale, die unter Bezugnahme auf eine beliebige Figur veranschaulicht und beschrieben werden, mit Merkmalen, die in einer oder mehreren weiteren Figuren veranschaulicht werden, kombiniert werden, um Ausführungsformen zu erzeugen, die nicht ausdrücklich veranschaulicht oder beschrieben sind. Die Kombinationen veranschaulichter Merkmale schaffen repräsentative Ausführungsformen für typische Anwendungen. Verschiedene Kombinationen und Modifikationen der Merkmale im Einklang mit den Unterweisungen dieser Offenbarung können allerdings für bestimmte Anwendungen oder Implementierungen wünschenswert sein.
  • Eine Textzusammenfassung ist im Allgemeinen der Prozess des Verringerns eines größeren Texts (z. B. eines langen Nachrichtenartikels), um eine Zusammenfassung zu erzeugen, die kontextuell korrekte Inhalte eines ursprünglich eingegebenen Textdatensatzes enthält. Um korrekte Zusammenfassungen zu erzeugen, können verschiedene Algorithmen versuchen, die Länge, den Schreibstil und die Syntax des ursprünglichen Texts zu berücksichtigen. Zwei bekannte Lösungsversuche zum Durchführen einer Textzusammenfassung enthalten eine Entnahmezusammenfassung und eine generative (d. h. eine abstrahierende) Zusammenfassung. Eine extraktive Zusammenfassung arbeitet typischerweise durch Wählen und Verwenden von Sätzen aus einem ursprünglichen Text als Teil der Zusammenfassung.
  • Alternativ kann eine generative Zusammenfassung eine interne semantische Repräsentation bilden und Erzeugungstechniken für natürliche Sprache verwenden, um eine abstrahierende Zielzusammenfassung aus dem ursprünglichen Text zu erstellen. Das generative Zusammenfassungssystem kann deshalb eine abstrahierende Zielzusammenfassung erstellen, die genauer als die extraktive Zusammenfassung ist. Außerdem kann die generative Zusammenfassung eine Zusammenfassung erstellen, die abstrahierender ist und eine Bedeutung ausdrückt, die dem ursprünglichen Text stärker gleicht.
  • Es ist vorgesehen, dass ein neuronaler Transformatorrahmen, der eine Worteinbettung und eine Codierer-Decodierer-Struktur einsetzt, verwendet werden kann, um die vom generativen Zusammenfassungssystem ausgegebene Zusammenfassung zu verbessern. Während der Decodierphase können mehrere Zusammenfassungshypothesen als Kandidaten, die das System als die zusammengefasste Ausgabe wählen kann, erzeugt werden. Wenn die Suchstrategie bekannte „Strahlsuch“-Algorithmen einsetzt, können die möglichen Ausgabekandidaten mit nur einer leichten Abweichung an einem gegebenen Wort einander gleichen. Es ist deshalb auch vorgesehen, dass eine verschiedene Strategie eingesetzt kann, in der der Suchraum der Zusammenfassungskandidaten zunächst vergrößert werden kann.
  • Zum Beispiel kann ein Besten-Suchalgorithmus eingesetzt werden, um den Suchraum zu vergrößern, wodurch Kandidaten erzeugt werden, die stärker diversifiziert sind. Wenn sie diversifiziert sind, kann eine Kandidatenzusammenfassung gewählt werden, die einen verschiedenen Stil oder einen verschiedenen Schwerpunkt in den Informationen aufweist. Ein Neueinstufungslösungsversuch kann dann eingesetzt werden, um den besten Kandidaten als die Ausgabe zu wählen. Der Neueinstufungslösungsversuch kann einen Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus) einsetzen, der den besten Kandidaten als die Ausgabe für die Zusammenfassung wählt.
  • 1 veranschaulicht ein beispielhaftes System 100, das verwendet werden kann, um ein neuronales Modell zur generativen Textzusammenfassung einzusetzen. Das System 100 kann mindestens eine Rechenvorrichtung 102 enthalten. Das Rechensystem 102 kann mindestens einen Prozessor 104 enthalten, der mit einer Speichereinheit 108 funktionstechnisch verbunden ist. Der Prozessor 104 kann eine oder mehrere integrierte Schaltungen sein, die die Funktionalität einer Verarbeitungseinheit (PU) 106 implementieren. Die PU 106 kann eine handelsübliche Zentraleinheit (CPU) sein, die eine Anweisung wie z. B. eine der x86-, ARM-, Power- oder MIPS-Befehlssatzfamilien implementiert. Oder die Verarbeitungseinheit 106 kann eine handelsübliche Grafikverarbeitungseinheit (GPU) sein, die aus hunderten von Kernen zusammengesetzt ist, die betreibbar sind, zahlreiche parallele Aufgaben gleichzeitig zu verarbeiten (d. h. paralleles Berechnen).
  • Während des Betriebs kann die PU 106 gespeicherte Programmanweisungen ausführen, die aus der Speichereinheit 108 abgerufen werden. Die gespeicherten Programmanweisungen können eine Software enthalten, die den Betrieb der PU 106 steuert, um den hier beschriebenen Betrieb durchzuführen. In einigen Beispielen kann der Prozessor 104 ein System-on-a-Chip (SoC) sein, das die Funktionalität der PU 106, der Speichereinheit 108, einer Netzschnittstelle und von Eingabe-/Ausgabe-Schnittstellen in eine einzelne integrierte Vorrichtung integriert. Das Rechensystem 102 kann ein Betriebssystem zum Managen verschiedener Aspekte des Betriebs implementieren.
  • Die Speichereinheit 108 kann flüchtigen Speicher und nichtflüchtigen Speicher zum Speichern von Anweisungen und Daten enthalten. Der nichtflüchtige Speicher kann Speicher mit festen Zuständen, wie z. B. NAND-Flash-Speicher, magnetische und optische Speichermedien oder eine sonstige geeignete Datenspeichervorrichtung, die Daten behält, wenn das Rechensystem 102 deaktiviert wird oder elektrische Leistung verliert, enthalten. Der flüchtige Speicher kann statischen und dynamischen Schreib-/Lese-Speicher (RAM) enthalten, der Programmanweisungen und Daten speichert. Zum Beispiel kann die Speichereinheit 108 ein Modell 110 oder einen Algorithmus für maschinelles Lernen, einen Trainingsdatensatz 112 für das Modell 110 für maschinelles Lernen und/oder Quellrohdaten 115 speichern.
  • Das Rechensystem 102 kann eine Netzschnittstellenvorrichtung 122 enthalten, die konfiguriert ist, eine Kommunikation mit externen Systemen und Vorrichtungen zu schaffen. Zum Beispiel kann die Netzschnittstellenvorrichtung 122 eine drahtgebundene und/oder drahtlose Ethernet-Schnittstelle gemäß der Familie von Normen der Definition des Instituts von Elektro- und Elektronikingenieuren (IEEE) 802.11 enthalten. Die Netzschnittstellenvorrichtung 122 kann eine Mobilkommunikationsschnittstelle zum Kommunizieren mit einem zellularen Netz (z. B. 3G, 4G, 5G) enthalten. Die Netzschnittstellenvorrichtung 122 kann ferner konfiguriert sein, eine Kommunikationsschnittstelle zu einem externen Netz 124 oder einer Cloud zu schaffen.
  • Das externe Netz 124 kann als das World-Wide-Web oder das Internet bezeichnet werden. Das externe Netz 124 kann ein Normkommunikationsprotokoll zwischen Rechenvorrichtungen aufbauen. Das externe Netz 124 kann ermöglichen, dass Informationen und Daten zwischen Rechenvorrichtungen und Netzen einfach ausgetauscht werden. Ein oder mehrere Server 130 können in Kommunikation mit dem externen Netz 124 sein.
  • Das Rechensystem 102 kann eine Ein-/Ausgabe-Schnittstelle (I/O-Schnittstelle) 120 enthalten, die konfiguriert sein kann, digitale und/oder analoge Eingaben und Ausgaben zu liefern. Die I/O-Schnittstelle 120 kann zusätzliche serielle Schnittstellen zum Kommunizieren mit externen Vorrichtungen (z. B. eine Schnittstelle des universellen seriellen Busses (USB-Schnittstelle)) enthalten.
  • Das Rechensystem 102 kann eine Mensch-Maschine-Schnittstellenvorrichtung (HMI-Vorrichtung) 118 enthalten, die eine Vorrichtung enthalten kann, die dem System 100 ermöglicht, eine Steuereingabe zu empfangen. Beispiele von Eingabevorrichtungen können Humanschnittstelleneingaben wie z. B. Tastaturen, Mäuse, Berührungsbildschirme, Spracheingabevorrichtungen und weitere ähnliche Vorrichtungen enthalten. Das Rechensystem 102 kann eine Anzeigevorrichtung 132 enthalten. Das Rechensystem 102 kann Hardware und Software zum Ausgeben von Grafikdaten und Textdaten zur Anzeigevorrichtung 132 enthalten. Die Anzeigevorrichtung 132 kann ein elektronischer Anzeigebildschirm, ein Projektor, ein Drucker oder eine weitere geeignete Vorrichtung zum Anzeigen von Informationen zu einem Anwender oder einem Bediener enthalten. Das Rechensystem 102 kann ferner konfiguriert sein, eine Interaktion mit entfernten HMI-Vorrichtungen und entfernten Anzeigevorrichtungen über die Netzschnittstellenvorrichtung 122 zu ermöglichen.
  • Das System 100 kann unter Verwendung eines oder mehrerer Rechensysteme implementiert werden. Während das Beispiel ein einzelnes Rechensystem 102 darstellt, das die beschriebenen Merkmale implementiert, ist beabsichtigt, dass verschiedene Merkmale und Funktionen abgetrennt und durch mehrere Recheneinheiten in Kommunikation miteinander implementiert werden können. Die gewählte Architektur kann von einer Vielzahl von Faktoren abhängen.
  • Das System 100 kann einen Algorithmus für maschinelles Lernen 110 implementieren, der konfiguriert ist, die Quellrohdaten 115 (oder den Datensatz) zu analysieren. Die Quellrohdaten 115 können rohe oder unverarbeitete Sensordaten enthalten, die einen Eingangsdatensatz für ein System für maschinelles Lernen repräsentieren können. Die Quellrohdaten 115 können Video, Videosegmente, Bilder und rohe oder teilweise verarbeitete Sensordaten (z. B. Daten von einer Digitalkamera oder einem LiDAR-Sensor) enthalten. In einigen Beispielen kann der Algorithmus für maschinelles Lernen 110 ein Algorithmus eines neuronalen Netzes (z. B. ein Transformator, ein CNN, ein RNN oder ein DNN) sein, der ausgelegt sein kann, eine vorgegebene Funktion durchzuführen.
  • 2 veranschaulicht ein beispielhaftes Flussidagramm 200 zum Einsetzen des neuronalen Modells zur generativen Textzusammenfassung. Das Flussidagramm 200 kann in Block 202 beginnen, wo ein Klartextdatensatz als eine Eingabe zum generativen Zusammenfassungssystem geliefert werden kann. Der Datensatz kann Text sein, der von einer Tastatur geliefert wird, oder der Text kann von einem oder mehreren Dokumenten, die im Speicher 118 gespeichert sind, geliefert werden. Der Text kann auch eine Internetseite oder ein Dokument sein, das vom externen Netz 124 geliefert wird.
  • Das Flussidagramm kann dann zu Block 204 fortschreiten, wo eine Decodierphase eingesetzt werden kann, um die beste Ausgangszusammenfassung auf der Grundlage des eingegebenen Textdatensatzes zu bestimmen. Es ist vorgesehen, dass ein „Strahlsuch“-Algorithmus eingesetzt werden kann, um eine nahezu optimale Lösung des Folgekennzeichnungsdecodierprozesses zu bestimmen. Bevorzugt kann eine Besten-Suchstrategie (z. B. eine gierige Bestensuche oder rein heuristische Suche) eingesetzt werden, die einen gegebenen Kandidaten (d. h. eine mögliche Auswahl) bevorzugt, und dann kann dem Kandidaten eine beste Bewertung zugewiesen werden.
  • 3 veranschaulicht einen beispielhaften Abschnitt von Quellcode zum Implementieren der Besten-Suchstrategie. Wie veranschaulicht ist, kann die Besten-Suchstrategie einen Prioritäts-Heap einsetzen, der Teilzusammenfassungen des eingegebenen Texts führt. Die Teilzusammenfassungen können gemäß einer Heuristikfunktion mit einer Bewertung versehen werden. Der Besten-Suchalgorithmus kann iterativ die Teilzusammenfassung mit der höchsten Bewertung verwenden und die Teilzusammenfassung um ein Wort erweitern. Die neu erweiterte Zusammenfassungsfolge kann dann auf den Prioritäts-Heap zurückgelegt (d. h. geschoben) werden. Die Besten-Suchstrategie kann auch eine obere-k-Anzahl von Kandidaten für die neuen Zusammenfassungsfolgen erzeugen. Es ist vorgesehen, dass das obere-k durch Wählen von Wörtern, die die höchste Wahrscheinlichkeitspunktzahl (P) erzeugen, und iteratives Hinzufügen der gewählten Wörter zur Teilzusammenfassung (y) erzeugt werden können. Die höchste Wahrscheinlichkeit kann unter Verwendung der untenstehenden Gleichung 1 erzeugt werden:
  • l o g P ( y j | y < j , x )
    Figure DE102021202469A1_0001
  • Wobei ein logarithmischer Wert der höchsten Wahrscheinlichkeitspunktzahl (P) die gewählten Wörter der Teilzusammenfassung (y<j) an die aktuelle Teilzusammenfassung (yj) unter Verwendung einer bitweisen ODER-Funktion auf der Grundlage des eingegebenen Texts (x) anhängen kann.
  • Das Flussidagramm kann dann zu Block 206 fortschreiten, wobei ein Neueinstufungsprozess für die Zusammenfassungskandidaten eingesetzt wird und der Kandidat, der das beste Ergebnis erzeugt, gewählt wird. Es ist vorgesehen, dass nach dem Bestensuchprozess, der den Suchraum vergrößert hat, noch immer ein Neueinstufungsprozess, um die Kandidaten einzustufen, nötig sein kann, um einen oder mehrere diversifizierte Kandidaten bereitzustellen.
  • Zum Beispiel ist ein wichtiger, während der Textzusammenfassung zu berücksichtigender Aspekt die Länge der eingegebenen Textdaten (z. B. die Länge eines eingegebenen Textsatzes oder einer eingegebenen Zeichenkette). Die Besten-Suchstrategie wird typischerweise verbesserte Ergebnisse (d. h. höhere ausgegebene Bewertungen) an Kandidaten mit geringerer Länge liefern. Jedoch können Kurzzusammenfassungen zu abstrakt sein und können Schlüsselinformationen aus dem ursprünglichen Text verlieren. Tatsächlich muss in bestimmten Anwendungen eine übermäßig kurze Zusammenfassung, die lediglich wenige Wörter enthält, keine informative Zusammenfassung sein, wenn auch die Besten-Suchstrategie unter Verwendung von Gleichung 1 oben eine hohe logarithmische Bewertung erzeugt.
  • Es kann eine Längennormierung eingesetzt werden, die die Begriffshäufigkeit oder die Relevanzbewertung anpasst, um die Wirkung der Textlänge auf die Dokumenteneinstufung zu normieren. Die Längennormierung kann insbesondere derart eingesetzt werden, dass längere Textzeichenketten oder Aussagen für eine Neueinstufung erwogen werden. Im Allgemeinen wird davon ausgegangen, dass diese Längennormierung bessere Ergebnisse liefern kann als ein Strahlsuchalgorithmus. Ein Knappheitsstrafennormierungswert (BP-Normierungswert) (Ŝbp(x,y)) kann dann berechnet werden, um sicherzustellen, dass der eingegebene Text in die Zusammenfassungsaufgabe passt. Der BP-Normierungswert kann auch eine Strafe auf Zusammenfassungen anwenden, die eine vordefinierte erwartete Länge nicht erfüllen. Der BP-Normierungsalgorithmus kann durch Addieren des logarithmischen Werts der Knappheitsstrafe (log(bp)) mit der Längennormierungsbewertungsfunktion ( S ( x , y ) | y | )
    Figure DE102021202469A1_0002
    berechnet werden, wie in der untenstehenden Gleichung 2 gezeigt ist:
  • S ^ b p ( x , y ) = log ( b p ) + S ( x , y ) | y |
    Figure DE102021202469A1_0003
  • Wobei x die eingegebene Folge ist, die als x = (x1..., xm) definiert sein kann, und y die ausgegebene Hypothese ist, die als y = (y1..., ym) definiert sein kann. Es ist vorgesehen, dass die Knappheitsstrafe (bp), die zum Bestrafen kurzer Übertragungen verwendet werden kann, unter Verwendung der untenstehenden Gleichung 3 berechnet werden kann:
  • b p = min ( e 1 1 r ,1 )
    Figure DE102021202469A1_0004
  • Wobei r die Kopierrate ist, die einen Prozentsatz von Zusammenfassungstoken, der im Quelltext ersichtlich ist und mit einem Faktor c skaliert wurde, enthalten kann. Es ist vorgesehen, dass sich dann, wenn die Kopierrate r zu 1 gesetzt ist, die Strafe zu einem Wert in der Nähe von oder gleich 0 verringern kann. Der Bestrafungsausdruck kann ferner derart abgeändert werden, dass er veranlasst wird, Zusammenfassungen mit mehr kopiertem Quelltext zu bevorzugen, wie durch die untenstehenden Gleichungen 4A und 4B gezeigt ist:
  • exp ( S ^ b p ( x , y ) = b p exp ( j = 1 | y | l o g P ( y j | y < j , x ) 1 | y |
    Figure DE102021202469A1_0005
  • = b p ( j = 1 | y | P ( y j | < j , x ) ) 1 | y |
    Figure DE102021202469A1_0006
  • Der berechnete Bestrafungsausdruck kann direkt zu einem Koeffizienten übertragen werden, der mit der Bewertung der logarithmischen Wahrscheinlichkeit multipliziert wird. Dann kann ein Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus) eingesetzt werden, um die Kandidaten neueinzustufen, wie durch die untenstehende Gleichung 5 gezeigt ist:
  • S ^ s b w r ( x , y ) = S ( x , y ) + r i = 1 | y | σ ( L p r e d i )
    Figure DE102021202469A1_0007
  • Der SWBR-Algorithmus kann jedem Wort in der Zusammenfassung eine Belohnung zuweisen. Wenn die decodierte Zusammenfassungslänge größer als ein behaupteter Längenschwellenwert ist (d. h. i > ℒpred), wird der SWBR-Algorithmus eine abnehmende Belohnung auf die hinzugefügten Wörter anwenden. Die abnehmende Belohnung kann als σ(ℒpred — i) definiert sein. Wenn die decodierte Zusammenfassungslänge kleiner als der erwartete Schwellenwert ist (d. h. i ≤ ℒpred), belohnt der SWBR-Algorithmus jedes Wort. Es ist vorgesehen, dass der SWBR-Algorithmus den Kandidaten bevorzugen kann, der am nächsten bei der behaupteten Länge (ℒpred) liegt. Außerdem kann eine Sigmoidfunktion verwendet werden, um die Belohnungswerte zu glätten, und ein Koeffizient (r) kann verwendet werden, um die Gesamtbelohnung, die auf die Prüfdaten abgestimmt wird, zu skalieren. Das Flussidagramm kann dann zu Block 208 fortschreiten, in dem die ausgegebene Textzusammenfassung auf der Grundlage der Wörter, die die höchste Belohnung durch den SWBR-Algorithmus erhalten, erzeugt wird.
  • 4 veranschaulicht eine beispielhafte Ausführungsform eines neuronalen Transformatorenmodells 400, das zum Training des neuronalen Modells zur generativen Textzusammenfassung verwendet werden kann. Das neuronale Transformatorenmodell 400 kann eine Codiererstruktur 404 und eine Decodiererstruktur 408 enthalten. Um das System zu trainieren, kann ein eingegebener Quelltext 402 - der eine Folge von Token enthalten kann - in das Codiermodul 404 eingegeben werden. Außerdem kann ein Zielzusammenfassungstext 406 - der auch eine Folge von Text oder Textzeichenketten enthalten kann - in die Decodiererstruktur 408 eingegeben werden. Es ist vorgesehen, dass das neuronale Transformatorenmodell 400 die Wahrscheinlichkeit von Zielzusammenfassungstoken bestimmen kann, wenn eine Folge von Quelltoken gegeben ist, wie durch die untenstehende Gleichung 6 gezeigt ist:
  • P ( y | x ) = j = 1 | y | P ( y | y < j , x )
    Figure DE102021202469A1_0008
  • Wobei y das Zielzusammenfassungstoken ist, das als y={y1, y2,..., y|y|} definiert sein kann, und x eine Folge von Quelltoken ist, die als x = {x1, x2,..., x|x|} definiert sein kann.
  • 4 veranschaulicht auch, dass während der Trainingsphase sowohl der eingegebene (Quell-)Text 402 als auch der Zielzusammenfassungstext 406 als Trainingsfälle zum Maximieren der Verlustfunktion oder der maximalen Wahrscheinlichkeit eingegeben werden können, um einen gegebenen Satz von Trainingsfällen zu betrachten. In der Decodierphase kann das generative Zusammenfassungssystem dann, wenn die Parameter, die durch das neuronale Transformatorenmodell 400 gelernt wurden, gegeben sind, eine Ausgabe (y) unter Verwendung der untenstehenden Gleichung 7 bestimmen:
  • y o u t p u t = a r g m a x y j = 1 | y | P ( y j | y < j , x )
    Figure DE102021202469A1_0009
  • Die Prozesse, die Verfahren oder die Algorithmen, die hier offenbart werden, können zu einer Verarbeitungsvorrichtung, einer Steuereinheit oder einem Computer, die bzw. der eine beliebige vorhandene programmierbare elektronische Steuereinheit oder eine fest zugeordnete elektronische Steuereinheit enthalten kann, übermittelbar sein/durch sie implementiert werden. Entsprechend können die Prozesse, die Verfahren oder die Algorithmen als Daten und Anweisungen gespeichert werden, die durch eine Steuereinheit oder einen Computer in vielen Formen ausführbar sind und die Informationen, die in schreibgeschützten Speichermedien wie z. B. ROM-Vorrichtungen dauerhaft gespeichert sind, und Informationen, die änderbar in beschreibbaren Speichermedien wie z. B. Disketten, Magnetbändern, CDs, RAM-Vorrichtungen und weiteren magnetischen und optischen Medien gespeichert sind, enthalten, jedoch nicht darauf beschränkt sind. Die Prozesse, Verfahren oder Algorithmen können auch in einem ausführbaren Software-Objekt implementiert werden. Alternativ können die Prozesse, Verfahren oder Algorithmen vollständig oder teilweise unter Verwendung geeigneter Hardware-Komponenten wie z. B. anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Anordnungen (FPGAs), Zustandsmaschinen, Steuereinheiten oder weiterer Hardware-Komponenten oder Vorrichtungen oder einer Kombination von Hardware-, Software- und Firmware-Komponenten verkörpert werden.
  • Während oben beispielhafte Ausführungsformen beschrieben werden, ist nicht vorgesehen, dass diese Ausführungsformen alle möglichen Formen, die durch die Ansprüche eingeschlossen sind, beschreiben. Die Wörter, die in der Spezifikation verwendet werden, sind Wörter einer Beschreibung statt einer Einschränkung und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Geist und vom Umfang der Offenbarung abzuweichen. Wie zuvor beschrieben wurde, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung, die nicht ausdrücklich beschrieben oder veranschaulicht sein müssen, zu bilden. Während verschiedene Ausführungsformen derart beschrieben sein können, dass sie Vorteile schaffen oder über weitere Ausführungsformen oder Implementierungen des Stands der Technik in Bezug auf eine oder mehrere gewünschte Eigenschaften bevorzugt werden, erkennen einschlägige Fachleute, dass ein bzw. eine oder mehrere Merkmale oder Eigenschaften beeinträchtigt werden können, um gewünschte Gesamtsystemeigenschaften, die von der spezifischen Anwendung und Implementierung abhängen, zu erreichen. Diese Eigenschaften können Kosten, Festigkeit, Haltbarkeit, Lebenszykluskosten, Vermarktbarkeit, Erscheinungsform, Verpackung, Größe, Wartbarkeit, Gewicht, Herstellbarkeit, Einfachheit der Montage usw. enthalten, sind jedoch nicht darauf beschränkt. Daher liegen in dem Umfang, in dem jegliche Ausführungsformen als weniger wünschenswert als weitere Ausführungsformen oder Implementierungen des Stands der Technik in Bezug auf eine oder mehrere Eigenschaften beschrieben werden, diese Ausführungsformen nicht außerhalb des Umfangs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.

Claims (20)

  1. Verfahren für ein Modell zur generativen Textzusammenfassung, das Folgendes umfasst: Empfangen eines Eingangstextdatensatzes; Vergrößern eines Suchraums für ein oder mehrere Kandidatenwörter, die zur Einbeziehung in eine Textzusammenfassung gewählt werden sollen, wobei das eine oder die mehreren Kandidatenwörter, die im Suchraum enthalten sind, unter Verwendung eines Besten-Suchalgorithmus eingestuft werden; und Neueinstufung des einen oder der mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, unter Verwendung eines Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus), wobei der SBWR-Algorithmus einen abnehmenden Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung einen behaupteten Längenschwellenwert überschreitet, und wobei der SBWR-Algorithmus einen erhöhten Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung unter dem behaupteten Längenschwellenwert liegt.
  2. Verfahren nach Anspruch 1, wobei der SBWR-Algorithmus das eine oder die mehreren Kandidatenwörter wählt, wenn die Textzusammenfassung gleich dem behaupteten Längenschwellenwert ist.
  3. Verfahren nach Anspruch 1, wobei der SBWR-Algorithmus unter Verwendung der folgenden Formel arbeitet: S ^ s b w r ( x , y ) = S ( x , y ) + r i = 1 | y | σ ( L p r e d i ) .
    Figure DE102021202469A1_0010
  4. Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Glätten des abnehmenden Belohnungswerts und des erhöhten Belohnungswerts unter Verwendung einer Sigmoidfunktion.
  5. Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Skalieren des abnehmenden Belohnungswerts und des erhöhten Belohnungswerts unter Verwendung eines Werts, der trainiert wurde, das eine oder die mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, zu wählen.
  6. Verfahren nach Anspruch 1, das das eine oder die mehreren Kandidatenwörter neueinstuft, wenn der Eingangstextdatensatz einen vordefinierten Längenschwellenwert überschreitet.
  7. Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Berechnen einer BP-Normierung, die eine Strafe auf das eine oder die mehreren Kandidatenwörter, die den behaupteten Längenschwellenwert nicht erfüllen, anwendet.
  8. Verfahren nach Anspruch 7, wobei die BP-Normierung durch Addieren eines logarithmischen Werts einer Knappheitsstrafe mit einer Längennormierungsbewertungsfunktion berechnet wird.
  9. Verfahren nach Anspruch 8, wobei die Knappheitsstrafe derart ausgelegt ist, dass das Modell zur generativen Textzusammenfassung keine kurze Übertragung aus dem Eingangstextdatensatz erzeugt.
  10. Verfahren nach Anspruch 8, wobei die Knappheitsstrafe einen Kopierratenwert enthält, der die Knappheitsstrafe zu null verringert.
  11. Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Trainieren des Modells zur generativen Textzusammenfassung unter Verwendung eines neuronalen Transformatorenmodells.
  12. Verfahren nach Anspruch 11, wobei das neuronale Transformatorenmodell einen Codieralgorithmus für maschinelles Lernen und einen Decodieralgorithmus für maschinelles Lernen enthält.
  13. Verfahren nach Anspruch 12, das ferner Folgendes umfasst: Eingeben des Eingangstextdatensatzes in den Codieralgorithmus für maschinelles Lernen und Eingeben eines Zielzusammenfassungstextdatensatzes in den Decodieralgorithmus für maschinelles Lernen.
  14. Verfahren nach Anspruch 13, wobei das neuronale Transformatorenmodell einen Wahrscheinlichkeitswert für einen oder mehrere Zielzusammenfassungstoken unter Verwendung eines oder mehrerer Quelltoken bestimmt.
  15. Verfahren nach Anspruch 14, wobei das neuronale Transformatorenmodell den Wahrscheinlichkeitswert für den einen oder die mehreren Zielzusammenfassungstoken unter Verwendung des einen oder der mehreren Quelltoken auf der Grundlage der folgenden Gleichung bestimmt: P ( y | x ) = j = 1 | y | P ( y j | y < j , x ) .
    Figure DE102021202469A1_0011
  16. System, das zum Einsetzen eines Modells zur generativen Textzusammenfassung betreibbar ist und das Folgendes umfasst: einen Speicher, der betreibbar ist, einen Eingangstextdatensatz zu speichern; und einen Prozessor, der betreibbar ist zum Vergrößern eines Suchraums für ein oder mehrere Kandidatenwörter, die zur Einbeziehung in eine Textzusammenfassung gewählt werden sollen, wobei das eine oder die mehreren Kandidatenwörter, die im Suchraum enthalten sind, unter Verwendung eines Besten-Suchalgorithmus eingestuft werden; und Neueinstufen des einen oder der mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, unter Verwendung eines Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus), wobei der SBWR-Algorithmus einen abnehmenden Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung einen behaupteten Längenschwellenwert überschreitet, und wobei der SBWR-Algorithmus einen erhöhten Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung unter dem behaupteten Längenschwellenwert liegt.
  17. System nach Anspruch 16, wobei der SBWR-Algorithmus das eine oder die mehreren Kandidatenwörter wählt, wenn die Textzusammenfassung gleich dem behaupteten Längenschwellenwert ist.
  18. System nach Anspruch 16, wobei der Prozessor ferner betreibbar ist zum: Glätten des abnehmenden Belohnungswerts und des erhöhten Belohnungswerts unter Verwendung einer Sigmoidfunktion.
  19. System nach Anspruch 16, wobei der Prozessor ferner betreibbar ist zum: Skalieren des abnehmenden Belohnungswerts und des erhöhten Belohnungswerts unter Verwendung eines Gewichtungswerts, der trainiert wurde, das eine oder die mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, zu wählen.
  20. Nichttransitorisches computerlesbares Medium, das betreibbar ist, ein Modell zur generativen Textzusammenfassung einzusetzen, wobei im nichttransitorischen computerlesbaren Medium computerlesbare Anweisungen gespeichert sind, die betreibbar sind, ausgeführt zu werden, um die folgenden Funktionen durchzuführen: Empfangen eines Eingangstextdatensatzes; Vergrößern eines Suchraums für ein oder mehrere Kandidatenwörter, die zur Einbeziehung in eine Textzusammenfassung gewählt werden sollen, wobei das eine oder die mehreren Kandidatenwörter, die im Suchraum enthalten sind, unter Verwendung eines Besten-Suchalgorithmus eingestuft werden; und Neueinstufen des einen oder der mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, unter Verwendung eines Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus), wobei der SBWR-Algorithmus einen abnehmenden Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung einen behaupteten Längenschwellenwert überschreitet, und wobei der SBWR-Algorithmus einen erhöhten Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung unter dem behaupteten Längenschwellenwert liegt.
DE102021202469.6A 2020-03-16 2021-03-15 System und verfahren zur generativen textzusammenfassung Pending DE102021202469A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/819,655 US11562144B2 (en) 2020-03-16 2020-03-16 Generative text summarization system and method
US16/819,655 2020-03-16

Publications (1)

Publication Number Publication Date
DE102021202469A1 true DE102021202469A1 (de) 2021-09-16

Family

ID=77457387

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021202469.6A Pending DE102021202469A1 (de) 2020-03-16 2021-03-15 System und verfahren zur generativen textzusammenfassung

Country Status (3)

Country Link
US (1) US11562144B2 (de)
CN (1) CN113407709A (de)
DE (1) DE102021202469A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562144B2 (en) * 2020-03-16 2023-01-24 Robert Bosch Gmbh Generative text summarization system and method
WO2021195133A1 (en) 2020-03-23 2021-09-30 Sorcero, Inc. Cross-class ontology integration for language modeling
US11586805B2 (en) * 2021-07-26 2023-02-21 Atlassian Pty Ltd. Machine-learning-based natural language processing techniques for low-latency document summarization
US11960546B2 (en) * 2022-06-02 2024-04-16 International Business Machines Corporation Summarization of ambiguous strings

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0976069B1 (de) * 1997-04-16 2003-01-29 BRITISH TELECOMMUNICATIONS public limited company Datenzusammenfassungsgerät.
US7292972B2 (en) * 2003-01-30 2007-11-06 Hewlett-Packard Development Company, L.P. System and method for combining text summarizations
US7565372B2 (en) * 2005-09-13 2009-07-21 Microsoft Corporation Evaluating and generating summaries using normalized probabilities
US9904936B2 (en) * 2013-11-19 2018-02-27 Adobe Systems Incorporated Method and apparatus for identifying elements of a webpage in different viewports of sizes
US11127082B1 (en) * 2015-10-12 2021-09-21 Allstate Insurance Company Virtual assistant for recommendations on whether to arbitrate claims
US20170161372A1 (en) * 2015-12-04 2017-06-08 Codeq Llc Method and system for summarizing emails and extracting tasks
US20170235888A1 (en) * 2016-02-12 2017-08-17 Tellit Health, Inc. Systems and Methods for Creating Contextualized Summaries of Patient Notes from Electronic Medical Record Systems
US10585930B2 (en) * 2016-07-29 2020-03-10 International Business Machines Corporation Determining a relevancy of a content summary
US10936695B2 (en) * 2016-08-02 2021-03-02 International Business Machines Corporation Collaboration system to share tailored information with social networks
CN108027820A (zh) * 2016-09-02 2018-05-11 百度时代网络技术(北京)有限公司 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和***
RU2637998C1 (ru) * 2016-09-12 2017-12-08 Общество С Ограниченной Ответственностью "Яндекс" Способ и система создания краткого изложения цифрового контента
US11222167B2 (en) * 2019-12-19 2022-01-11 Adobe Inc. Generating structured text summaries of digital documents using interactive collaboration
US11562144B2 (en) * 2020-03-16 2023-01-24 Robert Bosch Gmbh Generative text summarization system and method

Also Published As

Publication number Publication date
US20210286951A1 (en) 2021-09-16
CN113407709A (zh) 2021-09-17
US11562144B2 (en) 2023-01-24

Similar Documents

Publication Publication Date Title
DE102021202469A1 (de) System und verfahren zur generativen textzusammenfassung
DE102018007055A1 (de) Erzeugen einer zielgerichteten Zusammenfassung eines Textinhalts, die auf ein Zielpublikum-Vokabular abgestimmt ist
DE102019000171A1 (de) Digitalumgebung zur Verortung semantischer Klassen
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE102016013487A1 (de) Semantischer Vektorraum mit natürlicher Sprache
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE102005032734B4 (de) Indexextraktion von Dokumenten
DE202017105654U1 (de) Testen von Anwendungen mit einem definierten Eingabeformat
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
DE102011079443A1 (de) Lerngewichtungen von Schriftarten für getippte Proben bei der Handschriftenschlüsselwortauffindung
DE102018005611A1 (de) Automatische Paarbildung von Fonts unter Verwendung des asymmetrischen Metriklernens
WO2012038014A1 (de) System und verfahren für relevanzbasiertes kategorisieren und zeitnahes lernen von vokabeln
DE112020003365T5 (de) Überwachte kreuzmodale wiedergewinnung für zeitreihen und text unter verwendung von multimodalen triplettverlusten
DE102018010162A1 (de) Online-Wörterbucherweitern von Wortvektoren
CN111078546B (zh) 一种表达页面特征的方法和电子设备
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE102021000736A1 (de) Modellbasierte semantische Textsuche
DE102022003003A1 (de) Automatische Fotobearbeitung mittels sprachlicher Anweisung
DE112020003538T5 (de) Kreuzmodale wiedergewinnung mit wortüberlappungsbasiertem clustern
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
DE102021004562A1 (de) Abwandlung von Szenengraphen auf Grundlage von Befehlen in natürlicher Sprache
DE102018008188A1 (de) Erstellen von Inhalt basierend auf einer Mehr-Satz-Komprimierung eines Quellinhalts
DE112010004914T5 (de) Indexieren von Dokumenten
DE102023202711A1 (de) System und verfahren mit entitätstypklarstellung für feinkörnigen faktenwissenabruf

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016340000

Ipc: G06F0040300000