DE102021202469A1

DE102021202469A1 - System und verfahren zur generativen textzusammenfassung

Info

Publication number: DE102021202469A1
Application number: DE102021202469.6A
Authority: DE
Inventors: Bingqing WANG; Kaiqiang Song
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-03-16
Filing date: 2021-03-15
Publication date: 2021-09-16
Also published as: US20210286951A1; CN113407709A; US11562144B2

Abstract

Es werden ein System und ein Verfahren zur automatischen generativen Textzusammenfassung offenbart, die eine Such- und Neueinstufungsstrategie anwenden können, um die Leistungsfähigkeit einer Zusammenfassungsaufgabe zu verbessern. Das System und das Verfahren können ein neuronales Transformatorenmodell einsetzen, um die Zusammenfassungsaufgabe zu unterstützen. Das neuronale Transformatorenmodell kann trainiert werden, menschliche Kurzfassungen zu lernen, und kann dann betreibbar sein, abstrahierende Zusammenfassungen zu erzeugen. Mit mehreren erzeugten Zusammenfassungshypothesen können ein Besten-Suchalgorithmus und ein Neueinstufungsalgorithmus eingesetzt werden, um die beste Kandidatenzusammenfassung als Teil der ausgegebenen Zusammenfassung zu wählen.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung bezieht sich auf ein System und ein Verfahren zur generativen Textzusammenfassung.
HINTERGRUND
Textzusammenfassungsstrategien tendieren dazu, Algorithmen für maschinelles Lernen einzusetzen, die eine prägnante Zusammenfassung größerer Texte erzeugen. Zum Beispiel kann eine Textzusammenfassung verwendet werden, um eine kürzere Absatzzusammenfassung für einen längeren Nachrichtenartikel oder einen Textartikel, der einige zehn bis einige hundert Seiten lang sein kann, zu erzeugen. Das eingesetzte maschinelle Lernen muss redundante oder unwichtige Informationen durchsuchen und eine Zusammenfassung erzeugen, die die Bedeutung des größeren Texts genau vermittelt.
ZUSAMMENFASSUNG
Es wird ein System und ein Verfahren für ein Modell zur generativen Textzusammenfassung offenbart. Das Modell kann einen Eingangstextdatensatz empfangen und einen Suchraum für ein oder mehrere Kandidatenwörter, die zur Einbeziehung in eine Textzusammenfassung gewählt werden sollen, vergrößern. Das Modell kann eines oder mehrere der Kandidatenwörter im Suchraum enthalten und unter Verwendung eines Besten-Suchalgorithmus einstufen. Das Modell kann auch das eine oder die mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, unter Verwendung eines Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus) neueinstufen. Es ist vorgesehen, dass der SBWR-Algorithmus einen abnehmenden Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwenden kann, wenn die Textzusammenfassung einen behaupteten Längenschwellenwert überschreitet. Der SBWR-Algorithmus kann außerdem einen erhöhten Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwenden, wenn die Textzusammenfassung unter dem behaupteten Längenschwellenwert liegt. Der SBWR-Algorithmus kann ferner das eine oder die mehreren Kandidatenwörter wählen, wenn die Textzusammenfassung gleich dem behaupteten Längenschwellenwert ist.
Das Modell kann ferner den abnehmenden Belohnungswert und den erhöhten Belohnungswert unter Verwendung einer Sigmoidfunktion glätten. Der abnehmende Belohnungswert und der erhöhte Belohnungswert können unter Verwendung eines Werts skaliert werden, der trainiert wurde, das eine oder die mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, zu wählen. Außerdem können das eine oder die mehreren Kandidatenwörter neueingestuft werden, wenn der Eingangstextdatensatz einen vordefinierten Längenschwellenwert überschreitet.
Eine BP-Normierung kann berechnet werden, um eine Strafe auf das eine oder die mehreren Kandidatenwörter, die den behaupteten Längenschwellenwert nicht erfüllen, anzuwenden. Die BP-Normierung kann durch Addieren eines logarithmischen Werts einer Knappheitsstrafe mit einer Längennormierungsbewertungsfunktion berechnet werden. Außerdem kann die Knappheitsstrafe derart ausgelegt sein, dass das Modell zur generativen Textzusammenfassung keine kurze Übertragung aus dem Eingangstextdatensatz erzeugt. Die Knappheitsstrafe kann auch einen Kopierratenwert enthalten, der die Knappheitsstrafe zu null verringert.
Das Modell zur generativen Textzusammenfassung kann auch unter Verwendung eines neuronalen Transformatorenmodells, das einen Codieralgorithmus für maschinelles Lernen und einen Decodieralgorithmus für maschinelles Lernen enthält, trainiert werden. Während der Trainingssequenz kann der Eingangstextdatensatz in den Codieralgorithmus für maschinelles Lernen eingegeben werden und ein Zielzusammenfassungstextdatensatz kann in den Decodieralgorithmus für maschinelles Lernen eingegeben werden. Das neuronale Transformatorenmodell kann auch einen Wahrscheinlichkeitswert für einen oder mehrere Zielzusammenfassungstoken unter Verwendung eines oder mehrerer Quelltoken bestimmen.
Figurenliste

1 ist ein beispielhaftes System zum Einsetzen eines neuronalen Modells zur generativen Textzusammenfassung.
2 ist ein beispielhaftes Flussidagramm zum Einsetzen des neuronalen Modells zur generativen Textzusammenfassung.
3 ist ein beispielhafter Abschnitt von Quellcode zum Implementieren der Besten-Suchstrategie.
4 ist eine beispielhafte Ausführungsform eines neuronalen Transformatorenmodells zum Training des neuronalen Modells zur generativen Textzusammenfassung.

GENAUE BESCHREIBUNG
Hier werden Ausführungsformen der vorliegenden Offenbarung beschrieben. Es versteht sich allerdings, dass die offenbarten Ausführungsformen lediglich Beispiele sind und weitere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale können übertrieben oder minimiert sein, um Details bestimmter Komponenten zu zeigen. Deshalb sollen spezifische strukturelle und funktionelle Details, die hier offenbart werden, nicht als einschränkend interpretiert werden, sondern lediglich als eine repräsentative Basis zur Unterweisung eines Fachmanns, die Ausführungsformen unterschiedlich einzusetzen. Wie einschlägige Fachleute verstehen werden, können verschieden Merkmale, die unter Bezugnahme auf eine beliebige Figur veranschaulicht und beschrieben werden, mit Merkmalen, die in einer oder mehreren weiteren Figuren veranschaulicht werden, kombiniert werden, um Ausführungsformen zu erzeugen, die nicht ausdrücklich veranschaulicht oder beschrieben sind. Die Kombinationen veranschaulichter Merkmale schaffen repräsentative Ausführungsformen für typische Anwendungen. Verschiedene Kombinationen und Modifikationen der Merkmale im Einklang mit den Unterweisungen dieser Offenbarung können allerdings für bestimmte Anwendungen oder Implementierungen wünschenswert sein.
Eine Textzusammenfassung ist im Allgemeinen der Prozess des Verringerns eines größeren Texts (z. B. eines langen Nachrichtenartikels), um eine Zusammenfassung zu erzeugen, die kontextuell korrekte Inhalte eines ursprünglich eingegebenen Textdatensatzes enthält. Um korrekte Zusammenfassungen zu erzeugen, können verschiedene Algorithmen versuchen, die Länge, den Schreibstil und die Syntax des ursprünglichen Texts zu berücksichtigen. Zwei bekannte Lösungsversuche zum Durchführen einer Textzusammenfassung enthalten eine Entnahmezusammenfassung und eine generative (d. h. eine abstrahierende) Zusammenfassung. Eine extraktive Zusammenfassung arbeitet typischerweise durch Wählen und Verwenden von Sätzen aus einem ursprünglichen Text als Teil der Zusammenfassung.
Alternativ kann eine generative Zusammenfassung eine interne semantische Repräsentation bilden und Erzeugungstechniken für natürliche Sprache verwenden, um eine abstrahierende Zielzusammenfassung aus dem ursprünglichen Text zu erstellen. Das generative Zusammenfassungssystem kann deshalb eine abstrahierende Zielzusammenfassung erstellen, die genauer als die extraktive Zusammenfassung ist. Außerdem kann die generative Zusammenfassung eine Zusammenfassung erstellen, die abstrahierender ist und eine Bedeutung ausdrückt, die dem ursprünglichen Text stärker gleicht.
Es ist vorgesehen, dass ein neuronaler Transformatorrahmen, der eine Worteinbettung und eine Codierer-Decodierer-Struktur einsetzt, verwendet werden kann, um die vom generativen Zusammenfassungssystem ausgegebene Zusammenfassung zu verbessern. Während der Decodierphase können mehrere Zusammenfassungshypothesen als Kandidaten, die das System als die zusammengefasste Ausgabe wählen kann, erzeugt werden. Wenn die Suchstrategie bekannte „Strahlsuch“-Algorithmen einsetzt, können die möglichen Ausgabekandidaten mit nur einer leichten Abweichung an einem gegebenen Wort einander gleichen. Es ist deshalb auch vorgesehen, dass eine verschiedene Strategie eingesetzt kann, in der der Suchraum der Zusammenfassungskandidaten zunächst vergrößert werden kann.
Zum Beispiel kann ein Besten-Suchalgorithmus eingesetzt werden, um den Suchraum zu vergrößern, wodurch Kandidaten erzeugt werden, die stärker diversifiziert sind. Wenn sie diversifiziert sind, kann eine Kandidatenzusammenfassung gewählt werden, die einen verschiedenen Stil oder einen verschiedenen Schwerpunkt in den Informationen aufweist. Ein Neueinstufungslösungsversuch kann dann eingesetzt werden, um den besten Kandidaten als die Ausgabe zu wählen. Der Neueinstufungslösungsversuch kann einen Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus) einsetzen, der den besten Kandidaten als die Ausgabe für die Zusammenfassung wählt.
1 veranschaulicht ein beispielhaftes System 100, das verwendet werden kann, um ein neuronales Modell zur generativen Textzusammenfassung einzusetzen. Das System 100 kann mindestens eine Rechenvorrichtung 102 enthalten. Das Rechensystem 102 kann mindestens einen Prozessor 104 enthalten, der mit einer Speichereinheit 108 funktionstechnisch verbunden ist. Der Prozessor 104 kann eine oder mehrere integrierte Schaltungen sein, die die Funktionalität einer Verarbeitungseinheit (PU) 106 implementieren. Die PU 106 kann eine handelsübliche Zentraleinheit (CPU) sein, die eine Anweisung wie z. B. eine der x86-, ARM-, Power- oder MIPS-Befehlssatzfamilien implementiert. Oder die Verarbeitungseinheit 106 kann eine handelsübliche Grafikverarbeitungseinheit (GPU) sein, die aus hunderten von Kernen zusammengesetzt ist, die betreibbar sind, zahlreiche parallele Aufgaben gleichzeitig zu verarbeiten (d. h. paralleles Berechnen).
Während des Betriebs kann die PU 106 gespeicherte Programmanweisungen ausführen, die aus der Speichereinheit 108 abgerufen werden. Die gespeicherten Programmanweisungen können eine Software enthalten, die den Betrieb der PU 106 steuert, um den hier beschriebenen Betrieb durchzuführen. In einigen Beispielen kann der Prozessor 104 ein System-on-a-Chip (SoC) sein, das die Funktionalität der PU 106, der Speichereinheit 108, einer Netzschnittstelle und von Eingabe-/Ausgabe-Schnittstellen in eine einzelne integrierte Vorrichtung integriert. Das Rechensystem 102 kann ein Betriebssystem zum Managen verschiedener Aspekte des Betriebs implementieren.
Die Speichereinheit 108 kann flüchtigen Speicher und nichtflüchtigen Speicher zum Speichern von Anweisungen und Daten enthalten. Der nichtflüchtige Speicher kann Speicher mit festen Zuständen, wie z. B. NAND-Flash-Speicher, magnetische und optische Speichermedien oder eine sonstige geeignete Datenspeichervorrichtung, die Daten behält, wenn das Rechensystem 102 deaktiviert wird oder elektrische Leistung verliert, enthalten. Der flüchtige Speicher kann statischen und dynamischen Schreib-/Lese-Speicher (RAM) enthalten, der Programmanweisungen und Daten speichert. Zum Beispiel kann die Speichereinheit 108 ein Modell 110 oder einen Algorithmus für maschinelles Lernen, einen Trainingsdatensatz 112 für das Modell 110 für maschinelles Lernen und/oder Quellrohdaten 115 speichern.
Das Rechensystem 102 kann eine Netzschnittstellenvorrichtung 122 enthalten, die konfiguriert ist, eine Kommunikation mit externen Systemen und Vorrichtungen zu schaffen. Zum Beispiel kann die Netzschnittstellenvorrichtung 122 eine drahtgebundene und/oder drahtlose Ethernet-Schnittstelle gemäß der Familie von Normen der Definition des Instituts von Elektro- und Elektronikingenieuren (IEEE) 802.11 enthalten. Die Netzschnittstellenvorrichtung 122 kann eine Mobilkommunikationsschnittstelle zum Kommunizieren mit einem zellularen Netz (z. B. 3G, 4G, 5G) enthalten. Die Netzschnittstellenvorrichtung 122 kann ferner konfiguriert sein, eine Kommunikationsschnittstelle zu einem externen Netz 124 oder einer Cloud zu schaffen.
Das externe Netz 124 kann als das World-Wide-Web oder das Internet bezeichnet werden. Das externe Netz 124 kann ein Normkommunikationsprotokoll zwischen Rechenvorrichtungen aufbauen. Das externe Netz 124 kann ermöglichen, dass Informationen und Daten zwischen Rechenvorrichtungen und Netzen einfach ausgetauscht werden. Ein oder mehrere Server 130 können in Kommunikation mit dem externen Netz 124 sein.
Das Rechensystem 102 kann eine Ein-/Ausgabe-Schnittstelle (I/O-Schnittstelle) 120 enthalten, die konfiguriert sein kann, digitale und/oder analoge Eingaben und Ausgaben zu liefern. Die I/O-Schnittstelle 120 kann zusätzliche serielle Schnittstellen zum Kommunizieren mit externen Vorrichtungen (z. B. eine Schnittstelle des universellen seriellen Busses (USB-Schnittstelle)) enthalten.
Das Rechensystem 102 kann eine Mensch-Maschine-Schnittstellenvorrichtung (HMI-Vorrichtung) 118 enthalten, die eine Vorrichtung enthalten kann, die dem System 100 ermöglicht, eine Steuereingabe zu empfangen. Beispiele von Eingabevorrichtungen können Humanschnittstelleneingaben wie z. B. Tastaturen, Mäuse, Berührungsbildschirme, Spracheingabevorrichtungen und weitere ähnliche Vorrichtungen enthalten. Das Rechensystem 102 kann eine Anzeigevorrichtung 132 enthalten. Das Rechensystem 102 kann Hardware und Software zum Ausgeben von Grafikdaten und Textdaten zur Anzeigevorrichtung 132 enthalten. Die Anzeigevorrichtung 132 kann ein elektronischer Anzeigebildschirm, ein Projektor, ein Drucker oder eine weitere geeignete Vorrichtung zum Anzeigen von Informationen zu einem Anwender oder einem Bediener enthalten. Das Rechensystem 102 kann ferner konfiguriert sein, eine Interaktion mit entfernten HMI-Vorrichtungen und entfernten Anzeigevorrichtungen über die Netzschnittstellenvorrichtung 122 zu ermöglichen.
Das System 100 kann unter Verwendung eines oder mehrerer Rechensysteme implementiert werden. Während das Beispiel ein einzelnes Rechensystem 102 darstellt, das die beschriebenen Merkmale implementiert, ist beabsichtigt, dass verschiedene Merkmale und Funktionen abgetrennt und durch mehrere Recheneinheiten in Kommunikation miteinander implementiert werden können. Die gewählte Architektur kann von einer Vielzahl von Faktoren abhängen.
Das System 100 kann einen Algorithmus für maschinelles Lernen 110 implementieren, der konfiguriert ist, die Quellrohdaten 115 (oder den Datensatz) zu analysieren. Die Quellrohdaten 115 können rohe oder unverarbeitete Sensordaten enthalten, die einen Eingangsdatensatz für ein System für maschinelles Lernen repräsentieren können. Die Quellrohdaten 115 können Video, Videosegmente, Bilder und rohe oder teilweise verarbeitete Sensordaten (z. B. Daten von einer Digitalkamera oder einem LiDAR-Sensor) enthalten. In einigen Beispielen kann der Algorithmus für maschinelles Lernen 110 ein Algorithmus eines neuronalen Netzes (z. B. ein Transformator, ein CNN, ein RNN oder ein DNN) sein, der ausgelegt sein kann, eine vorgegebene Funktion durchzuführen.
2 veranschaulicht ein beispielhaftes Flussidagramm 200 zum Einsetzen des neuronalen Modells zur generativen Textzusammenfassung. Das Flussidagramm 200 kann in Block 202 beginnen, wo ein Klartextdatensatz als eine Eingabe zum generativen Zusammenfassungssystem geliefert werden kann. Der Datensatz kann Text sein, der von einer Tastatur geliefert wird, oder der Text kann von einem oder mehreren Dokumenten, die im Speicher 118 gespeichert sind, geliefert werden. Der Text kann auch eine Internetseite oder ein Dokument sein, das vom externen Netz 124 geliefert wird.
Das Flussidagramm kann dann zu Block 204 fortschreiten, wo eine Decodierphase eingesetzt werden kann, um die beste Ausgangszusammenfassung auf der Grundlage des eingegebenen Textdatensatzes zu bestimmen. Es ist vorgesehen, dass ein „Strahlsuch“-Algorithmus eingesetzt werden kann, um eine nahezu optimale Lösung des Folgekennzeichnungsdecodierprozesses zu bestimmen. Bevorzugt kann eine Besten-Suchstrategie (z. B. eine gierige Bestensuche oder rein heuristische Suche) eingesetzt werden, die einen gegebenen Kandidaten (d. h. eine mögliche Auswahl) bevorzugt, und dann kann dem Kandidaten eine beste Bewertung zugewiesen werden.
3 veranschaulicht einen beispielhaften Abschnitt von Quellcode zum Implementieren der Besten-Suchstrategie. Wie veranschaulicht ist, kann die Besten-Suchstrategie einen Prioritäts-Heap einsetzen, der Teilzusammenfassungen des eingegebenen Texts führt. Die Teilzusammenfassungen können gemäß einer Heuristikfunktion mit einer Bewertung versehen werden. Der Besten-Suchalgorithmus kann iterativ die Teilzusammenfassung mit der höchsten Bewertung verwenden und die Teilzusammenfassung um ein Wort erweitern. Die neu erweiterte Zusammenfassungsfolge kann dann auf den Prioritäts-Heap zurückgelegt (d. h. geschoben) werden. Die Besten-Suchstrategie kann auch eine obere-k-Anzahl von Kandidaten für die neuen Zusammenfassungsfolgen erzeugen. Es ist vorgesehen, dass das obere-k durch Wählen von Wörtern, die die höchste Wahrscheinlichkeitspunktzahl (P) erzeugen, und iteratives Hinzufügen der gewählten Wörter zur Teilzusammenfassung (y) erzeugt werden können. Die höchste Wahrscheinlichkeit kann unter Verwendung der untenstehenden Gleichung 1 erzeugt werden:
$l o g P (y_{j} | y <_{j}, x)$
Wobei ein logarithmischer Wert der höchsten Wahrscheinlichkeitspunktzahl (P) die gewählten Wörter der Teilzusammenfassung (y<j) an die aktuelle Teilzusammenfassung (y_j) unter Verwendung einer bitweisen ODER-Funktion auf der Grundlage des eingegebenen Texts (x) anhängen kann.
Das Flussidagramm kann dann zu Block 206 fortschreiten, wobei ein Neueinstufungsprozess für die Zusammenfassungskandidaten eingesetzt wird und der Kandidat, der das beste Ergebnis erzeugt, gewählt wird. Es ist vorgesehen, dass nach dem Bestensuchprozess, der den Suchraum vergrößert hat, noch immer ein Neueinstufungsprozess, um die Kandidaten einzustufen, nötig sein kann, um einen oder mehrere diversifizierte Kandidaten bereitzustellen.
Zum Beispiel ist ein wichtiger, während der Textzusammenfassung zu berücksichtigender Aspekt die Länge der eingegebenen Textdaten (z. B. die Länge eines eingegebenen Textsatzes oder einer eingegebenen Zeichenkette). Die Besten-Suchstrategie wird typischerweise verbesserte Ergebnisse (d. h. höhere ausgegebene Bewertungen) an Kandidaten mit geringerer Länge liefern. Jedoch können Kurzzusammenfassungen zu abstrakt sein und können Schlüsselinformationen aus dem ursprünglichen Text verlieren. Tatsächlich muss in bestimmten Anwendungen eine übermäßig kurze Zusammenfassung, die lediglich wenige Wörter enthält, keine informative Zusammenfassung sein, wenn auch die Besten-Suchstrategie unter Verwendung von Gleichung 1 oben eine hohe logarithmische Bewertung erzeugt.
Es kann eine Längennormierung eingesetzt werden, die die Begriffshäufigkeit oder die Relevanzbewertung anpasst, um die Wirkung der Textlänge auf die Dokumenteneinstufung zu normieren. Die Längennormierung kann insbesondere derart eingesetzt werden, dass längere Textzeichenketten oder Aussagen für eine Neueinstufung erwogen werden. Im Allgemeinen wird davon ausgegangen, dass diese Längennormierung bessere Ergebnisse liefern kann als ein Strahlsuchalgorithmus. Ein Knappheitsstrafennormierungswert (BP-Normierungswert) (Ŝ_bp(x,y)) kann dann berechnet werden, um sicherzustellen, dass der eingegebene Text in die Zusammenfassungsaufgabe passt. Der BP-Normierungswert kann auch eine Strafe auf Zusammenfassungen anwenden, die eine vordefinierte erwartete Länge nicht erfüllen. Der BP-Normierungsalgorithmus kann durch Addieren des logarithmischen Werts der Knappheitsstrafe (log(bp)) mit der Längennormierungsbewertungsfunktion $(\frac{S (x, y)}{| y |})$
berechnet werden, wie in der untenstehenden Gleichung 2 gezeigt ist:
${\hat{S}}_{b p} (x, y) = log (b p) + \frac{S (x, y)}{| y |}$
Wobei x die eingegebene Folge ist, die als x = (x₁..., x_m) definiert sein kann, und y die ausgegebene Hypothese ist, die als y = (y₁..., y_m) definiert sein kann. Es ist vorgesehen, dass die Knappheitsstrafe (bp), die zum Bestrafen kurzer Übertragungen verwendet werden kann, unter Verwendung der untenstehenden Gleichung 3 berechnet werden kann:
$b p = min (e^{1 - \frac{1}{r}},1)$
Wobei r die Kopierrate ist, die einen Prozentsatz von Zusammenfassungstoken, der im Quelltext ersichtlich ist und mit einem Faktor c skaliert wurde, enthalten kann. Es ist vorgesehen, dass sich dann, wenn die Kopierrate r zu 1 gesetzt ist, die Strafe zu einem Wert in der Nähe von oder gleich 0 verringern kann. Der Bestrafungsausdruck kann ferner derart abgeändert werden, dass er veranlasst wird, Zusammenfassungen mit mehr kopiertem Quelltext zu bevorzugen, wie durch die untenstehenden Gleichungen 4A und 4B gezeigt ist:
$exp {({\hat{S}}_{b p} (x, y) = b p * exp (\sum_{j = 1}^{| y |} l o g P (y_{j} | y <_{j}, x)}^{\frac{1}{| y |}}$
$= b p * {(\prod_{j = 1}^{| y |} P (y_{j} |_{< j}, x))}^{\frac{1}{| y |}}$
Der berechnete Bestrafungsausdruck kann direkt zu einem Koeffizienten übertragen werden, der mit der Bewertung der logarithmischen Wahrscheinlichkeit multipliziert wird. Dann kann ein Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus) eingesetzt werden, um die Kandidaten neueinzustufen, wie durch die untenstehende Gleichung 5 gezeigt ist:
${\hat{S}}_{s b w r} (x, y) = S (x, y) + r \sum_{i = 1}^{| y |} σ (L_{p r e d} - i)$
Der SWBR-Algorithmus kann jedem Wort in der Zusammenfassung eine Belohnung zuweisen. Wenn die decodierte Zusammenfassungslänge größer als ein behaupteter Längenschwellenwert ist (d. h. i > ℒ_pred), wird der SWBR-Algorithmus eine abnehmende Belohnung auf die hinzugefügten Wörter anwenden. Die abnehmende Belohnung kann als σ(ℒ_pred — i) definiert sein. Wenn die decodierte Zusammenfassungslänge kleiner als der erwartete Schwellenwert ist (d. h. i ≤ ℒ_pred), belohnt der SWBR-Algorithmus jedes Wort. Es ist vorgesehen, dass der SWBR-Algorithmus den Kandidaten bevorzugen kann, der am nächsten bei der behaupteten Länge (ℒ_pred) liegt. Außerdem kann eine Sigmoidfunktion verwendet werden, um die Belohnungswerte zu glätten, und ein Koeffizient (r) kann verwendet werden, um die Gesamtbelohnung, die auf die Prüfdaten abgestimmt wird, zu skalieren. Das Flussidagramm kann dann zu Block 208 fortschreiten, in dem die ausgegebene Textzusammenfassung auf der Grundlage der Wörter, die die höchste Belohnung durch den SWBR-Algorithmus erhalten, erzeugt wird.
4 veranschaulicht eine beispielhafte Ausführungsform eines neuronalen Transformatorenmodells 400, das zum Training des neuronalen Modells zur generativen Textzusammenfassung verwendet werden kann. Das neuronale Transformatorenmodell 400 kann eine Codiererstruktur 404 und eine Decodiererstruktur 408 enthalten. Um das System zu trainieren, kann ein eingegebener Quelltext 402 - der eine Folge von Token enthalten kann - in das Codiermodul 404 eingegeben werden. Außerdem kann ein Zielzusammenfassungstext 406 - der auch eine Folge von Text oder Textzeichenketten enthalten kann - in die Decodiererstruktur 408 eingegeben werden. Es ist vorgesehen, dass das neuronale Transformatorenmodell 400 die Wahrscheinlichkeit von Zielzusammenfassungstoken bestimmen kann, wenn eine Folge von Quelltoken gegeben ist, wie durch die untenstehende Gleichung 6 gezeigt ist:
$P (y | x) = \prod_{j = 1}^{| y |} P (y | y_{< j}, x)$
Wobei y das Zielzusammenfassungstoken ist, das als y={y₁, y₂,..., y_|y|} definiert sein kann, und x eine Folge von Quelltoken ist, die als x = {x1, x2,..., x_|x|} definiert sein kann.
4 veranschaulicht auch, dass während der Trainingsphase sowohl der eingegebene (Quell-)Text 402 als auch der Zielzusammenfassungstext 406 als Trainingsfälle zum Maximieren der Verlustfunktion oder der maximalen Wahrscheinlichkeit eingegeben werden können, um einen gegebenen Satz von Trainingsfällen zu betrachten. In der Decodierphase kann das generative Zusammenfassungssystem dann, wenn die Parameter, die durch das neuronale Transformatorenmodell 400 gelernt wurden, gegeben sind, eine Ausgabe (y) unter Verwendung der untenstehenden Gleichung 7 bestimmen:
$y_{o u t p u t} = a r g m a x_{y} \prod_{j = 1}^{| y |} P (y_{j} | y_{< j}, x)$
Die Prozesse, die Verfahren oder die Algorithmen, die hier offenbart werden, können zu einer Verarbeitungsvorrichtung, einer Steuereinheit oder einem Computer, die bzw. der eine beliebige vorhandene programmierbare elektronische Steuereinheit oder eine fest zugeordnete elektronische Steuereinheit enthalten kann, übermittelbar sein/durch sie implementiert werden. Entsprechend können die Prozesse, die Verfahren oder die Algorithmen als Daten und Anweisungen gespeichert werden, die durch eine Steuereinheit oder einen Computer in vielen Formen ausführbar sind und die Informationen, die in schreibgeschützten Speichermedien wie z. B. ROM-Vorrichtungen dauerhaft gespeichert sind, und Informationen, die änderbar in beschreibbaren Speichermedien wie z. B. Disketten, Magnetbändern, CDs, RAM-Vorrichtungen und weiteren magnetischen und optischen Medien gespeichert sind, enthalten, jedoch nicht darauf beschränkt sind. Die Prozesse, Verfahren oder Algorithmen können auch in einem ausführbaren Software-Objekt implementiert werden. Alternativ können die Prozesse, Verfahren oder Algorithmen vollständig oder teilweise unter Verwendung geeigneter Hardware-Komponenten wie z. B. anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Anordnungen (FPGAs), Zustandsmaschinen, Steuereinheiten oder weiterer Hardware-Komponenten oder Vorrichtungen oder einer Kombination von Hardware-, Software- und Firmware-Komponenten verkörpert werden.
Während oben beispielhafte Ausführungsformen beschrieben werden, ist nicht vorgesehen, dass diese Ausführungsformen alle möglichen Formen, die durch die Ansprüche eingeschlossen sind, beschreiben. Die Wörter, die in der Spezifikation verwendet werden, sind Wörter einer Beschreibung statt einer Einschränkung und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Geist und vom Umfang der Offenbarung abzuweichen. Wie zuvor beschrieben wurde, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung, die nicht ausdrücklich beschrieben oder veranschaulicht sein müssen, zu bilden. Während verschiedene Ausführungsformen derart beschrieben sein können, dass sie Vorteile schaffen oder über weitere Ausführungsformen oder Implementierungen des Stands der Technik in Bezug auf eine oder mehrere gewünschte Eigenschaften bevorzugt werden, erkennen einschlägige Fachleute, dass ein bzw. eine oder mehrere Merkmale oder Eigenschaften beeinträchtigt werden können, um gewünschte Gesamtsystemeigenschaften, die von der spezifischen Anwendung und Implementierung abhängen, zu erreichen. Diese Eigenschaften können Kosten, Festigkeit, Haltbarkeit, Lebenszykluskosten, Vermarktbarkeit, Erscheinungsform, Verpackung, Größe, Wartbarkeit, Gewicht, Herstellbarkeit, Einfachheit der Montage usw. enthalten, sind jedoch nicht darauf beschränkt. Daher liegen in dem Umfang, in dem jegliche Ausführungsformen als weniger wünschenswert als weitere Ausführungsformen oder Implementierungen des Stands der Technik in Bezug auf eine oder mehrere Eigenschaften beschrieben werden, diese Ausführungsformen nicht außerhalb des Umfangs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.

Claims

Verfahren für ein Modell zur generativen Textzusammenfassung, das Folgendes umfasst: Empfangen eines Eingangstextdatensatzes; Vergrößern eines Suchraums für ein oder mehrere Kandidatenwörter, die zur Einbeziehung in eine Textzusammenfassung gewählt werden sollen, wobei das eine oder die mehreren Kandidatenwörter, die im Suchraum enthalten sind, unter Verwendung eines Besten-Suchalgorithmus eingestuft werden; und Neueinstufung des einen oder der mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, unter Verwendung eines Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus), wobei der SBWR-Algorithmus einen abnehmenden Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung einen behaupteten Längenschwellenwert überschreitet, und wobei der SBWR-Algorithmus einen erhöhten Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung unter dem behaupteten Längenschwellenwert liegt.
Verfahren nach Anspruch 1, wobei der SBWR-Algorithmus das eine oder die mehreren Kandidatenwörter wählt, wenn die Textzusammenfassung gleich dem behaupteten Längenschwellenwert ist.
Verfahren nach Anspruch 1, wobei der SBWR-Algorithmus unter Verwendung der folgenden Formel arbeitet: ${\hat{S}}_{s b w r} (x, y) = S (x, y) + r \sum_{i = 1}^{| y |} σ (L_{p r e d} - i) .$
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Glätten des abnehmenden Belohnungswerts und des erhöhten Belohnungswerts unter Verwendung einer Sigmoidfunktion.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Skalieren des abnehmenden Belohnungswerts und des erhöhten Belohnungswerts unter Verwendung eines Werts, der trainiert wurde, das eine oder die mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, zu wählen.
Verfahren nach Anspruch 1, das das eine oder die mehreren Kandidatenwörter neueinstuft, wenn der Eingangstextdatensatz einen vordefinierten Längenschwellenwert überschreitet.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Berechnen einer BP-Normierung, die eine Strafe auf das eine oder die mehreren Kandidatenwörter, die den behaupteten Längenschwellenwert nicht erfüllen, anwendet.
Verfahren nach Anspruch 7, wobei die BP-Normierung durch Addieren eines logarithmischen Werts einer Knappheitsstrafe mit einer Längennormierungsbewertungsfunktion berechnet wird.
Verfahren nach Anspruch 8, wobei die Knappheitsstrafe derart ausgelegt ist, dass das Modell zur generativen Textzusammenfassung keine kurze Übertragung aus dem Eingangstextdatensatz erzeugt.
Verfahren nach Anspruch 8, wobei die Knappheitsstrafe einen Kopierratenwert enthält, der die Knappheitsstrafe zu null verringert.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Trainieren des Modells zur generativen Textzusammenfassung unter Verwendung eines neuronalen Transformatorenmodells.
Verfahren nach Anspruch 11, wobei das neuronale Transformatorenmodell einen Codieralgorithmus für maschinelles Lernen und einen Decodieralgorithmus für maschinelles Lernen enthält.
Verfahren nach Anspruch 12, das ferner Folgendes umfasst: Eingeben des Eingangstextdatensatzes in den Codieralgorithmus für maschinelles Lernen und Eingeben eines Zielzusammenfassungstextdatensatzes in den Decodieralgorithmus für maschinelles Lernen.
Verfahren nach Anspruch 13, wobei das neuronale Transformatorenmodell einen Wahrscheinlichkeitswert für einen oder mehrere Zielzusammenfassungstoken unter Verwendung eines oder mehrerer Quelltoken bestimmt.
Verfahren nach Anspruch 14, wobei das neuronale Transformatorenmodell den Wahrscheinlichkeitswert für den einen oder die mehreren Zielzusammenfassungstoken unter Verwendung des einen oder der mehreren Quelltoken auf der Grundlage der folgenden Gleichung bestimmt: $P (y | x) = \prod_{j = 1}^{| y |} P (y_{j} | y_{< j}, x) .$
System, das zum Einsetzen eines Modells zur generativen Textzusammenfassung betreibbar ist und das Folgendes umfasst: einen Speicher, der betreibbar ist, einen Eingangstextdatensatz zu speichern; und einen Prozessor, der betreibbar ist zum Vergrößern eines Suchraums für ein oder mehrere Kandidatenwörter, die zur Einbeziehung in eine Textzusammenfassung gewählt werden sollen, wobei das eine oder die mehreren Kandidatenwörter, die im Suchraum enthalten sind, unter Verwendung eines Besten-Suchalgorithmus eingestuft werden; und Neueinstufen des einen oder der mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, unter Verwendung eines Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus), wobei der SBWR-Algorithmus einen abnehmenden Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung einen behaupteten Längenschwellenwert überschreitet, und wobei der SBWR-Algorithmus einen erhöhten Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung unter dem behaupteten Längenschwellenwert liegt.
System nach Anspruch 16, wobei der SBWR-Algorithmus das eine oder die mehreren Kandidatenwörter wählt, wenn die Textzusammenfassung gleich dem behaupteten Längenschwellenwert ist.
System nach Anspruch 16, wobei der Prozessor ferner betreibbar ist zum: Glätten des abnehmenden Belohnungswerts und des erhöhten Belohnungswerts unter Verwendung einer Sigmoidfunktion.
System nach Anspruch 16, wobei der Prozessor ferner betreibbar ist zum: Skalieren des abnehmenden Belohnungswerts und des erhöhten Belohnungswerts unter Verwendung eines Gewichtungswerts, der trainiert wurde, das eine oder die mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, zu wählen.
Nichttransitorisches computerlesbares Medium, das betreibbar ist, ein Modell zur generativen Textzusammenfassung einzusetzen, wobei im nichttransitorischen computerlesbaren Medium computerlesbare Anweisungen gespeichert sind, die betreibbar sind, ausgeführt zu werden, um die folgenden Funktionen durchzuführen: Empfangen eines Eingangstextdatensatzes; Vergrößern eines Suchraums für ein oder mehrere Kandidatenwörter, die zur Einbeziehung in eine Textzusammenfassung gewählt werden sollen, wobei das eine oder die mehreren Kandidatenwörter, die im Suchraum enthalten sind, unter Verwendung eines Besten-Suchalgorithmus eingestuft werden; und Neueinstufen des einen oder der mehreren Kandidatenwörter, die in der Textzusammenfassung enthalten sein sollen, unter Verwendung eines Wortbelohnungsalgorithmus mit weicher Bindung (SBWR-Algorithmus), wobei der SBWR-Algorithmus einen abnehmenden Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung einen behaupteten Längenschwellenwert überschreitet, und wobei der SBWR-Algorithmus einen erhöhten Belohnungswert auf das eine oder die mehreren Kandidatenwörter anwendet, wenn die Textzusammenfassung unter dem behaupteten Längenschwellenwert liegt.