DE60204827T2

DE60204827T2 - Anhebungsdetektion zur automatischen Sprachzusammenfassung

Info

Publication number: DE60204827T2
Application number: DE60204827T
Authority: DE
Inventors: Kota Musashino-shi Hidaka; Shinya Musashino-shi Nakajima; Osamu Musashino-shi Mizuno; Hidetaka Musashino-shi Kuwano; Haruhiko Musashino-shi Kojima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-08-08
Filing date: 2002-08-08
Publication date: 2006-04-27
Anticipated expiration: 2022-08-09
Also published as: EP1288911B1; EP1288911A1; US20060184366A1; DE60204827D1; US8793124B2; US20030055634A1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Verfahren zum Analysieren eines Sprachsignals, um betonte Abschnitte aus Sprache zu extrahieren, ein Sprachverarbeitungsschema zum Implantieren des Verfahrens, eine Vorrichtung, die das Schema verkörpert, und ein Programm zum Implementieren des Sprachverarbeitungsschemas.
Es ist vorgeschlagen worden, diejenigen Abschnitte von Sprachinhalt, die von dem Sprecher betont werden, als wichtig festzulegen und automatisch eine Zusammenfassung des Sprachinhaltes zu liefern. Zum Beispiel offenbart die japanische Patentoffenlegungsschrift Nr. 39890/98 ein Verfahren, in welchem ein Sprachsignal analysiert wird, um Sprachparameter in Form eines FFT-Spektrums oder LPC-Cepstrums zu erhalten, DP-Anpassung zwischen Sprachparametersequenzen eines willkürlichen und anderer stimmhafter Abschnitte ausgeführt wird, um den Abstand zwischen den zwei Sequenzen zu erfassen, und wenn der Abstand kürzer als ein vorgegebener Wert ist, werden die zwei stimmhaften Abschnitte als phonemisch ähnliche Abschnitte erkannt und mit Zeitpositionsinformation versehen, um wichtige Abschnitte der Sprache bereitzustellen. Dieses Verfahren nutzt die Erscheinung, dass in der Sprache wiederholte Wörter häufig wichtig sind.
Die japanische Patentoffenlegungsschrift Nr. 284793/00 offenbart ein Verfahren, in welchem: Sprachsignale, beispielsweise in einer Unterhaltung zwischen wenigstens zwei Sprechern, analysiert werden, um FFT-Spektra oder LPC-Cepstra als Sprachparameter zu erhalten; die Sprachparameter verwendet werden, um Phonemelemente zu erkennen, um eine phonetische Symbolfolge für jeden stimmhaften Abschnitt zu erhalten; DP-Anpassung zwischen den phonetischen Symbolfolgen zweier stimmhafter Abschnitte ausgeführt wird, um den Abstand zwischen ihnen zu erfassen; eng benachbarte stimmhafte Abschnitte, das heißt phonemisch ähnliche stimmhafte Abschnitte, als wichtige Abschnitte festgelegt werden und ein Thesaurus verwendet wird, um eine Mehrzahl von thematischen Inhalten abzuschätzen.
Um einen Satz oder ein Wort in Sprache festzustellen oder auszumachen, wird ein Verfahren vorgeschlagen, dass eine im Japanischen verbreitete Erscheinung ausnutzt, nämlich, dass die Frequenz eines Tonhöhenmusters, bestehend aus einem Ton und einer Akzentkomponente des Satzes oder Wortes in der Sprache, niedrig anfängt, dann am Ende des ersten halben Abschnitts der Aussage zum höchsten Punkt ansteigt, im zweiten halben Abschnitt dann allmählich niedriger wird und am Ende des Wortes scharf auf Null abfällt. Dieses Verfahren ist offenbart in Itabashi et al., „A Method of Utterance Summarization Considering Prosodic Information", Proc. I 239–240, Acoustical Society of Japan, Frühjahrstagung 200.
Die japanische Patentoffenlegungsschrift Nr. 80782/91 schlägt die Verwendung eines Sprachsignals vor, um eine wichtige Szene aus sprachbegleiteter Videoinformation festzulegen oder auszumachen. In diesem Fall wird das Sprachsignal analysiert, um Sprachparameter wie etwa Spektruminformation des Sprachsignals und dessen stark ansteigenden und kurzzeitig gehaltenen Signalpegel zu erhalten; die Sprachparameter werden mit vorgegebenen Modellen verglichen, zum Beispiel Sprachparametern eines bei applaudierendem Publikum erhaltenen Sprachsignals, und Sprachsignalabschnitte mit den vorgegebenen Parametern ähnlichen oder angenäherten Sprachparametern werden extrahiert und zusammengefügt.
Das in der japanischen Patentoffenlegungsschrift Nr. 39890/98 offenbarte Verfahren ist nicht anwendbar auf Sprachsignale eines unspezifizierten Sprechers und Unterhaltungen zwischen einer unidentifizierten Anzahl von Sprechern, da die Sprachparameter wie etwa das FFT-Spektrum und das LPC-Cepstrum sprecherabhängig sind. Außerdem macht es die Verwendung von Spektruminformation schwierig, das Verfahren auf natürliche gesprochene Sprache oder Konversation anzuwenden, das heißt, das Verfahren ist schwierig in einer Umgebung zu implementieren, in der mehrere Sprecher gleichzeitig sprechen.
Das in der japanischen Patentoffenlegungsschrift Nr. 284793/00 offenbarte Verfahren erkennt einen wichtigen Abschnitt als eine phonetische Symbolfolge. Wie im Fall der japanischen Patentoffenlegungsschrift Nr. 39890/98 ist dieses Verfahren schwierig anwendbar auf natürliche gesprochene Sprache und folglich schwierig zu implementieren in einer Umgebung mit gleichzeitigen Äußerungen durch eine Mehrzahl von Sprechern. Obwohl geeignet, eine Zusammenfassung eines Themas durch Verwendung von phonetisch ähnlichen Abschnitten von Sprache und eines Thesaurus zu liefern, führt dieses Verfahren keine quantitative Bewertung durch und basiert auf der Annahme, dass wichtige Wörter eine hohe Häufigkeit des Auftretens und lange Dauer haben. Die Nichtverwendung von linguistischer Information führt zu dem Problem, dass Wörter ausgemacht werden, die für das betreffende Thema irrelevant sind.
Da natürliche gesprochene Sprache häufig grammatisch fehlerhaft ist und Aussagen sprecherspezifisch sind, hat das oben erwähnte von Itabashi et al. vorgeschlagene Verfahren ein Problem bei der Bestimmung von Sprachblöcken als Einheiten für das Sprachverständnis aus der Grundfrequenz.
Das in der japanischen Patentoffenlegungsschrift Nr. 80782/91 offenbarte Verfahren erfordert die Voreinstellung von Modellen zum Erhalt von Sprachparametern, und die spezifizierten stimmhaften Abschnitte sind so kurz, dass, wenn sie zusammengefügt werden, Sprachparameter an den Übergängen unstetig werden und die Sprache daher schwierig zu hören ist.
Das Dokument F. R. Chen et al., "The use of emphasis to automatically summarize a spoken discourse", Digital Signal Processing 2, Estimation, VLSI, San Francisco, 23.–26. März 1992, Proceedings of the Conference on Acoustics, Speech and Signal Processing (ICASSP), New York, IEEE, USA, Band 5, Conf. 17, 23. März 1992, Seiten 229 bis 232, XP010058674 ISBN 0-7803-0532-0 offenbart ein Sprachverarbeitungsverfahren nach dem Oberbegriff des Anspruches 1. Dieses Verfahren dient zum automatischen Zusammenfassen von Sprache, wobei betonte Sprachregionen unter Verwendung von HMMs identifiziert werden und Nähemessungen für die betonten Regionen verwendet werden, um Zusammenfassungsauszüge auszuwählen. Das Dokument beschreibt, dass die Tonhöhenfrequenz und die Energie einen merklichen Unterschied zwischen betonter und unbetonter Sprache anzeigen, und deshalb werden sie in HMMs als Parameter verwendet, um betonte Regionen zu erfassen, und ein getrenntes HMM wird für jedes von verschiedenen Betonungsniveaus erzeugt. Dieser Stand der Technik stellt die Parameter unter Verwendung von unabhängigen Codebüchern dar, eines für die Tonhöhenfrequenz, ein anderes für die Energie.
KURZBESCHREIBUNG DER ERFINDUNG
Eine Aufgabe der vorliegenden Erfindung ist, ein Sprachverarbeitungsverfahren anzugeben, mit dem es möglich ist, auch in verrauschten Umgebungen stabil festzustellen, ob Sprache betont oder normal ist, ohne dass die Bedingungen hierfür voreingestellt werden müssen, und ohne Sprecherabhängigkeit, auch bei gleichzeitiger Äußerung durch eine Mehrzahl von Sprechern, sogar in natürlicher gesprochener Sprache, und ein Sprachverarbeitungsverfahren anzugeben, das die automatische Extraktion eines zusammengefassten Sprachabschnittes durch Verwendung des obigen Verfahrens erlaubt. Eine andere Aufgabe der vorliegenden Erfindung ist, Vorrichtungen und Programme zum Implementieren der Verfahren zu schaffen.
Diese Aufgaben werden gelöst durch ein Sprachverarbeitungsverfahren nach Anspruch 1, ein Sprachverarbeitungsprogramm zum Ausführen des Verfahrens und eine Sprachverarbeitungsvorrichtung nach Anspruch 23. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
Bei dem oben erwähnten Verfahren und der Vorrichtung können die Normalzustands-Auftretenswahrscheinlichkeiten der Sprachparametervektoren in dem Codebuch in Entsprechung zu den Codes vorab gespeichert sein, und in diesem Fall wird die Normalzustands-Auftretenswahrscheinlichkeit jedes Sprach-Subblocks in gleicher Weise berechnet und mit der Betontzustands-Auftretenswahrscheinlichkeit des Sprach-Subblocks verglichen, wodurch über den Zustand des Sprach-Subblocks entschieden wird. Alternativ kann ein Verhältnis der Betontzustands-Auftretenswahrscheinlichkeit und der Normalzustands-Auftretenswahrscheinlichkeit mit einem Referenzwert verglichen werden, um die Entscheidung zu treffen.
Ein Sprachblock, der den wie oben erwähnt als betont ermittelten Sprach-Subblock enthält, wird als ein zusammenzufassender Abschnitt extrahiert, wodurch der gesamte Sprachabschnitt zusammengefasst werden kann. Durch Ändern des Referenzwertes, mit dem das gewichtete Verhältnis verglichen wird, ist es möglich, eine Zusammenfassung mit einem gewünschten Zusammenfassungsverhältnis zu erhalten.
Wie oben erwähnt, verwendet die vorliegende Erfindung als den Sprachparametervektor einen Satz von Sprachparametern, darunter wenigstens eines von Grundfrequenz, Leistung und eine für ein Dynamikmaß charakteristische zeitliche Veränderung, und/oder eine Rahmen-Rahmen-Differenz wenigstens eines diese Parameter. Auf dem Gebiet der Sprachverarbeitung werden diese Werte in normierter Form verwendet und sind daher nicht sprecherabhängig. Ferner verwendet die Erfindung: ein Codebuch, in dem Sprachparametervektoren eines jeden solchen Satzes von Sprachparametern und deren Betontzustands-Auftretenswahrscheinlichkeiten gespeichert sind; quantisiert das Verfahren die Sprachparameter von Eingabesprache, liest aus dem Codebuch die Betontzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors, der einem durch Quantisieren eines Satzes von Sprachparametern der Eingangssprache erhaltenen Sprachparametervektor entspricht, und entscheidet, ob der Sprachparametervektor der Eingangssprache betont ist oder nicht basierend auf der aus dem Codebuch gelesenen Betontzustands-Auftretenswahrscheinlichkeit. Da dieses Entscheidungsschema frei von Semantikverarbeitung ist, kann eine sprachunabhängige Zusammenfassung implementiert werden. Dies garantiert auch, dass die Entscheidung über den Äußerungszustand in der vorliegenden Erfindung sprecherunabhängig ist, auch bei natürlicher Sprache oder Konversation.
Da ferner basierend auf der Betontzustands-Auftretenswahrscheinlichkeit des aus dem Codebuch gelesenen Sprachparameters entschieden wird, ob der Sprachparametervektor für jeden Rahmen betont ist oder nicht, und da der Sprachblock, der auch nur einen Sprach-Subblock enthält, als zusammenzufassender Abschnitt bestimmt wird, können der betonte Zustand des Sprachblocks und der zusammenzufassende Abschnitt mit bemerkenswert hoher Genauigkeit in natürlicher Sprache oder Konversation bestimmt werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Flussdiagramm, das ein Beispiel der Grundprozedur eines Äußerungs-Zusammenfassungsverfahrens gemäß einer ersten Ausgestaltung der vorliegenden Erfindung zeigt;
2 ist ein Flussdiagramm, das ein Beispiel der Prozedur zum Bestimmen von stimmhaften Abschnitten, Sprach-Subblöcken und Sprachblöcken aus Eingabesprache in Schritt S2 in 1 zeigt;
3 ist ein Diagramm zur Erläuterung der Beziehungen zwischen den stimmlosen Abschnitten, den Sprach-Subblöcken und den Sprachblöcken;
4 ist ein Flussdiagramm, das ein Beispiel der Prozedur zum Entscheiden über die Äußerung von Eingabe-Sprach-Subblöcken in Schritt S3 in 1 zeigt;
5 ist ein Flussdiagramm, das ein Beispiel für die Prozedur zur Erzeugung eines Codebuches zur Verwendung in der vorliegenden Erfindung zeigt;
6 ist ein Graph, der exemplarisch Unigramme von vektorquantisierten Codes von Sprachparametern zeigt;
7 ist ein Graph, der Beispiele von Bigrammen von vektorquantisierten Codes von Sprachparametern zeigt;
8 ist ein Graph, der ein Bigramm von Code Ch = 27 in 7 zeigt;
9 ist ein Graph zur Erläuterung einer Äußerungs-Wahrscheinlichkeitsberechnung;
10 ist ein Graph, der Wiederauftretensraten bei sprechergeschlossenem Testen (speaker's closed testing) und sprecherunabhängigem Testen unter Verwendung von 18 Kombinationen von Parametervektoren zeigt;
11 ist ein Graph, der Wiederauftretensraten in sprechergeschlossenem Testen und sprecherunabhängigem Testen, durchgeführt mit unterschiedlichen Codebuchgrößen, zeigt;
12 ist eine Tabelle, die ein Beispiel der Speicherung des Codebuches zeigt;
13 ist ein Blockdiagramm, das Beispiele von Funktionskonfigurationen von Vorrichtungen zum Entscheiden über betonte Sprache und zum Extrahieren von betonter Sprache gemäß der vorliegenden Erfindung zeigt;
14 ist eine Tabelle, die Beispiele von Bigrammen von vektorquantisierten Sprachparametern zeigt;
15 ist eine Fortsetzung von 14;
16 ist eine Fortsetzung von 15;
17 ist ein Diagramm, das Beispiele von tatsächlichen Kombinationen von Sprachparametern zeigt;
18 ist ein Flussdiagramm zur Erläuterung eines Sprachzusammenfassungsverfahrens gemäß einer zweiten Ausgestaltung der vorliegenden Erfindung;
19 ist ein Flussdiagramm, das ein Verfahren zum Vorbereiten einer Betontzustands-Wahrscheinlichkeitstabelle zeigt;
20 ist ein Diagramm zur Erläuterung der Betontzustands-Wahrscheinlichkeitstabelle;
21 ist ein Blockdiagramm, das Beispiele von Funktionskonfigurationen von Vorrichtungen zum Entscheiden über betonte Sprache und zum Extrahieren von betonter Sprache gemäß der zweiten Ausgestaltung der vorliegenden Erfindung zeigt;
22A ist ein Diagramm zur Erläuterung eines Betontzustands-HMM in Ausgestaltung 3;
22B ist ein Diagramm zur Erläuterung eines Normalzustands-HMM in Ausgestaltung 3;
23A ist eine Tabelle, die Anfangszustandswahrscheinlichkeiten von betonten und normalen Zuständen für jeden Code zeigt;
23B ist eine Tabelle, die Zustandsübergangswahrscheinlichkeiten für jeweilige Übergangszustände in den betonten Zustand zeigt;
23C ist eine Tabelle, die Zustandsübergangswahrscheinlichkeiten für jeweilige Übergangszustände in den normalen Zustand zeigt;
24 ist eine Tabelle, die Ausgabewahrscheinlichkeiten jeweiliger Codes in jeweiligen Übergangszuständen der betonten und normalen Zustände zeigt;
25 ist eine Tabelle, die eine aus einer Folge von Rahmen in einem Sprach-Subblock abgeleitete Codefolge, eine Zustandsübergangsfolge jedes Codes und die entsprechenden Zustandsübergangswahrscheinlichkeiten und Ausgabewahrscheinlichkeiten zeigt;
26 ist ein Blockdiagramm, das die Konfiguration eines Verteilungssystems für Zusammenfassungsinformation gemäß einer vierten Ausgestaltung der vorliegenden Erfindung zeigt;
27 ist ein Blockdiagramm, das die Konfiguration einer Datenzentrale in 26 zeigt;
28 ist ein Blockdiagramm, das einen detaillierten Aufbau eines Inhalte-Auffindeteiles in 27 zeigt;
29 ist ein Diagramm, das ein Beispiel eines Anzeigeschirms zum Einstellen von Bedingungen zum Auffinden zeigt;
30 ist ein Flussdiagramm zur Erläuterung des Betriebs des Inhalte-Zusammenfassungsteiles in 27;
31 ist ein Blockdiagramm, das die Konfiguration eines Inhalte-Informationsverteilungssystems einer fünften Ausgestaltung der vorliegenden Erfindung zeigt;
32 ist ein Flussdiagramm, das ein Beispiel der Prozedur zum Implementieren eines Videoabspielverfahrens gemäß einer sechsten Ausgestaltung der vorliegenden Erfindung zeigt;
33 ist ein Blockdiagramm, das ein Beispiel der Konfiguration eines Videoabspielgeräts unter Verwendung des Videoabspielverfahrens gemäß der sechsten Ausgestaltung zeigt;
34 ist ein Blockdiagramm, das eine abgewandelte Form des Videoabspielgeräts gemäß der sechsten Ausgestaltung zeigt; und
35 ist ein Diagramm, das ein Beispiel einer von dem in 34 gezeigten Videoabspielgerät erzeugten Anzeige zeigt.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSGESTALTUNGEN
Mit Bezug auf die beigefügten Zeichnungen wird eine Beschreibung des Sprachverarbeitungsverfahrens zum Entscheiden über betonte Sprache gemäß der vorliegenden Erfindung und eines Verfahrens zum Extrahieren von betonter Sprache durch Verwendung des Sprachverarbeitungsverfahrens gegeben.
AUSGESTALTUNG 1
1 zeigt die Grundprozedur zum Implementieren des Sprachzusammenfassungsverfahrens gemäß der vorliegenden Erfindung. Schritt S1 dient zum Analysieren eines Eingabesprachsignals, um dessen Sprachparameter zu berechnen. Die analysierten Sprachparameter werden oft normiert, wie später beschrieben, und für ein Hauptteil einer Verarbeitung verwendet. Schritt S2 dient dazu, Sprach-Subblöcke des Eingabesprachsignals und Sprachblöcke zu bestimmen, die jeweils aus einer Mehrzahl von Sprach-Subblöcken bestehen. Schritt S3 dient zur Bestimmung, ob die Äußerung eines Rahmens, der jeden Sprach-Subblock bildet, normal oder betont ist. Basierend auf dem Ergebnis der Bestimmung dient Schritt S4 zum Zusammenfassen von Sprachblöcken, wodurch zusammengefasste Sprache bereitgestellt wird.
Eine Beschreibung wird für eine Anwendung der vorliegenden Erfindung auf die Zusammenfassung von natürlicher gesprochener Sprache oder Unterhaltungssprache gegeben. Diese Ausgestaltung verwendet Sprachparameter, die auch in einer verrauschten Umgebung stabiler erhalten werden können und weniger sprecherabhängig sind als Spektruminformation oder dergleichen. Die aus dem Eingabesprachsignal zu berechnenden Sprachparameter sind die Grundfrequenz f0, Leistung p, ein zeitlich veränderliches Merkmal D eines Dynamikmaßes von Sprache und eine Pausendauer (stimmloser Abschnitt) T_S. Ein Verfahren zum Berechnen dieser Parameter ist zum Beispiel beschrieben bei S. Furui (1989), Digital Processing, Synthesis and Recognition, Marcel Dekker, Inc., New York und Basel. Die zeitliche Veränderung in dem Dynamikmaß der Sprache ist ein Parameter, der als Maß für die Artikulationsrate verwendet wird, und sie kann sein wie beschrieben in dem japanischen Patent Nr. 2976998. Genauer gesagt wird eine Zeitveränderungscharakteristik des Dynamikmaßes basierend auf einem LPC-Spektrum berechnet, das eine spektrale Umhüllende darstellt. Genauer gesagt werden LPC-Cepstrumkoeffizienten C₁(t), ..., C_K(t) für jeden Rahmen berechnet, und ein Dynamikmaß d zur Zeit t wird berechnet, wie durch die folgende Gleichung gegeben.
wobei ±F₀ die Anzahl von dem gegenwärtigen Rahmen vorangehenden und nachfolgenden Rahmen ist (was nicht immer eine ganze Zahl von Rahmen sein muss, sondern auch ein festgelegtes Zeitintervall sein kann), und k eine Ordnung eines Koeffizienten des LPC-Cepstrums bezeichnet, k = 1, 2, ..., K. Ein Koeffizient der Artikulationsrate, der hier verwendet wird, ist die Zahl von zeitlich veränderlichen Maximumpunkten des Dynamikmaßes pro Zeiteinheit oder dessen Änderungsgeschwindigkeit pro Zeiteinheit.
In dieser Ausgestaltung ist eine Rahmenlänge zum Beispiel auf 100 ms gesetzt, und eine durchschnittliche Grundfrequenz f0' der Eingabesprache wird für den Rahmen berechnet, während der Rahmenanfangspunkt in Schritten von 50 ms verschoben wird. Eine Durchschnittsleistung p' für jeden Rahmen wird ebenfalls berechnet. Dann werden Differenzen @@Δf0'(–i) und @@Δf0'(i) in der Grundfrequenz zwischen dem gegenwärtigen Rahmen und den Rahmen F₀' und f0' berechnet, die diesen um i Rahmen vorangehen oder nachfolgen. In ähnlicher Weise werden Unterschiede Δp'(–i) und Δp'(i) in der durchschnittlichen Leistung p' zwischen dem gegenwärtigen Rahmen und den vorhergehenden und nachfolgenden Rahmen berechnet. Dann werden f0', Δf0'(–i), Δf0'(i) und p', Δp'(–i), Δp'(i) normiert. Die Normierung wird zum Beispiel durchgeführt, indem Δf0'(–i) und Δf0'(i) durch die durchschnittliche Grundfrequenz der gesamten Wellenform der Sprache dividiert wird, deren Äußerungszustand zu bestimmen ist. Die Division kann auch durch eine durchschnittliche Grundfrequenz jedes Sprach-Subblocks oder jedes später beschriebenen Sprachblocks oder durch eine durchschnittliche Grundfrequenz alle paar Sekunden oder mehrere Minuten erfolgen. Die so normierten Werte werden ausgedrückt als f0'', Δf0''(–i) und Δf0''(i). Entsprechend werden auch p', Δp'(–i) und Δp'(i) normiert, indem sie zum Beispiel durch die durchschnittliche Leistung der gesamten Wellenform der Sprache dividiert werden, deren Äußerungszustand zu bestimmen ist. Die Normierung kann auch erfolgen durch Division durch die durchschnittliche Leistung jedes Sprach-Subblocks oder Sprachblocks oder durch die durchschnittliche Leistung alle paar Sekunden oder paar Minuten. Die normierten Werte werden ausgedrückt als p'', Δp''(–i) und Δp''(i). Der Wert i ist zum Beispiel auf 4 gesetzt.
Von der Anzahl zeitlich veränderlicher Spitzen des Dynamikmaßes, das heißt der Anzahl d_p von variierenden Maximumpunkten des Dynamikmaßes, wird ein Zählwert innerhalb einer Periode ±T, ms (Zeitbreite 2T₁) zum Beispiel vor und nach der Startzeit des gegenwärtigen Rahmens genommen. (Da in diesem Fall T₁ ausreichend länger als die Rahmenlänge gewählt ist, zum Beispiel ca. 10 mal länger, kann die Mitte der Zeitbreite 2T auf einen beliebigen Punkt in dem gegenwärtigen Rahmen gesetzt sein). Eine Differenzkomponente Δd_p(–T₂) zwischen der Zahl d_p und derjenigen d_p innerhalb der Zeitbreite 2T₁ ms um die Zeit T₁ ms, die um T₂ ms früher als die Startzeit des gegenwärtigen Rahmens ist. Entsprechend eine Differenzkomponente Δd_p(–T₂) zwischen der Anzahl d_p innerhalb der oben erwähnten Zeitbreite ±T₁ ms und der Anzahl d_p innerhalb einer Periode der Zeitbreite 2T₁ um die nach Beendigung des gegenwärtigen Rahmens verstrichene Zeit T₃. Diese Werte T₁, T₂ und T₃ sind ausreichend größer als die Rahmenlänge und sind in diesem Fall zum Beispiel so gesetzt, dass T₁ = T₂ = T₃ = 450 ms. Die Länge von stimmlosen Abschnitten vor und nach dem Rahmen wird mit T_SR und T_SF bezeichnet. In Schritt S1 werden die Werte dieser Parameter für jeden Rahmen berechnet.
2 zeigt ein Beispiel eines Verfahrens zum Bestimmen eines Sprach-Subblocks und Sprachblocks der Eingabesprache in Schritt S2. Der Sprach-Subblock ist eine Einheit, über deren Äußerungszustand entschieden werden soll. Der Sprachblock ist ein Abschnitt, dem sprachlose Abschnitte unmittelbar vorangehen und nachfolgen, zum Beispiel 400 ms oder länger.
In Schritt S201 werden stimmlose und stimmhafte Abschnitte des Eingabesprachsignals bestimmt. Üblicherweise wird als Stimmhaft-stimmlos-Entscheidung eine Abschätzung einer Periodizität im Hinblick auf ein Maximum einer Autokorrelationsfunktion oder einer modifizierten Korrelationsfunktion angenommen. Die modifizierte Korrelationsfunktion ist eine Autokorrelationsfunktion eines Vorhersageresiduals, erhalten durch Entfernen der spektralen Hülle von einem Kurzzeitspektrum des Eingangssignals. Die Stimmhaft-stimmlos-Entscheidung wird abhängig davon getroffen, ob der Spitzenwert der modifizierten Korrelationsfunktion größer als ein Schwellwert ist. Außerdem wird eine Verzögerungszeit, die den Spitzenwert liefert, berechnet, um eine Tonfrequenzperiode 1/f0 (Grundfrequenz f0) zu berechnen.
Während oben jeder Sprachparameter aus dem Sprachsignal für jeden Rahmen analysiert wird, ist es auch möglich, einen Sprachparameter zu verwenden, der durch einen Koeffizienten oder Code repräsentiert ist, der erhalten wird, wenn das Sprachsignal bereits für jeden Rahmen codiert (das heißt analysiert) ist, zum Beispiel durch ein auf dem CELP-(Code-Excited Linear Prediction)-Modell basierendes Codierschema. Im Allgemeinen enthält der durch CELP-Codierung erhaltene Code codierte Versionen eines Linearvorhersagekoeffizienten, eines Verstärkungskoeffizienten, eine Tonhöhenperiode usw. Entsprechend können diese Sprachparameter aus dem Code durch CELP decodiert werden. Zum Beispiel kann der Betrag oder der quadrierte Wert des decodierten Verstärkungskoeffizienten als Leistung für die Stimmhaft-stimmlos-Entscheidung basierend auf dem Verstärkungskoeffizienten der Tonhöhenkomponente zum Verstärkungskoeffizienten einer unperiodischen Komponente verwendet werden. Ein Kehrwert der decodierten Tonhöhenperiode kann als Tonhöhenfrequenz und infolgedessen als die Grundfrequenz verwendet werden. Das zuvor in Verbindung mit Gleichung (1) beschriebene LPC-Cepstrum zur Berechnung des Dynamikmaßes kann erhalten werden, indem durch Decodieren erhaltene LPC-Koeffizienten konvertiert werden. Natürlich kann, wenn LSP-Koeffizienten in dem Code durch CELP enthalten sind, das LPC-Cepstrum aus LPC-Koeffizienten nach Konvertierung aus den LSP-Koeffizienten erhalten werden. Da der Code durch CELP Sprachparameter enthält, die in der vorliegenden Erfindung wie oben erwähnt brauchbar sind, wird empfohlen, den Code durch CELP zu decodieren, einen Satz von benötigten Sprachparametern in jedem Rahmen zu extrahieren und einen solchen Satz von Sprachparametern der unten beschriebenen Verarbeitung zu unterziehen.
In Schritt S202 wird, wenn die Dauern t_SR und T_sF von stimmlosen Abschnitten, die stimmhaften Abschnitten vorangehen und nachfolgen, jeweils länger sind als ein vorgegebener Wert t_S Sekunden, der Abschnitt, der die stimmhaften Abschnitte zwischen den stimmlosen Abschnitten enthält, als ein Sprach-Subblock Block S definiert. Die Dauer t_S des stimmlosen Abschnitts ist zum Beispiel auf 400 ms oder mehr gesetzt.
In Schritt 203 wird die durchschnittliche Leistung p eines stimmhaften Abschnitts in dem Sprach-Subblock, vorzugsweise in dessen hinterer Hälfte, mit einem Wert verglichen, der erhalten wird durch Multiplizieren der durchschnittlichen Leistung P_S des Sprach-Subblocks mit einer Konstanten β. Wenn p < βP_S ist, wird entschieden, dass der Sprach-Subblock ein finaler Sprach-Subblock ist, und das Intervall von dem unmittelbar vorhergehenden finalen Sprach-Subblock zu dem gegenwärtig erfassten finalen Sprach-Subblock wird als ein Sprachblock festgelegt.
3 zeigt schematisch die stimmhaften Abschnitte, den Sprach-Subblock und den Sprachblock. Der Sprach-Subblock wird festgelegt, wenn die besagte Dauer eines jeden der stimmlosen Abschnitte unmittelbar vor und nach dem stimmhaften Abschnitt länger als t_s Sekunden ist. In 3 sind Sprach-Subbläcke S_j-1, S_j und S_j+1 gezeigt. Nun wird der Sprach-Subblock S_j beschrieben. Der Sprach-Subblock S_j ist aufgebaut aus Q_j stimmhaften Abschnitten, und seine durchschnittliche Leistung wird, wie oben erwähnt, im Folgenden mit P_j bezeichnet. Eine durchschnittliche Leistung eines q-ten stimmhaften Abschnitts V_q (mit q = 1, 2, ..., Q_j), der in dem Sprach-Subblock S_j enthalten ist, wird nachfolgend als p_q bezeichnet. Ob der Sprach-Subblock S_j ein finaler Sprach-Subblock des Sprachblocks B ist, wird basierend auf der durchschnittlichen Leistung von stimmhaften Abschnitten in dem späteren halben Abschnitt des Sprach-Subblocks S_j festgelegt. Wenn die durchschnittliche Leistung p_q von stimmhaften Abschnitten von q = Q_j – a bis Q_j kleiner ist als die durchschnittliche Leistung P_j des Sprach-Subblocks S_j, das heißt, wenn
ist, wird der Sprach-Subblock S_j als ein Sprachende-Subblock des Sprachblocks B definiert. In Gleichung (2) sind α und β Konstanten, und α ist ein Wert kleiner oder gleich Q_j/2 und β ist ein Wert von beispielsweise ca. 0,5 bis 1,5. Diese Werte sind experimentell vorbestimmt im Hinblick auf die Optimierung der Bestimmung des Sprach-Subblocks. Die durchschnittliche Leistung p_q der stimmhaften Abschnitte ist eine durchschnittliche Leistung aller Rahmen in den stimmhafen Abschnitten, und in dieser Ausgestaltung gilt α = 3 und β = 0,8. Auf diese Weise kann die Sprach-Subblock-Gruppe zwischen benachbarten finalen Sprach-Subblöcken als ein Sprachblock festgelegt werden.
4 zeigt ein Beispiel eines Verfahrens zum Entscheiden über den Äußerungszustand des Sprach-Subblocks in Schritt S3 in 1. Der hier erwähnte Äußerungszustand bezieht sich auf den Zustand, in welchem ein Sprecher eine betonte oder normale Äußerung macht. In Schritt S301 wird ein Satz von Sprachparametern des Eingangs-Sprach-Subblocks unter Verwendung eines zuvor vorbereiteten Codebuches vektorquantisiert (vektorcodiert). Wie später beschrieben, wird über den Äußerungszustand unter Verwendung eines Satzes von Sprachparametern entschieden, darunter ein oder mehr vorgegebene der oben erwähnten Sprachparameter: die Grundfrequenz f0'' des gegenwärtigen Rahmens, die Differenzen Δf0''(–i) und Δf0''(i) zwischen dem gegenwärtigen Rahmen und den ihm um i Rahmen vorangehenden und nachfolgenden, die durchschnittliche Leistung p'' des gegenwärtigen Rahmens, die Differenzen Δp''(–i) und Δp''(i) zwischen dem gegenwärtigen Rahmen und den ihm um i Rahmen vorangehenden und nachfolgenden, die zeitliche Änderung des Dynamikmaßes d_p und dessen Rahmen-Rahmen-Differenzen Δd_p(–T), Δd_p(T).
Beispiele eines solchen Satzes von Sprachparametern werden später im Detail beschrieben. In dem Codebuch werden als Sprachparametervektoren Werte von Sätzen von quantisierten Sprachparametern in Entsprechung zu Codes (Indizes) gespeichert, und derjenige der in dem Codebuch gespeicherten quantisierten Sprachparametervektoren, der dem Satz von Sprachparametern der Eingabesprache oder bereits durch Analyse erhaltener Sprache am nächsten ist, wird spezifiziert. Hier ist es gebräuchlich, einen quantisierten Sprachparametervektor zu spezifizieren, der die Verzerrung (den Abstand) zwischen dem Satz von Sprachparametern des Eingabesignals und dem in dem Codebuch gespeicherten Sprachparametervektor minimiert.
Erzeugung des Codebuches
5 zeigt ein Beispiel eines Verfahrens zum Erzeugen des Codebuches. Es wird eine Menge Sprache zu Trainingszwecken von einer Testperson gesammelt, und betonte Sprache und normale Sprache werden entsprechend so gekennzeichnet, dass sie voneinander unterschieden werden können (S501).
Zum Beispiel wird bei im Japanischen häufigen Äußerungen die Sprache der Person in Situationen wie unten aufgeführt als betont festgelegt. Wenn die Person:

(a) ein Substantiv und eine Konjunktion langsam laut ausspricht;
(b) beginnt, langsam laut zu sprechen, um auf einer Änderung des Gesprächsthemas zu bestehen;
(c) ihre Stimme hebt, um ein wichtiges Substantiv zu betonen usw.;
(d) in einer hohen, aber nicht so lauten Stimme spricht;
(e) in einem Ton spricht, als ob sie eine tatsächliche Absicht verbergen will, und dabei vor Ungeduld ironisch lächelt;
(f) mit hoher Stimme am Ende ihres Satzes in einem Ton spricht, als ob sie Bestätigung sucht oder umgebenden Personen eine Frage stellt;
(g) langsam mit lauter, kräftiger Stimme am Ende ihres Satzes mit emphatischem Ton spricht;
(h) mit lauter, hoher Stimme spricht, das Gespräch anderer Personen unterbricht und sich lauter als andere Personen ausdrückt;
(i) leise über einen vertraulichen Gegenstand spricht oder langsam murmelnd über einen wichtigen Gegenstand spricht, obwohl sie normalerweise laut spricht.

In diesem Beispiel ist normale Sprache solche, die die Bedingungen (a) bis (i) nicht erfüllt und die die Versuchsperson als normal empfindet.
Während oben Sprache daraufhin beurteilt wird, ob sie betont ist oder normal, kann auch Betonung in Musik spezifiziert werden. In Fall eines Liedes mit Begleitung ist Betonung spezifiziert in Situationen wie unten aufgeführt. Wenn eine Singstimme ist:

(a') laut und hochtönig;
(b') kräftig;
(c') laut und stark akzentuiert;
(d') laut und von variierender Sprachqualität;
(e') langsam und laut;
(f') laut, hochtönig und stark akzentuiert;
(g') laut, hochtönig und rufend;
(h') laut und unterschiedlich akzentuiert;
(i') langsam, laut und hochtönig, zum Beispiel am Ende eines Taktes;
(j') laut und langsam;
(k') langsam rufend und hochtönig;
(l') kräftig, zum Beispiel am Ende eines Taktes;
(m') langsam und etwas stark;
(n') von unregelmäßiger Melodie;
(o') von unregelmäßiger Melodie und hochtönig.

Außerdem kann der betonte Zustand auch in einem Musikstück ohne Worte aus folgenden Gründen spezifiziert werden.

(a'') Die Lautstärke des gesamten betonten Abschnitts nimmt zu.
(b'') Der Unterschied zwischen hohen und niedrigen Frequenzen ist groß.
(c'') Die Lautstärke nimmt zu.
(d'') Die Anzahl von Instrumenten ändert sich.
(e'') Melodie und Tempo ändern sich.

Mit einem auf solchen Daten basierend erzeugten Codebuch ist es möglich, ein Lied und Instrumentalmusik wie auch Sprache zusammenzufassen. Der in den beigefügten Ansprüchen verwendete Ausdruck "Sprache" soll sowohl Sprache als auch Lieder und Instrumentalmusik abdecken.
Für den etikettierten Abschnitt der normalen und der betonten Sprache werden, wie in Schritt S1 in 1, Sprachparameter berechnet (S502), und ein Satz von Parametern wird zur Verwendung als Sprachparametervektor ausgewählt (S503). Die Parametervektoren der etikettierten Abschnitte der normalen und der betonten Sprache werden verwendet, um ein Codebuch mit einem LBG-Algorithmus zu erzeugen. Der LBG-Algorithmus ist zum Beispiel beschrieben bei Y. Linde, A. Buzo und R. M. Gray "An algorithm for vector quantizer design", IEEE Trans. Commun., Band COM-28, Seiten 84 bis 95, 1980. Die Codebuchgröße ist auf 2^m variabel (wobei m eine ganze Zahl größer oder gleich 1 ist), und quantisierte Vektoren werden vorgegeben, die m-Bit-Codes C = 00, ..., 0 bis C = 11 ... 1 entsprechen. Das Codebuch kann vorzugsweise unter Verwendung von 2^m Sprachparametervektoren erzeugt werden, die durch Standardisierung aller Sprachparameter jedes Sprach-Subblocks oder aller Sprachparameter jedes geeigneten Abschnitts, der länger als der Sprach-Subblock ist, oder von Sprachparametern der gesamten Trainingssprache erhalten werden, zum Beispiel durch deren Durchschnittswert und eine Standardabweichung.
Wieder bezogen auf 4 werden in Schritt S301 die für jeden Rahmen der Eingabe-Sprach-Subblocks erhältlichen Parameter durch den Durchschnittswert und die zum Erzeugen des Codebuches verwendete Standardabweichung normiert, und die normierten Sprachparameter werden unter Verwendung des Codebuches vektorquantisiert (codiert), um den quantisierten Vektoren entsprechende Codes, einen für jeden Rahmen, zu erhalten. Bei den aus dem Eingabesprachsignal berechneten Sprachparametern ist der Satz von Parametern, der zum Entscheiden über den Zustand der Äußerung verwendet werden soll, derselbe wie der Satz von Parametern, der zum Erzeugen des oben erwähnten Codebuches verwendet wird.
Um einen Sprach-Subblock, der einen betonten stimmhaften Abschnitt enthält, zu spezifizieren, wird ein Code C (ein Index des quantisierten Sprachparametervektors) in dem Sprach-Subblock verwendet, um die Äußerungs-Likelihood für den normalen und den betonten Zustand zu berechnen. Zu diesem Zweck wird die Auftretenswahrscheinlichkeit eines willkürlichen Codes für den normalen und den betonten Zustand vorab berechnet, und die Auftretenswahrscheinlichkeit und der Code sind in dem Codebuch als ein Satz vorab gespeichert. Es wird nun eine Beschreibung eines Beispiels eines Verfahrens zum Berechnen der Auftretenswahrscheinlichkeit geliefert. Es sei n die Anzahl von Rahmen in einem etikettierten Abschnitt in der zur Erzeugung des oben erwähnten Codebuches verwendeten Trainingssprache. Wenn aus dem jeweiligen Rahmen erhältliche Codes von Sprachparametervektoren in zeitlicher Reihenfolge C₁, C₂, C₃, ..., C_n sind, sind die Wahrscheinlichkeiten P_Aemp und P_Anrm, dass der etikettierte Abschnitt A betont bzw. normal wird, durch die folgenden Wahrscheinlichkeiten gegeben:
wobei P_emp (C_i|C₁ ... C_i-1) eine bedingte Wahrscheinlichkeit ist, dass nach einer Codefolge C₁ ... C_i-1 der Code C_i betont wird und P_nrm (C_i|C₁ ... C_i-1) eine bedingte Wahrscheinlichkeit ist, dass bezogen auf die Codefolge C₁ ... C_i-1 der Code C_i entsprechend normal wird. P_emp(C₁) ist ein Wert, der erhalten wird, indem der Sprachparametervektor für jeden Rahmen mit Bezug auf die gesamte für das Codebuch verwendete Trainingssprache quantisiert wird, dann die Anzahl von Codes C₁ in den als betont etikettierten Abschnitten gezählt wird und der Zählwert durch die Gesamtzahl von Codes (= Anzahl von Rahmen) der gesamten als betont etikettierten Trainingssprache dividiert wird. P_nrm(C₁) ist ein Wert, der erhalten wird durch Dividieren der Anzahl der Codes C₁ in dem als normal etikettierten Abschnitt durch die Anzahl von Codes in der gesamten als normal etikettierten Trainingssprache.
Um die Berechnung der bedingten Wahrscheinlichkeit zu vereinfachen, verwendet dieses Beispiel ein bekanntes N-Gramm-Modell (mit N < i). Das N-Gramm-Modell ist ein Modell, bei dem das Auftreten eines Ereignisses zu einem bestimmten Zeitpunkt abhängig ist vom Auftreten von N – 1 unmittelbar vorhergehenden Ereignissen, zum Beispiel wird die Wahrscheinlichkeit P(C_i), das ein Code C_i in einem i-ten Rahmen auftritt, berechnet als P(C_i) = P(C_i|C_i-N+1 ... C_i-1). Durch Anwenden des N-Gramm-Modells auf die bedingten Wahrscheinlichkeiten P_emp(C_i|C₁ ... C_i-1) und P_nrm(C_i|C₁ ... C_i-1) in Gleichungen (3) und (4) können diese wie folgt angenähert werden. Pemp(Ci|C1 ... Ci-1) = Pemp(Ci|Ci-N+1 ... Ci-1) (5) Pnrm(Ci|C1 ... Ci-1) = Pnrm(Ci|Ci-N+1 ... Ci-1) (6)
Solche bedingten Wahrscheinlichkeiten P_emp(C_i|C₁ ... C_i-1) und P_nrm(C_i|C₁ ... C_i-1) in Gleichungen (3) und (4) werden alle von den bedingten Wahrscheinlichkeiten P_emp(C_i|C_i-N+1 ... C_i-1) und P_nrm(C_i|C_i-N+1 ... C_i-1)abgeleitet, die durch die bedingten Wahrscheinlichkeiten P_emp(C_i|C₁ ... C_i-1) und P_nrm(C_i|C₁ ... C_i-1)in Gleichungen (3) und (4) durch Verwendung des n-Gramm-Modells angenähert werden, doch gibt es Fälle, wo die quantisierten Codefolgen, die denjenigen der Sprachparameter des Eingabesprachsignals entsprechen, aus der Trainingssprache nicht verfügbar sind. In Anbetracht dessen werden bedingte Auftretenswahrscheinlichkeiten niedriger Ordnung durch Interpolation aus einer bedingten Auftretenswahrscheinlichkeit hoher Ordnung (das heißt mit langer Codefolge) und einer unabhängigen Auftretenswahrscheinlichkeit berechnet. Genauer gesagt wird eine lineare Interpolation unter Verwendung eines Trigramms für N = 3, eines Bigramms für N = 2 und eines Unigramms für N₁ berechnet, die nachfolgend definiert sind. Das heißt N = 3 (Trigramm): Pemp(Ci|Ci-2Ci-1), Pnrm(Ci|Ci-2Ci-1) N = 2 (Bigramm): Pemp(Ci|Ci-1), Pnrm(Ci|Ci-1) N = 1 (Unigramm): Pemp(Ci), Pnrm(Ci)
Diese drei Betontzustands-Auftretenswahrscheinlichkeiten von C_i und die drei Normalzustands-Auftretenswahrscheinlichkeiten von C_i werden verwendet, um durch die folgenden Interpolationsgleichungen P_emp(C_i|C_i-2C_i-1) und P_nrm(C_i|C_i-2C_i-1) Zu erhalten: Pemp(Ci|Ci-2Ci-1) = λemp1Pemp(Ci|Ci-2Ci-1) + λemp2Pemp(Ci|Ci-1) + λemp3Pemp(Ci) (7) Pnrm(Ci|Ci-2Ci-1) = λnrm1Pnrm(Ci|Ci-2Ci-1) + λnrm2Pnrm(Ci|Ci-1) + λnrm3Pnrm(Ci) (8)
Es sei n die Anzahl von Rahmen von Trigramm-Trainingsdaten, die als betont etikettiert sind. Wenn die Codes C₁, C₂, ..., C_N in zeitlicher Reihenfolge erhalten werden, nehmen Neuabschätzungsgleichungen für λ_emp1, λ_emp2 und λ_emp3 folgende Form an:
Entsprechend können auch λ_nrm1, λ_nrm2 und λ_nrm3 berechnet werden.
Wenn in diesem Beispiel die Anzahl von Rahmen des etikettierten Abschnitts A F_A ist und die erhaltenen Codes C₁, C₂, ..., C_FA sind, sind die Wahrscheinlichkeiten P_Aemp und P_Anrm, das der etikettierte Abschnitt A betont bzw. normal wird, wie folgt: PAemp – Pemp(C3|C1C2) ... Pemp(CFA|CFA-2CFA-1) (9) PAnrm – Pnrm(C3|C1C2) ... Pnrm(CFA|CFA-2CFA-1) (10)
Um diese Berechnung durchzuführen, werden das oben erwähnte Trigramm, Bigramm und Unigramm für willkürliche Codes berechnet und einem Codebuch gespeichert. Das heißt, in dem Codebuch werden Sätze von Sprachparametervektoren, Betontzustands-Auftretenswahrscheinlichkeiten und Normalzustands-Auftretenswahrscheinlichkeiten der jeweiligen Codes jeweils in Entsprechung zu einem der Codes gespeichert. Als Betontzustands-Auftretenswahrscheinlichkeit, die jedem Code entspricht, wird die Wahrscheinlichkeit (unabhängige Auftretenswahrscheinlichkeit), dass jeder Code in dem betonten Zustand unabhängig von einem Code, der in einem vorhergehenden Rahmen aufgetreten ist, auftritt, und/oder eine bedingte Wahrscheinlichkeit, dass der Code in betontem Zustand nach einer Folge von Codes auftritt, die für eine gegebene Zahl von kontinuierlichen Rahmen unmittelbar vor dem gegenwärtigen Rahmen auswählbar ist, verwendet. Entsprechend ist die Normalzustands-Auftretenswahrscheinlichkeit die unabhängige Auftretenswahrscheinlichkeit, dass der Code im Normalzustand auftritt, unabhängig von einem Code, der in einem vorhergehenden Rahmen aufgetreten ist, und/oder eine bedingte Wahrscheinlichkeit, dass der Code in dem Normalzustand nach einer Folge von Codes auftritt, die für eine vorgegebene Zahl von kontinuierlichen Rahmen unmittelbar vor dem gegenwärtigen Rahmen wählbar ist.
Wie in 12 abgebildet, ist in dem Codebuch für jeden der Codes C1, C2, ... der Sprachparametervektor, ein Satz von unabhängigen Auftretenswahrscheinlichkeiten für den betonten und den normalen Zustand und ein Satz von bedingten Auftretenswahrscheinlichkeiten für den betonten und den normalen Zustand gespeichert. Die Codes C1, C2, C3 ... stellen jeweils einen von Codes (Indizes) dar, die den Sprachparametervektoren in dem Codebuch entsprechen, und sie haben m-Bit-Werte "00 ... 00", "00 ... 01", 00 ... 10", ... Ein h-ter Code in dem Codebuch wird mit Ch bezeichnet; zum Beispiel stellt Ci einen i-ten Code dar.
Es wird nun eine Beschreibung von Beispielen des Unigramms und Bigramms im betonten und normalen Zustand für den Fall gegeben, wo Parameter f0'', p'' und d_p als ein Satz von Sprachparametern verwendet werden, die für die vorliegende Erfindung bevorzugt sind, und die Codebuchgröße (die Anzahl von Sprachparametervektoren) 2⁵ ist. 6 zeigt das Unigramm. Die Ordinate stellt P_emp(Ch) und P_nrm(Ch) dar, und die Abszisse stellt den Wert des Codes Ch dar (wobei C0 = 0, C1 = 1, ..., C31 = 31). Das Balkendiagramm links vom Wert jedes Codes Ch ist P_emp(Ch) und das Balkendiagramm auf der rechten Seite ist P_nrm(Ch). In diesem Beispiel wird das Unigramm des Codes C17 wie folgt:
P_emp(C17) = 0,065757
P_nrm(C17) = 0,024974.
Aus 6 ist zu sehen, dass die Unigramme von Codes der vektorquantisierten Sätze von Sprachparametern für den betonten und den normalen Zustand sich voneinander unterscheiden, da für einen willkürlichen Wert i ein signifikanter Unterschied zwischen P_emp(Ch) und P_nrm(Ch) besteht. Die 7 zeigt das Bigramm. Einige Werte von P_emp(C_i|C_i-1) und P_nrm(C_i|C_i-1) sind in 14 bis 16 gezeigt. In diesem Fall ist i die Zeitreihennummer, die der Rahmennummer entspricht, und ein willkürlicher Code Ch kann jedem Code C zugewiesen werden. In diesem Fall nimmt das Bigramm des Codes C_i = 27 die in 8 gezeigte Form an. Die Ordinate stellt P_emp(C27|C_i-1)und P_nrm(C27|C_i-1) dar, und die Abszisse stellt einen Code C_i@@-1 = Ch = 0, 1, ..., 31 dar; das Balkendiagramm rechts von jedem C_i-1 ist P_emp(C27|C_i-1), und das Balkendiagramm auf der rechten Seite ist P_nrm(C27|C_i-1). In diesem Beispiel sind die Wahrscheinlichkeiten des Übergangs vom Code C_i-1 = C9 zum Code C_i = C27 wie folgt:
P_emp(C27|C9) = 0,11009
P_nrm(C27|C9) = 0,05293.
Aus 8 ist zu sehen, dass die Bigramme der Codes der vektorquantisierten Sätze von Sprachparametern für den betonten und den normalen Zustand unterschiedliche Werte annehmen und sich somit voneinander unterscheiden, da P_emp(C27|C_i-1) und P_nrm(C27|C_i-1) sich für einen willkürlichen Code C_i-1 signifikant unterscheiden, und das gleiche für einen willkürlichen Code C_i auch in den 14 bis 16 gilt. Dies garantiert, dass das basierend auf dem Codebuch berechnete Bigramm unterschiedliche Wahrscheinlichkeiten für den normalen und den betonten Zustand liefert.
In Schritt S302 in 4 wird die Äußerungswahrscheinlichkeit für den normalen und den betonten Zustand aus den oben erwähnten in dem Codebuch in Entsprechung zu den Codes aller Rahmen des Eingabesprach-Subblocks gespeicherten Wahrscheinlichkeiten berechnet. 9 dient zur Erläuterung der Äußerungswahrscheinlichkeitsberechnung gemäß der vorliegenden Erfindung. In einem Sprach-Subblock, der zur Zeit t beginnt, werden erste bis vierte Rahmen mit i bis i + 3 bezeichnet. In diesem Beispiel ist die Rahmenlänge 100 ms, und die Rahmenverschiebungsgröße ist 50 ms, wie oben angegeben. Der i-te Rahmen hat eine Wellenform von der Zeit t bis t + 100, aus der der Code C₁ bereitgestellt wird; der (i + 1)-te Rahmen hat eine Wellenform von der Zeit t + 50 bis t + 150, aus der der Code C₂ bereitgestellt wird; der (i + 2)-te Rahmen hat eine Wellenform von der Zeit t + 100 bis t + 200, aus der der Code C₃ bereitgestellt wird, und der (i + 3)-te Rahmen hat eine Wellenform von der Zeit t + 150 bis t + 250, aus der der Code C₄ bereitgestellt wird. Das heißt, wenn die Codes der Reihenfolge der Rahmen nach C₁, C₂, C₃, C₄ sind, können Trigramme in Rahmen berechnet werden, deren Rahmennummern i + 2 und größer sind. Wenn P_Semp und P_Snrm die Wahr scheinlichkeiten darstellen, dass der Sprach-Subblock S betont bzw. normal ist, sind die Wahrscheinlichkeiten vom ersten bis vierten Rahmen wie folgt: PSemp = Pemp(C3|C1C2)Pemp(C4|C2C3) (11) PSnrm = Pnrm(C3|C1C2)Pnrm(C4|C2C3) (12)
In diesem Beispiel werden die unabhängigen Auftretenswahrscheinlichkeiten der Codes C₃ und C₄ im betonten und im normalen Zustand, die bedingten Wahrscheinlichkeiten, dass der Code C₃ nach dem Code C₂ betont und normal wird, die bedingten Wahrscheinlichkeiten, dass die Codes C₃ nach zwei aufeinanderfolgenden Codes C₁ und C₂ betont oder normal werden, und die bedingten Wahrscheinlichkeiten, dass der Code C₄ unmittelbar nach den zwei aufeinanderfolgenden Codes C₂ und C₃ betont und normal wird, aus dem Codebuch wie durch die folgenden Gleichungen gegeben erhalten: Pemp(C3|C1C2) = λemp1Pemp(C3|C1C2) + λemp2Pemp(C3|C2) + λemp3Pemp(C3) (13) Pemp(C4|C2C3) = λemp1Pemp(C4|C2C3) + λemp2Pemp(C4|C4) + λemp3Pemp(C4) (14) Pnrm(C3|C1C2) = λnrm1Pnrm(C3|C1C2) + λnrm2Pnrm(C3|C2) + λnrm3Pnrm(C3) (15) Pnrm(C4|C2C3) = λnrm1Pnrm(C4|C2C3) + λnrm2Pnrm(C4|C3) + λnrm3Pnrm(C4) (16)
Durch Verwendung der Gleichungen (13) bis (16) können die Wahrscheinlichkeiten P_Semp und P_Snrm berechnet werden, dass der Sprach-Subblock in dem ersten bis dritten Rahmen betont und normal wird. Die Wahrscheinlichkeiten P_emp(C₃|C₁C₂) und P_nrm(C₃|C₁C₂) können in dem (i + 2)-ten Rahmen berechnet werden.
Oben sind die Berechnungen für den ersten bis vierten Rahmen beschrieben worden, aber wenn in diesem Beispiel die aus jeweiligen Rahmen des Sprach-Subblocks S mit F_S Rahmen erhaltenen Codes C₁, C₂, ..., C_FS sind, werden die Wahrscheinlichkeiten P_Semp und P_Snrm, dass der Sprach-Subblock S betont und normal wird, durch die folgenden Gleichungen berechnet. PSemp = Pemp(C3|C1C2) ... Pemp(CFS|CFS-2CFS-1) (17) PSnrm = Pnrm(C3|C1C2) ... Pnrm(CFS|CFS-2CFS-1) (18)
Wenn P_Semp > P_Snrm ist, wird entschieden, dass der Sprach-Subblock S betont ist, während, wenn P_S(e) ≤ P_S(n) ist, entschieden wird, dass der Sprach-Subblock S normal ist.
Die Zusammenfassung von Sprache in Schritt S4 in 1 wird durchgeführt, indem Sprachblöcke zusammengefügt werden, die jeweils einen in Schritt S302 in 4 als betont befundenen Sprach-Subblock enthalten.
Es wurden Experimente zur Zusammenfassung von Sprache durch das erfindungsgemäße Verfahren für Sprache bei einer hausinternen Konferenz durch in Konversationen gesprochene natürliche Sprache durchgeführt. In diesem Beispiel wird die Entscheidung über den betonten Zustand und die Extraktion der zusammenzufassenden Sprachblöcke unter Bedingungen durchgeführt, die von den in 6 bis 8 abgebildeten verschieden sind.
In den Experimenten war die Codebuchgröße (die Anzahl der Codes) 256, die Rahmenlänge war 50 ms, die Rahmenverschiebungsgröße war 50 ms, und der Satz von jeden in dem Codebuch gespeicherten Sprachparametervektor bildenden Sprachparametern war [f0'', Δf0''(1), Δf0''(–1), Δf0''(4), Δf0''(–4), p'', Δp''(1), Δp''(–1), Δp''(4), Δp''(–4), d_p, Δd_p(T), Δd_p(–T)]. Das Experiment über die Äußerungsentscheidung wurde durchgeführt unter Verwendung von Sprachparametern von durch eine Versuchsperson als betont und normal etikettierten stimmhaften Abschnitten. Für 707 als betont etikettierte stimmhafte Abschnitte und 807 als normal etikettierte stimmhafte Abschnitte, die zur Erzeugung des Codebuches verwendet wurden, wurde die Äußerung von Codes aller Rahmen jedes etikettierten Abschnitts unter Verwendung von Gleichung (9) und (10) entschieden; dieses Experiment wurde durchgeführt als "Closed Testing" eines Sprechers.
Andererseits wurde für 173 als betont etikettierte Abschnitte und 193 als normal etikettierte Abschnitte, die nicht für die Erzeugung des Codebuches verwendet wurden, über die Äußerung von Codes aller Rahmen jedes etikettierten stimmhaften Abschnitts unter Verwendung von Gleichungen (9) und (10) entschieden; dieses Experiment wurde als ein sprecherunabhängiger Versuch durchgeführt. Das Closed Testing des Sprechers ist ein Experiment, das auf Sprachdaten basiert, die zum Erzeugen des Codebuches verwendet wurden, wohingegen der sprecherunabhängige Versuch ein Experiment ist, der auf Sprachdaten basiert, die nicht zum Erzeugen des Codebuches verwendet wurden.
Die experimentellen Ergebnisse wurden im Hinblick auf eine Wiederauftretensrate und eine Relevanzrate bewertet. Die hier erwähnte Wiederauftretensrate ist die Rate der korrekten Antworten durch das Verfahren nach dieser Ausgestaltung auf den von der Versuchsperson festgelegten Satz von korrekten Antworten. Die Relevanzrate ist die Rate der korrekten Antworten auf die Anzahl von Äußerungen, die mit dem Verfahren nach dieser Ausgestaltung entschieden wurden.
Closed Testing des Sprechers
Betonter Zustand:

Wiederauftretensrate 89%
Relevanzrate 90%

Normalzustand:

Wiederauftretensrate 84%
Relevanzrate 90%

Sprecherunabhängiger Versuch
Betonter Zustand:

Wiederauftretensrates 88%
Relevanzrate 90%

Normalzustand:

Wiederauftretensrate 92%
Relevanzrate 87%.

In diesem Fall ist
λ_emp1 = λ_nrm1 = 0,41
λ_emp2 = λ_nrm2 = 0,41
λ_emp3 = λ_nrm3 = 0,08.
Wie oben angegeben, ist, wenn die Anzahl von Referenzrahmen vor und nach dem gegenwärtigen Rahmen auf ±i gesetzt ist (mit i = 4), die Anzahl von Sprachparametern 29 und die Zahl ihrer Kombinationen Σ₂₉C_n. Der Bereich Σ ist n = 1 bis 29, und ₂₉C_n ist die Zahl von Kombinationen von n Sprachparametern, ausgewählt unter 29 Sprachparametern. Es wird nun eine Beschreibung einer Ausgestaltung gegeben, die ein Codebuch verwendet, in der 18 Arten von Sprachparametervektoren vorab gespeichert sind, die jeweils aus einer Kombination von Sprachparametern bestehen. Die Rahmenlänge ist 100 ms, und die Rahmenverschiebungsgröße ist 50 ms. 17 zeigt die Nummern 1 bis 18 der Kombinationen von Sprachparametern. Das Experiment über die Entscheidung einer Äußerung wurde durchgeführt unter Verwendung von Sprachparametern von stimmhaften Abschnitten, die von einer Versuchsperson als betont und normal etikettiert waren. Im Closed Testing des Sprechers wurde über die Äußerung für 613 stimmhafte Abschnitte, (?die) als betont etikettiert waren, und 803 stimmhafte Abschnitte, die als normal etikettiert waren, entschieden, die zum Erzeugen des Codebuches verwendet wurden. Beim sprecherunabhängigen Versuch wurde über die Äußerung von 171 stimmhaften Abschnitten, die als betont etikettiert waren und 193 stimmhaften Abschnitten, die als normal etikettiert waren, entschieden, die nicht zum Erzeugen des Codebuches verwendet wurden. Die Codebuchgröße ist 128 und
λ_emp1 = λ_nrm1 = 0,41
λ_emp2 = λ_nrm2 = 0,41
λ_emp3 = λ_nrm3 = 0,08
10 zeigt die Wiederauftretensrate beim Closed Testing des Sprechers und dem sprecherunabhängigen Versuch, durchgeführt unter Verwendung von 18 Sätzen von Sprachparametern. Die Ordinate stellt die Wiederauftretensrate und die Abszisse die Anzahl von Kombinationen von Sprachparametern dar. Die weißen Kreise und Kreuze zeigen Ergebnisse des Closed Testing des Sprechers bzw. des sprecherunabhängigen Versuchs an. Durchschnitt und Varianz der Wiederauftretensrate sind wie folgt:
Closed Testing des Sprechers: Durchschnitt 0,9546, Varianz 0,00013507
Sprecherunabhängiger Versuch: Durchschnitt 0,78788, Varianz 0,00046283
In 10 zeigen die durchgezogenen Linien Wiederauftretensraten 0,95 und 0,8 an, die dem Closed Testing des Sprechers bzw. dem sprecherunabhängigen Versuch entsprechen. Beliebige Kombinationen von Sprachparametern, zum Beispiel Nummern 7, 11 und 18, können verwendet werden, um Wiederauftretensraten von über 0,95 beim Closed Testing des Sprechers und von über 0,8 beim sprecherunabhängigen Versuch zu erreichen. Jede dieser drei Kombinationen umfasst eine zeitliche Änderung des Dynamikmaßes d_p, was darauf hinweist, dass die zeitliche Änderung des Dynamikmaßes d_p einer der wichtigsten Sprachparameter ist. Jede der Kombinationen Nr. 7 und 11 umfasst charakteristischerweise eine Grundfrequenz, eine Leistung, eine zeitliche Änderung des Dynamikmaßes und deren Rahmen-Rahmen-Differenzen. Die Wiederauftretensrate der Kombination Nr. 17 war zwar geringfügig kleiner als 0,8, doch benötigt die Kombination Nr. 17 nur drei Parameter und erfordert daher weniger Verarbeitungsaufwand. Wie man sieht, ermöglicht also eine geeignete Auswahl der Kombination von Sprachparametern die Realisierung einer Wiederauftretensrate von über 0,8 in der Äußerungsentscheidung für stimmhafte Abschnitte, die von einer Versuchsperson aus den oben erwähnten Gründen (a) bis (i) als betont etikettiert sind und stimmhafte Abschnitte, die von der Versuchsperson als normal etikettiert sind, weil die oben erwähnten Bedingungen (a) bis (i) nicht erfüllt sind. Dies zeigt, dass das verwendete Codebuch korrekt erzeugt ist.
Als Nächstes wird eine Beschreibung von Experimenten zur Codebuchgrößenabhängigkeit der Kombination Nr. 18 von Sprachparametern in 17 geliefert. In 11 sind Wiederauftretensraten beim Closed Testing des Sprechers und beim sprecherunabhängigen Versuch gezeigt, die mit Codebuchgrößen 2, 4, 8, 16, 32, 64, 128 und 156 erhalten sind. Die Ordinate stellt die Wiederauftretensrate und die Abszisse n in 2ⁿ dar. Die durchgezogene Linie bezeichnet das Closed Testing des Sprechers und die gestrichelte Linie den sprecherunabhängigen Versuch. In diesem Fall ist
λ_emp1 = λ_nrm1 = 0,41
λ_emp2 = λ_nrm2 = 0,41
λ_emp3 = λ_nrm3 = 0,08.
Aus 11 ist zu sehen, dass eine Steigerung der Codebuchgröße die Wiederauftretensrate steigert – dies bedeutet, dass die Wiederauftretensrate von zum Beispiel über 0,8 durch eine geeignete Auswahl der Codebuchgröße (der Anzahl von in dem Codebuch gespeicherten Codes) erreicht werden könnte. Selbst mit der Codebuchgröße von 2 ist die Wiederauftretensrate größer als 0,5. Es wird angenommen dass dies an der Verwendung bedingter Wahrscheinlichkeit liegt. Gemäß der vorliegenden Erfindung werden in dem Fall, dass das Codebuch erzeugt wird durch Vektorquantisieren des Satzes von Sprachparametervektoren des betonten Zustandes und des normalen Zustandes, wie von der Versuchsperson basierend auf den obigen Bedingungen (a) bis (i) klassifiziert, die Betontzustands- und Normalzustands-Auftretenswahrscheinlichkeiten eines willkürlichen Codes statistisch voneinander unabhängig werden; daher kann man sehen, dass über den Äußerungszustand entschieden werden kann.
Mit dem erfindungsgemäßen Verfahren wurde Sprache in einer einstündigen hausinternen Konferenz durch natürliche in Konversationen gesprochene Sprache zusammengefasst. Die zusammengefasste Sprache bestand aus 23 Sprachblöcken, und die Zeit der zusammengefassten Sprache war 11% der ursprünglichen Sprache. Um die Sprachblöcke zu bewerten, hörte eine Versuchsperson 23 Sprachblöcke an und entschied, dass 83% verständlich war. Um die zusammengefasste Sprache zu bewerten, hörte die Versuchsperson die zusammengefasste Sprache, das darauf basierende Protokoll und zum Vergleich die ursprüngliche Sprache. Die Wiederauftretensrate war 86% und die Erfassungsrate 83%. Dies bedeutet, dass das Sprachzusammenfassungsverfahren gemäß der vorliegenden Erfindung eine Sprachzusammenfassung von natürlicher gesprochener Sprache und Konversation ermöglicht.
Es wird eine Beschreibung einer Abwandlung des Verfahrens zum Entscheiden über den betonten Zustand von Sprache gemäß der vorliegenden Erfindung gegeben. In diesem Fall werden ebenfalls Sprachparameter für jeden Rahmen des Eingabesprachsignals wie in Schritt S1 in 1 berechnet, und wie zuvor in Verbindung mit 4 beschrieben, wird ein Satz von Sprachparametervektoren für jeden Rahmen des Eingabesprachsignals vektorquantisiert (vektorcodiert), wobei zum Beispiel das in 12 gezeigte Codebuch verwendet wird. Die durch die Vektorquantisierung erhaltenen Betontzustands- und Normalzustands-Auftretenswahrscheinlichkeiten des Codes werden erhalten unter Verwendung der in dem Codebuch in Entsprechung zu dem Code gespeicherten Auftretenswahrscheinlichkeiten. In diesem Fall wird jedoch die Auftretenswahrscheinlichkeit des Codes jedes Rahmens erhalten als eine Wahrscheinlichkeit, die dadurch bedingt ist, dass sie durch eine Folge von Codes von zwei aufeinanderfolgenden, dem gegenwärtigen Rahmen unmittelbar vorhergehenden Rahmen begleitet ist, und es wird entschieden, ob die Äußerung betont ist oder nicht. Das heißt, in Schritt S303 4 werden, wenn der Satz von Sprachparametern wie in 9 abgebildet vektorcodiert ist, die Betontzustands- und Normalzustands-Wahrscheinlichkeiten in dem (I + 2)-ten Rahmen wie folgt berechnet: Pe(i + 2) = Pemp(C3|C1C2) Pn(i + 2) = Pnrm(C3|C1C2)
Auch hier ist bevorzugt, P_emp(C₃|C₂C₃) durch Gleichung (13) Und P_nrm(C₃|C₂C₃) durch Gleichung (15) zu berechnen. Ein Vergleich wird durchgeführt zwischen den so berechneten Werten P_e(i + 2) und P_n(i + 2), und wenn erster größer als letzterer ist, wird entschieden, dass der (i + 2)-te Rahmen betont ist, und anderenfalls wird entschieden, dass der Rahmen nicht betont ist.
Für den nächsten, (i + 3)-ten Rahmen werden die folgenden Wahrscheinlichkeitsberechnungen durchgeführt. Pe(i + 3) = Pemp(C4|C2C3) Pn(i + 3) = Pnrm(C4|C2C3)
Wenn P_e(i + 3) > P_n(i + 3) ist, wird entschieden, dass dieser Rahmen betont ist. Entsprechend wird für die nachfolgenden Rahmen der Reihe nach entschieden, ob sie betont sind oder nicht.
Das Produkt ΠP_e der bedingten Auftretenswahrscheinlichkeiten P_e derjenigen Rahmen des gesamten Sprach-Subblocks, die als betont entschieden worden sind, und das Produkt ΠP_n bedingter Auftretenswahrscheinlichkeiten P_n derjenigen Rahmen des gesamten Sprach-Subblocks, die als normal entschieden worden sind, wird berechnet. Wenn ΠP_e > ΠP_n ist, dann wird entschieden, dass der Sprach-Subblock betont ist, wohingegen wenn ΠP_e ≤ ΠP_n ist, entschieden wird, dass der Sprach-Subblock normal ist. Alternativ werden die Gesamtsumme ΣP_e der bedingten Auftretenswahrscheinlichkeiten P_e der als betont entschiedenen Rahmen des gesamten Sprach-Subblocks und die Gesamtsumme ΣP_n der bedingten Auftretenswahrscheinlichkeiten P_e der als normal entschiede nen Rahmen im gesamten Sprach-Subblock berechnet. Wenn ΣP_e > ΣP_n ist, wird entschieden, dass der Sprach-Subblock betont ist, wohingegen wenn ΣP_e ≤ ΣP_n ist, entschieden wird, dass der Sprach-Subblock normal ist. Es ist auch möglich, über den Äußerungszustand des Sprach-Subblocks zu entscheiden, indem ein gewichteter Vergleich zwischen den Gesamtprodukten oder Gesamtsummen der bedingten Auftretenswahrscheinlichkeiten durchgeführt wird.
Auch in diesem Verfahren zum Entscheiden über den Betontzustand sind die Sprachparameter die gleichen wie die in dem zuvor beschriebenen Verfahren verwendeten, und die Auftretenswahrscheinlichkeit kann eine unabhängige Auftretenswahrscheinlichkeit oder deren Kombination mit der bedingten Auftretenswahrscheinlichkeit sein; im Falle der Verwendung dieser Kombination von Auftretenswahrscheinlichkeiten ist es bevorzugt, ein Linearinterpolationsschema für die Berechnung der bedingten Auftretenswahrscheinlichkeit zu verwenden. Außerdem ist es bei diesem Betontzustand-Entscheidungsverfahren ebenfalls wünschenswert, dass die Sprachparameter jeweils auf den Durchschnittswert der entsprechenden Sprachparameter des Sprach-Subblocks oder eines geeigneten längeren Abschnitts oder des gesamten Sprachsignals normiert sind, um einen Satz von Sprachparametern jedes Rahmens zur Verwendung in der auf die Vektorquantisierung folgenden Verarbeitung in Schritt S301 in 4 zu erhalten. Sowohl bei dem Betontzustands-Entscheidungsverfahren als auch dem Sprachzusammenfassungsverfahren ist bevorzugt, einen Satz von Sprachparametern zu verwenden, der wenigstens einen von f0'', p₀'', Δf0''(i), Δf0''(–i), Δp''(i), Δp''(–i), d_p, Δd_p(T) und Δd_p(–T) enthält.
Mit Bezug auf 13 wird eine Beschreibung der Betontzustands-Entscheidungsvorrichtung und der Betonsprache-Zusammenfassungsvorrichtung gemäß der vorliegenden Erfindung gegeben.
In ein Eingabeteil 11 wird Sprache (ein Eingabe-Sprachsignal) eingegeben, über dessen Äußerungszustand entschieden werden soll oder dass zusammengefasst werden soll. Das Eingabeteil 1 ist bei Bedarf auch mit einer Funktion zum Umwandeln des Eingabesprachsignals in digitale Form ausgestattet. Das digitalisierte Sprachsignal wird einmal in einem Speicherteil 12 gespeichert. In einem Sprachparameteranalysierteil 13 wird der oben erwähnte Satz von Sprachparametern für jeden Rahmen berechnet. Die berechneten Sprachparameter werden jeweils, wenn notwendig, mit einem Durchschnittswert der Sprachparameter normiert, und in einem Quantisierteil 14 wird ein Satz von Sprachparametern für jeden Rahmen unter Bezugnahme auf ein Codebuch 15 quantisiert, um einen Code auszugeben, der einem Betontzustandswahrscheinlichkeits-Rechenteil 16 und einem Normalzustandswahrscheinlichkeits-Rechenteil 17 zugeführt wird. Das Codebuch 15 ist zum Beispiel wie in 12 dargestellt.
In dem Betontzustandswahrscheinlichkeits-Rechenteil wird die Betontzustands-Auftretenswahrscheinlichkeit des Codes des quantisierten Satzes von Sprachparametern zum Beispiel mit Gleichung (13) oder (14) unter Verwendung der in dem Codebuch 15 gespeicherten Wahrscheinlichkeit des entsprechenden Sprachparametervektors berechnet. Entsprechend wird in dem Normalzustandswahrscheinlichkeits-Rechenteil 17 die Normalzustands-Auftretenswahrscheinlichkeit des Codes des quantisierten Satzes von Sprachparametern berechnet, zum Beispiel mit Gleichung (15) oder (16) unter Verwendung der in dem Codebuch 15 gespeicherten Wahrscheinlichkeit des entsprechenden Sprachparametervektors. Die für jeden Rahmen in Betontzustands- und Normalzustands-Wahrscheinlichkeitsrechenteilen 16 und 17 berechneten Betontzustands- und Normalzustands-Auftretenswahrscheinlichkeiten und der Code jedes Rahmens werden in dem Speicherteil 12 zusammen mit der Rahmennummer gespeichert. Ein Betontzustands-Entscheidungsteil 18 vergleicht die Betontzustands-Auftretenswahrscheinlichkeit mit der Normalzustands-Auftretenswahrscheinlichkeit und entscheidet, ob Sprache des Rahmens betont ist oder nicht, danach, ob erstere höher als letztere ist. Die oben erwähnten Teile sind durch ein Steuerteil 19 sequentiell gesteuert.
Die Sprachzusammenfassungsvorrichtung ist implementiert durch Verbinden der gestrichelten Blöcke mit der durch die durchgezogenen Blöcke in 13 angegebenen Betontzustands-Entscheidungsvorrichtung. Das heißt, die Sprachparameter jedes in dem Speicherteil 12 gespeicherten Rahmens werden einem Stimmlosabschnitts-Entscheidungsteil 21 und einem Stimmhaftabschnitts-Entscheidungsteil 22 zugeführt. Das Stimmlosabschnitts-Entscheidungsteil 21 entscheidet, ob jeder Rahmen ein stimmloser Abschnitt ist oder nicht, wohingegen das Stimmhaftabschnitts-Entscheidungsteil 22 entscheidet, ob jeder Rahmen ein stimmhafter Abschnitt ist oder nicht. Die Ergebnisse der Entscheidung durch die Entscheidungsteile 21 und 22 werden in ein Sprach-Subblock-Entscheidungsteil 23 eingegeben.
Basierend auf den Entscheidungsergebnissen über den stimmlosen Abschnitt und den stimmhaften Abschnitt entscheidet das Sprach-Subblock-Entscheidungsteil 23, dass ein Abschnitt, der einen stimmhaften Abschnitt mit vorhergehenden und nachfolgenden, jeweils durch mehr als eine vorgegebene Zahl von aufeinanderfolgenden Rahmen definierten stimmlosen Abschnitten enthält, ein Sprach-Subblock wie zuvor beschrieben ist. Das Ergebnis der Entscheidung durch das Sprach-Subblock-Entscheidungsteil 23 wird in das Speicherteil 12 eingegeben, wo es zu der Sprachdatenfolge hinzugefügt wird und eine Sprach-Subblock-Nummer einer von den stimmlosen Abschnitten umgebenen Rahmengruppe zugeteilt wird. Gleichzeitig wird das Ergebnis der Entscheidung durch das Sprach-Subblock-Entscheidungsteil 23 in ein Final-Sprach-Subblock-Entscheidungsteil 24 eingegeben.
In dem Final-Sprach-Subblock-Entscheidungsteil 23 wird ein finaler Sprach-Subblock erfasst, indem zum Beispiel das zuvor mit Bezug auf 3 beschriebene Verfahren verwendet wird, und das Ergebnis der Entscheidung durch das Entscheidungsteil 23 wird in ein Sprachblockentscheidungsteil 25 eingegeben, worin ein Abschnitt aus dem Sprach-Subblock, der unmittelbar auf jeden erfassten finalen Sprach-Subblock folgt, bis zum Ende des nächsten erfassten finalen Sprach-Subblocks als ein Sprachblock festgelegt wird. Das Ergebnis der Entscheidung durch das Entscheidungsteil 25 wird ebenfalls in das Speicherteil 12 geschrieben, worin die Sprachblocknummer der Sprach-Subblock-Nummernfolge zugeteilt wird.
Während des Betriebes der Sprachzusammenfassungsvorrichtung werden in dem Betontzustands-Wahrscheinlichkeitsrechenteil 16 und dem Normalzustands-Wahrscheinlichkeitsrechenteil 17 die Betontzustands- und Normalzustands-Auftretenswahrscheinlichkeiten jedes Rahmens, der jeden Sprach-Subblock bildet, aus dem Speicherteil 12 gelesen, und die jeweiligen Wahrscheinlichkeiten für jeden Sprach-Subblock werden zum Beispiel mit Gleichung (17) und (18) berechnet. Das Betontzustands-Entscheidungsteil 18 macht einen Vergleich zwischen den jeweils für jeden Sprach-Subblock berechneten Wahrscheinlichkeiten und entscheidet, ob der Sprach-Subblock betont oder normal ist. Wenn auch nur einer der Sprach-Subblöcke in dem Sprachblock als betont festgelegt wird, gibt ein Zusammenfassungsabschnitts-Ausgabeteil 26 den Sprachblock als einen Zusammenfassungsabschnitt aus. Diese Teile stehen unter Steuerung des Steuerteiles 19.
Sowohl die Betontzustands-Entscheidungsvorrichtung als auch die Sprachzusammenfassungsvorrichtung sind implementiert durch Ausführung eines Programms auf einem Computer. In diesem Fall lädt das durch eine CPU oder einen Mikroprozessor gebildete Steuerteil 19 ein Betontzustands-Entscheidungsprogramm oder ein Sprachzusammenfassungsprogramm in einen Programmspeicher 27 über eine Kommunikationsleitung oder von einer CD-ROM oder Magnetplatte und führt das Programm aus. Dabei können auch die Inhalte des Codebuches über die Kommunikationsleitung geladen werden, wie für das oben erwähnte Programm der Fall.
AUSGESTALTUNG 2
Bei dem Betontzustands-Entscheidungsverfahren und dem Sprachzusammenfassungsverfahren gemäß der ersten Ausgestaltung wird für jeden Sprachblock entschieden, dass er zusammengefasst wird, wenn er auch nur einen Sprach-Subblock enthält, dessen Betontzustandswahrscheinlichkeit höher als die Normalzustandswahrscheinlichkeit ist – dies verhindert die Möglichkeit von Sprachzusammenfassung mit einer willkürlichen Rate (Kompressionsrate). Diese Ausgestaltung betrifft ein Sprachzusammenfassungsverfahren, eine Vorrichtung und ein Programm, die automatische Sprachzusammenfassung mit einer gewünschten Rate erlauben.
18 zeigt die Grundprozedur des Sprachzusammenfassungsverfahrens gemäß der vorliegenden Erfindung.
Die Prozedur startet mit Schritt S11, um die Betontzustands- und Normalzustandswahrscheinlichkeiten eines Sprach-Subblocks zu berechnen.
Schritt S12 ist ein Schritt zum Eingeben von Bedingungen für die Zusammenfassung. In diesem Schritt wird zum Beispiel einem Benutzer Information dargeboten, die ihn veranlasst, wenigstens die Zeitdauer einer letztendlichen Zusammenfassung und/oder die Zusammenfassungsrate und/oder die Kompressionsrate einzugeben. In diesem Fall kann der Benutzer auch den von ihm gewünschten unter einer Mehrzahl von voreingestellten Werten der Zeitdauer der fertigen Zusammenfassung, der Zusammenfassungsrate und der Kompressionsrate eingeben.
Schritt S13 ist ein Schritt zum wiederholten Ändern der Bedingung für die Zusammenfassung, um die in Schritt S12 eingegebene Zeitlänge der fertigen Zusammenfassung oder Zusammenfassungsrate oder Kompressionsrate festzulegen.
Schritt S14 ist ein Schritt zum Bestimmen der für die Zusammenfassung vorgesehenen Sprachblö cke unter Verwendung der in Schritt S13 gesetzten Bedingung und zum Berechnen der ungefähren Zeit der für die Zusammenfassung vorgesehenen Sprachblöcke, das heißt der Zeitdauer der zusammenzufassenden Sprachblöcke.
Schritt S15 ist ein Schritt zum Wiedergeben einer Folge von in Schritt S14 festgelegten Sprachblöcken.
19 zeigt im Detail den Schritt S11 in 18.
In Schritt S101 wird die zusammenzufassende Sprachwellenformfolge in Sprach-Subblöcke unterteilt.
In Schritt S102 wird ein Sprachblock von der in Schritt 101 unterteilten Folge von Sprach-Subblöcken getrennt. Wie zuvor mit Bezug auf 3 beschrieben, ist der Sprachblock eine Spracheinheit, die aus einem oder mehreren Sprach-Subblöcken gebildet ist und deren Bedeutung von einer großen Mehrheit von Zuhörern verstanden werden kann, wenn die Sprache dieses Abschnitts wiedergegeben wird. Die Sprach-Subblöcke und Sprachblöcke in Schritt S101 und S102 können mit dem gleichen Verfahren festgelegt werden wie zuvor mit Bezug auf 2 beschrieben.
In den Schritten S103 und S104 wird für jeden in Schritt S101 festgelegten Sprach-Subblock dessen Betontzustandswahrscheinlichkeit P_Semp und Normalzustandswahrscheinlichkeit P_Snrm unter Verwendung des zuvor mit Bezug auf 18 beschriebenen Codebuches und der oben erwähnten Gleichungen (17) und (18) berechnet.
In Schritt S105 werden die in Schritten S103 und S104 für jeweilige Sprach-Subblöcke berechneten Betontzustands- und Normalzustandswahrscheinlichkeiten P_Semp und P_Snrm für jeden Sprach-Subblock sortiert und als Betontzustands-Wahrscheinlichkeitstabelle in einem Speichermittel gespeichert.
20 zeigt ein Beispiel der in dem Speichermittel gespeicherten Betontzustands-Wahrscheinlichkeitstabelle. Bezugszeichen M1, M2, M3, ... bezeichnen Sprach-Subblock-Wahrscheinlichkeitsspeicherteile, in denen jeweils die Sprach-Subblock-Betontzustands- und -Normalzustandswahrscheinlichkeiten P_Semp und P_Snrm gespeichert sind, die für jeden Sprach-Subblock berechnet sind. In jedem der Sprach-Subblock-Wahrscheinlichkeitsspeicherteile M1, M2, M3, ... sind die jedem Sprach-Subblock S_j zugewiesene Sprach-Subblocknummer j, die Sprachblocknummer B, zu der der Sprach-Subblock gehört, seine Anfangszeit (ab dem Anfang von zusammenzufassender Zielsprache gezählte Zeit) und Endzeit, seine Betontzustands- und Normalzustandswahrscheinlichkeiten und die Anzahl F_S von den Sprach-Subblock bildenden Rahmen gespeichert.
Die Zusammenfassungsbedingung, die in Schritt S12 in 18 eingegeben wird, ist die Zusammenfassungsrate X (wobei X eine positive ganze Zahl ist), die die Zeit 1/X, auf die die Gesamtlänge des zusammenzufassenden Sprachinhaltes reduziert wird, oder die Zeitdauer T_S des zusammengefassten Abschnitts angibt.
In Schritt S13 wird ein Gewichtungskoeffizient W als Anfangswert für die in Schritt S12 eingegebene Zusammenfassungsbedingung auf 1 gesetzt. Der Gewichtungskoeffizient wird in Schritt S14 eingegeben.
In Schritt S14 werden die für jeden Sprach-Subblock in der Betontzustands-Wahrscheinlichkeitstabelle gespeicherten Betontzustands- und Normalzustandswahrscheinlichkeiten P_Semp und P_Snrm gelesen, um sie zu vergleichen und die Sprach-Subblöcke zu bestimmen, die die folgende Beziehung erfüllen PSemp > PSnrm (19)
Es werden Sprachblöcke bestimmt, die auch nur einen solchen festgelegten Sprach-Subblock enthalten, gefolgt von der Berechnung der Gesamtzeit T_G (Minuten) der festgelegten Sprachblöcke.
Dann wird ein Vergleich gemacht zwischen der Gesamtzeit T_G einer Folge von solchen festgelegten Sprachblöcken und der als Zusammenfassungsbedingung voreingestellten Zusammenfassungszeit T_S. Wenn T_G ≅ T_S (wenn zum Beispiel ein Fehler von T_G in Bezug auf T_S im Bereich von ± einigen Prozent liegt), wird die Sprachblockfolge als zusammengefasste Sprache wiedergegeben.
Wenn der Fehlerwert der Gesamtzeit T_G des zusammengefassten Inhalts mit Bezug auf die voreingestellte Zeit T_S größer als ein vorgegebener Wert ist und wenn sie die Beziehung T_G > T_S erfüllen, wird entschieden, dass die Gesamtzeit T_G der Sprachblockfolge länger als die voreingestellte Zeit T_S ist, und Schritt S18 in 18 wird erneut durchgeführt. In Schritt S18 wird, wenn entschieden wird, dass die Gesamtzeit T_G der mit dem Gewichtungskoeffizienten W = 1 erfassten Folge von Sprachblöcken "länger" als die voreingestellte Zeit T_S ist, die Betontzustandswahrscheinlichkeit P_Semp mit einem Gewichtungskoeffizienten W multipliziert, der kleiner als der gegenwärtige Wert ist. Der Gewichtungskoeffizient W wird zum Beispiel berechnet als W = 1 – 0,001 × L (wobei L die Anzahl der Verarbeitungsrunden ist).
In der ersten Runde der Verarbeitung werden also die aus der Betontzustands-Wahrscheinlichkeitstabelle gelesenen, für alle Sprach-Subblöcke des Sprachblocks berechneten Betontzustands-Wahrscheinlichkeiten P_Semp durch Multiplikation mit dem Gewichtungskoeffizienten W = 0,999 gewichtet, der durch W = 1 – 0,001 × 1 bestimmt ist. Die so gewichtete Betontzustandswahrscheinlichkeit P_Semp jedes Sprach-Subblocks wird verglichen mit der Normalzustandswahrscheinlichkeit P_Snrm jedes Sprach-Subblocks, um Sprach-Subblöcke zu bestimmen, die eine Beziehung WP_Semp > WP_Snrm erfüllen.
In Schritt S14 wird über Sprachblöcke, die die wie oben erwähnt festgelegten Sprach-Subblöcke enthalten, entschieden, um erneut eine Folge von zusammenzufassenden Sprachblöcken zu erhalten. Gleichzeitig wird die Gesamtzeit T_G dieser Sprachblockfolge zum Vergleich mit der voreingestellten Zeit T_S berechnet. Wenn T_G > T_S ist, wird entschieden, dass die Sprachblockfolge die zusammenzufassende Sprache ist, und sie wird wiedergegeben.
Wenn das Ergebnis des ersten Gewichtungsprozesses immer noch T_G > T_S ist, wird der Schritt des Änderns der Zusammenfassungsbedingung als eine zweite Verarbeitungsschleife wiederholt. In diesem Fall wird der Gewichtungskoeffizient berechnet als W = 1 – 0,001 × 2. Jede Betontzustandswahrscheinlichkeit P_Semp wird mit W = 0,998 gewichtet.
Indem die Zusammenfassungsbedingung geändert wird durch schrittweises Verringern des Wertes des Gewichtungskoeffizienten W bei jeder Ausführung der Schleife, wie oben beschrieben, ist es möglich, die Anzahl von Sprach-Subblöcken, die die Bedingung WP_Semp > WP_Snrm erfüllen, allmählich zu verringern. Dies erlaubt die Erfassung des Zustandes T_G ≅ T_S, der die Zusammenfassungsbedingung erfüllt.
Wenn in dem ursprünglichen Zustand entschieden wird, dass T_G < T_S ist, wird der Gewichtungskoeffizient W kleiner als der gegenwärtige Wert berechnet, zum Beispiel W = 1 – 0,001 × L, und eine Folge von Normalzustandswahrscheinlichkeiten P_Snrm wird durch Multiplikation mit diesem Gewichtungskoeffizienten W gewichtet. Es kann auch die Betontzustandswahrscheinlichkeit P_Semp mit W = 1 + 0,001 × L multipliziert werden. Beide Schemata sind äquivalent zur Extraktion des Sprach-Subblocks, der die Bedingung erfüllt, dass das Wahrscheinlichkeitsverhältnis P_Semp/P_Snrm > 1/W = W' wird. Folglich wird in diesem Fall das Wahrscheinlichkeitsverhältnis P_Semp/P_Snrm mit dem Bezugswert W' verglichen, um über die Äußerung des Sprach-Subblocks zu entscheiden, und die Betontzustands-Extraktionsbedingung wird mit dem Bezugswert W' verändert, der verringert oder erhöht wird, je nachdem, ob die Gesamtzeit T_G des zusammenzufassenden Abschnitts länger oder kürzer als die eingestellte Zeitdauer T_S ist. Alternativ wird, wenn in dem ursprünglichen Zustand entschieden wird, dass T_G > T_S ist, der Gewichtungskoeffizient auf W = 1 + 0,001 × L, einen größeren Wert als den gegenwärtigen Wert, gesetzt, und die Folge von Normalzustandswahrscheinlichkeiten P_Snrm wird mit diesem Gewichtungskoeffizienten W.
Während oben als Konvergenzbedingung für die Zeit T_G beschrieben worden ist, dass T_G ≅ T_S ist, ist es auch möglich, die Zeit T_G streng zu konvergieren, so dass T_G = T_S ist. Wenn zum Beispiel 5 Sekunden an der voreingestellten Bedingung für die Zusammenfassung fehlen, führt die Hinzufügung eines weiteren Sprachblocks zu einer Überschreitung von 10 Sekunden, doch macht es ein nur 5-sekündiges Abspielen nach dem Sprachblock möglich, die Zeit T_G in Übereinstimmung mit der voreingestellten Bedingung des Benutzers zu bringen. Dieses 5-sekündige Abspielen kann erfolgen in der Nähe des als betont entschiedenen Sprach-Subblocks oder am Anfang des Sprachblocks.
Ferner ist beschrieben worden, dass die in Schritt S14 zusammengefasste Sprachblockfolge in Schritt S15 abgespielt wird, doch werden im Fall von Audiodaten mit Sprache Audiodatenteile, die den als zusammenzufassende Sprache festgelegten Sprachblöcken entsprechen, zusammengefügt und zusammen mit der Sprache abgespielt – dies erlaubt die Zusammenfassung des Inhalts eines Fernsehprogramms, eines Spielfilms oder dergleichen.
Ferner wird in dem Obigen entweder die für jeden Sprach-Subblock berechnete Betontzustands-Wahrscheinlichkeit oder Normalzustands-Wahrscheinlichkeit, die in der Betontzustands-Wahr scheinlichkeitstabelle gespeichert ist, durch direkte Multiplikation mit dem Gewichtungskoeffizienten W gewichtet, doch ist es, um den betonten Zustand mit höherer Genauigkeit zu erfassen, bevorzugt, dass der Gewichtungskoeffizient W zum Gewichten der Wahrscheinlichkeit zur F-ten Potenz erhoben wird, wenn F die Anzahl von Rahmen ist, die jeden Sprach-Subblock bilden. Die bedingte Betontzustandswahrscheinlichkeit P_Semp, die durch Gleichungen (17) und (18) berechnet wird, wird erhalten durch Multiplizieren der für jeden Rahmen des gesamten Sprach-Subblocks berechneten Betontzustandswahrscheinlichkeit. Die Normalzustandswahrscheinlichkeit P_Snrm wird ebenfalls erhalten durch Multiplizieren der für jeden Rahmen des gesamten Sprach-Subblocks berechneten Normalzustandswahrscheinlichkeit. Folglich wird zum Beispiel der Betontzustandswahrscheinlichkeit P_Semp ein Gewicht W^F durch Multiplizieren der Betontzustandswahrscheinlichkeit für jeden Rahmen des gesamten Sprach-Subblocks nach Gewichten mit dem Koeffizienten W zugewiesen.
Als Ergebnis nimmt zum Beispiel, wenn W > 1 ist, der Einfluss der Gewichtung in Abhängig von der Anzahl F von Rahmen zu oder ab. Je größer die Zahl der Rahmen F ist, das heißt, je länger die Dauer ist, desto stärker wird der Sprach-Subblock gewichtet.
In dem Fall, dass die Extraktionsbedingung so geändert wird, dass lediglich über den Betontzustand entschieden wird, muss das Produkt der für einen jeweiligen Sprach-Subblock berechneten Betontzustands-Wahrscheinlichkeiten oder Normalzustandwahrscheinlichkeiten nur mit dem Gewichtungskoeffizienten W multipliziert werden. Der Gewichtungskoeffizient W muss also nicht notwendigerweise zur F-ten Potenz erhoben werden.
Außerdem wurde bei dem obigen Beispiel beschrieben, dass die Zusammenfassungsbedingung durch das Verfahren geändert wird, bei dem die für jeden Sprach-Subblock berechnete Betontzustands- oder Normalzustandswahrscheinlichkeit P_Semp oder P_Snrm gewichtet wird, um die Anzahl von Sprach-Subblöcken zu ändern, die die Bedingung P_Semp > P_Snrm erfüllen. Alternativ werden Wahrscheinlichkeitsverhältnisse P_Semp/P_Snrm für die Betontzustands- und Normalzustandswahrscheinlichkeiten P_Semp und P_Snrm aller Sprach-Subblöcke berechnet; die Sprachblöcke, die die Sprach-Subblöcke enthalten, werden nur einmal in absteigender Reihenfolge des Wahrscheinlichkeitsverhältnisses akkumuliert; die akkumulierte Summe von Dauern der Sprachblöcke wird berechnet, und wenn die berechnete Summe, das heißt die Zeit der Zusammenfassung, etwa gleich der vorgegebenen Zeit der Zusammenfassung ist, wird entschieden, dass die Folge von akkumulierten Blöcken in zeitlicher Reihenfolge zusammengefasst wird, und die Sprachblöcke werden zu zusammengefasster Sprache zusammengefügt.
Wenn in diesem Fall die Gesamtzeit der zusammengefassten Sprache kürzer oder länger als die voreingestellte Zusammenfassungszeit ist, kann die Zusammenfassungsbedingung geändert werden durch Ändern des Entscheidungsschwellwertes für das Wahrscheinlichkeitsverhältnis P_Semp/P_Snrm, das zur Festlegung des betonten Zustandes verwendet wird. Das heißt, eine Zunahme des Entscheidungsschwellwertes verringert die Anzahl von Sprach-Subblöcken, die als betont festgelegt werden und infolgedessen die Anzahl von Sprachblöcken, die als zusammenzufassende Abschnitte erfasst werden, was eine Verringerung der Gesamtzeit der Zusammenfassung ermöglicht. Durch Verringern des Schwellwertes kann die Gesamtzeit der Zusammenfassung erhöht werden. Dieses Verfahren ermöglicht eine Vereinfachung der Verarbeitung zum Bereitstellen der zusammengefassten Sprache, die die voreingestellte Bedingung für die Zusammenfassung erfüllt.
Während oben die Betontzustandswahrscheinlichkeit P_Semp und die Normalzustandswahrscheinlichkeit P_Snrm, die für jeden Sprach-Subblock berechnet werden, als Produkte der für die jeweiligen Rahmen berechneten Betontzustands- und Normalzustandswahrscheinlichkeiten berechnet werden, können die Betontzustands- und Normalzustandswahrscheinlichkeiten P_Semp und P_Snrm jedes Sprach-Subblocks auch erhalten werden, indem Betontzustands-Wahrscheinlichkeiten für die jeweiligen Rahmen berechnet werden und diese Wahrscheinlichkeiten in dem Sprach-Subblock gemittelt werden. Wenn dieses Verfahren zum Berechnen der Betontzustands- und Normalzustandswahrscheinlichkeiten P_Semp und P_Snrm verwendet wird, ist es folglich nur erforderlich, sie mit dem Gewichtungskoeffizienten W zu multiplizieren.
Bezogen auf 21 wird als nächstes eine Beschreibung einer Sprachverarbeitungsvorrichtung geliefert, die eine freie Einstellung des Zusammenfassungsverhältnisses gemäß Ausgestaltung 2 der vorliegenden Erfindung ermöglicht. Die Sprachverarbeitungsvorrichtung dieser Ausgestaltung umfasst in Kombination mit der Konfiguration der Betontsprache-Extraktionsvorrichtung aus 13: ein Zusammenfassungsbedingungs-Eingabeteil 31, das mit einem Zusammenfassungsabschnittzeit-Rechenteil 31A ausgestattet ist; eine Betontzustands-Wahrscheinlichkeitstabelle 32; ein Betontsprache-Subblock-Extraktionsteil 33, ein Zusammenfassungsbedingungs-Veränderungsteil 34 und ein Provisorisch-Zusammenfassungsabschnitts-Entscheidungsteil 35, bestehend aus einem Gesamtzeit-Rechenteil 35A zum Berechnen der Gesamtzeit der zusammengefassten Sprache, einem Zusammenfassungsabschnitts-Entscheidungsteil 35B zum Entscheiden, ob ein Fehler der durch das Gesamtzeit-Rechenteil 35A berechneten Gesamtzeit der zusammengefassten Sprache mit Bezug auf die von einem Benutzer in das Zusammenfassungsbedingungs-Eingabeteil 31 eingegebenen Zusammenfassungszeit in einem vorgegebenen Bereich liegt, und ein Zusammenfassungssprache-Speicher- und -Abspielteil 35C zum Speichern und Abspielen von zusammengefasster Sprache, die die Zusammenfassungsbedingung erfüllt.
Wie zuvor mit Bezug auf 13 angegeben, werden Sprachparameter aus Eingabesprache für jeden Rahmen berechnet, dann werden diese Sprachparameter verwendet, um Betontzustands- und Normalzustandswahrscheinlichkeiten für jeden Rahmen in den Betontzustands- und Normalzustandswahrscheinlichkeitsrechenteilen 16 und 17 zu berechnen, und die Betontzustands- und Normalzustandswahrscheinlichkeiten werden in dem Speicherteil 12 zusammen mit der jedem Rahmen zugewiesenen Rahmennummer gespeichert. Ferner ist die Rahmennummer verknüpft mit der Sprach-Subblocknummer j, die dem in dem Sprach-Subblock-Entscheidungsteil festgelegten Sprach-Subblock S_j zugewiesen ist, einer Sprachblocknummer B, zu der der Sprach-Subblock S_j gehört, und jedem Rahmen und jedem Sprach-Subblock wird eine Adresse zugewiesen.
In der Sprachverarbeitungsvorrichtung nach dieser Ausgestaltung lesen das Betontzustandswahrscheinlichkeits-Rechenteil 16 und das Normalzustandswahrscheinlichkeits-Rechenteil 17 aus dem Speicherteil 12 die Betontzustandswahrscheinlichkeit und die Normalzustandswahrscheinlichkeit, die darin für jeden Rahmen gespeichert sind, berechnen dann die Betontzustandswahrscheinlichkeit P_Semp und die Normalzustandswahrscheinlichkeit P_Snrm für jeden Sprach-Subblock aus den gelesenen Betontzustands- bzw. Normalzustandswahrscheinlichkeiten und speichern dann die berechneten Betontzustands- und Normalzustandswahrscheinlichkeiten P_Semp und P_Snrm in der Betontzustands-Wahrscheinlichkeitstabelle 32.
In der Betontzustands-Wahrscheinlichkeitstabelle 32 sind Betontzustands- und Normalzustandswahrscheinlichkeiten gespeichert, die für jeden Sprach-Subblock von Sprachwellenformen unterschiedlicher Inhalte berechnet sind, so dass eine Sprachzusammenfassung zu beliebiger Zeit in Reaktion auf eine Benutzeranfrage durchgeführt werden kann. Der Benutzer gibt die Bedingungen für die Zusammenfassung in das Zusammenfassungsbedingungs-Eingabeteil 31 ein. Die hier erwähnten Bedingungen für die Zusammenfassung beziehen sich auf die Zusammenfassungsrate des Inhaltes auf seine gesamte zusammenzufassende Länge. Die Zusammenfassungsrate kann eine sein, die den Inhalt in Länge oder Zeit auf ein Zehntel reduziert. Wenn zum Beispiel die 1/10-Zusammenfassungsrate eingegeben wird, berechnet das Zusammenfassungsabschnittszeit-Rechenteil 31A einen Wert von einem Zehntel der gesamten Zeitlänge des Inhaltes und liefert die berechnete Zeit des zusammengefassten Abschnitts an das Zusammenfassungsabschnitts-Entscheidungsteil 35B des Provisorisch-Zusammenfassungsabschnittsfestlegungsteiles 35.
Nach Eingabe der Bedingungen für die Zusammenfassung in das Zusammenfassungsbedingungseingabeteil 31 beginnt das Steuerteil 19 die Sprachzusammenfassungsoperation. Die Operation beginnt mit dem Lesen der Betontzustands- und Normalzustandswahrscheinlichkeiten aus der Betontzustands-Wahrscheinlichkeitstabelle 32 für den vom Benutzer gewünschten Inhalt. Die gelesenen Betontzustands- und Normalzustandswahrscheinlichkeiten werden dem Betontsprache-Subblock-Extraktionsteil 33 zur Verfügung gestellt, um die Anzahl der als betont festgelegten Sprach-Subblöcke zu extrahieren.
Die Bedingung zum Extrahieren von betonten Sprach-Subblöcken kann verändert werden durch ein Verfahren, das den Gewichtungskoeffizienten W in Bezug auf die Betontzustandswahrscheinlichkeit P_Semp und die Normalzustandswahrscheinlichkeit P_Snrm verändert, dann Sprach-Subblöcke extrahiert, die die Bedingung WP_Semp > P_Snrm erfüllen, und zusammengefasste Sprache erhält, die aus Sprachblöcken zusammengesetzt ist, die die Sprach-Subblöcke enthalten. Alternativ ist ein Verfahren möglich, das gewichtete Wahrscheinlichkeitsverhältnisse WP_Semp/P_Snrm berechnet, dann den Gewichtungskoeffizienten verändert und die Sprachblöcke, die jeweils den betonten Sprach-Subblock enthalten, in absteigender Reihenfolge des gewichteten Wahrscheinlichkeitsverhältnisses akkumuliert, um die Zeitlänge des zusammengefassten Abschnitts zu erhalten.
In dem Fall, dass die Bedingung für die Extraktion der Sprach-Subblöcke durch das Gewichtungsschema verändert wird, kann der Anfangswert des Gewichtungskoeffizienten W auch auf W = 1 gesetzt werden. Auch in dem Fall, dass bei jedem Sprach-Subblock über die Betontheit gemäß dem Wert des Verhältnisses P_Semp/P_Snrm zwischen den für jeden Sprach-Subblock berechneten Betontzustands- und Normalzustandswahrscheinlichkeiten entschieden wird, ist es möglich, den Sprach-Subblock als betont festzulegen, wenn der Anfangswert des Wahrscheinlichkeitsverhältnisses zum Beispiel P_Semp/P_Snrm ≥ 1 ist.
Daten, die die Nummer, Anfangszeit und Endzeit jedes im Anfangszustand als betont festgelegten Sprach-Subblocks darstellen, werden von dem Betontsprach-Subblock-Extraktionsteil 33 an das Provisorisch-Zusammenfassungsabschnitts-Entscheidungsteil 35 geliefert. In dem Provisorisch-Zusammenfassungsabschnitts-Entscheidungsteil 35 werden die Sprachblöcke, die die als betont festgelegten Sprach-Subblöcke enthalten, herausgesucht und aus der in dem Speicherteil 12 gespeicherten Sprachblockfolge extrahiert. Die Gesamtheit der so extrahierten Sprachblockfolge wird in dem Gesamtzeitrechenteil 35A berechnet, und die als Bedingung für die Zusammenfassung eingegebene Zeit des Zusammenfassungsabschnitts werden in dem Zusammenfassungsabschnitts-Entscheidungsteil 35B verglichen. Die Entscheidung, ob das Ergebnis des Vergleichs die Zusammenfassungsbedingung erfüllt, kann zum Beispiel gemacht werden, indem entschieden wird, ob die Gesamtzeit des Zusammenfassungsabschnitts T_G und die eingegebene Zusammenfassungsabschnittszeit T_S die Bedingung |T_G – T_S| ≤ ΔT erfüllen, wobei ΔT ein vorgegebener zulässiger Fehler ist, oder ob sie 0 < |T_G – T_S| < δ erfüllen, wobei δ ein positiver Wert ist, der kleiner als ein vorgegebener Wert 1 ist. Wenn das Vergleichsergebnis die Zusammenfassungsbedingung erfüllt, wird die Sprachblockfolge in dem Zusammenfassungsabschnitts-Speicher- und -Abspielteil 36C gespeichert und abgespielt. Für die Abspieloperation wird der Sprachblock basierend auf der Nummer des in dem Sprach-Subblock-Extraktionsteils 33 als betont festgelegten Sprach-Subblocks extrahiert und durch Angeben von Anfangszeit und Endzeit des extrahierten Sprachblocks werden Audio- oder Videodaten jedes Inhalts ausgelesen und als zusammengefasste Sprache oder zusammengefasste Videodaten gesendet.
Wenn das Zuammenfassungsabschnitts-Entscheidungsteil 35B entscheidet, dass die Zusammenfassungsbedingung nicht erfüllt ist, gibt es ein Befehlssignal an das Zusammenfassungsbedingungs-Änderungsteil 34 aus, die Zusammenfassungsbedingung zu ändern. Das Zusammenfassungsbedingungs-Änderungsteil 34 ändert die Zusammenfassungsbedingung entsprechend und gibt die geänderte Bedingung in das Betontsprach-Subblock-Extraktionsteil 33 ein. Basierend auf der von dem Zusammenfassungsbedingungs-Änderungsteil 34 darin eingegebenen Zusammenfassungsbedingung vergleicht das Betontsprach-Subblock-Extraktionsteil 33 erneut die Betontzustands- und Normalzustandswahrscheinlichkeiten von jeweiligen in der Betontzustands-Wahrscheinlichkeitstabelle 32 gespeicherten Sprach-Subblöcken.
Die von dem Betontsprach-Subblock-Extraktionsteil 33 extrahierten betonten Sprach-Subblöcke werden wieder dem Provisorisch-Zusammenfassungsabschnitts-Entscheidungsteil 35 zur Verfügung gestellt, wodurch es veranlasst wird, die Sprachblöcke festzulegen, die die als betont festgelegten Sprach-Subblöcke enthalten. Die Gesamtzeit der so festgelegten Sprachblöcke wird berechnet, und das Zusammenfassungsabschnitts-Entscheidungsteil 35B entscheidet, ob das Ergebnis der Berechnung die Zusammenfassungsbedingung erfüllt. Diese Operation wird wiederholt, bis die Zusammenfassungsbedingung erfüllt ist, und die Sprachblockfolge, die die Zusammenfassungsbedingung erfüllt hat, wird als zusammengefasste Sprache und zusammengefasste Videodaten aus dem Speicherteil 12 ausgelesen und zur Verbreitung an den Benutzer abgespielt.
Das Sprachverarbeitungsverfahren gemäß dieser Ausgestaltung wird implementiert durch Ausführen eines Programms auf einem Computer. In diesem Fall kann die Erfindung auch durch eine CPU oder dergleichen in einem Computer durch Herunterladen des Codebuches und eines Programms zum Verarbeiten über eine Kommunikationsleitung oder Installieren eines auf einer CD-Rom, einer Magnetplatte oder einem ähnlichen Speichermedium gespeicherten Programms implementiert werden.
AUSGESTALTUNG 3
Diese Ausgestaltung betrifft eine abgewandelte Form der Äußerungsentscheidungs-Verarbeitung in Schritt S3 in 1. Wie zuvor mit Bezug auf 4 und 12 beschrieben, werden in Ausgestaltung 1 die unabhängigen und bedingten Auftretenswahrscheinlichkeiten, die für Sprachparametervektoren von Abschnitten vorab berechnet sind, die durch Analysieren von Sprache einer Versuchsperson als betont und normal etikettiert sind, vorab in einem Codebuch in Entsprechung zu Codes gespeichert, dann werden die Wahrscheinlichkeiten, dass Sprach-Subblöcke betont und normal werden, z.B. durch Gleichung (17) und (18) aus einer Folge von Rahmencodes von eingegebenen Sprach-Subblöcken berechnet und bei jedem Sprach-Subblock wird entschieden, ob er betont oder normal ist, je nachdem, welche der Wahrscheinlichkeiten höher als die andere ist. Diese Ausgestaltung trifft die Entscheidung durch ein HMM-(Hidden-Markov-Modell)-Schema, wie unten beschrieben.
In dieser Ausgestaltung werden ein betontes HMM und ein normales HMM aus vielen als betont etikettierten Abschnitten und vielen als normal etikettierten Abschnitten in Trainingssprachsignaldaten einer Versuchsperson erzeugt, und Betontzustands-Likelihood und Normalzustands-HMM-Likelihood des eingegebenen Sprach-Subblocks werden berechnet, und über den Äußerungszustand wird entschieden, je nachdem, ob die Betontzustands-Likelihood oder die Normalzustands-HMM-Likelihood größer als die andere ist. Im allgemeinen ist HMM durch die nachfolgend aufgeführten Parameter gebildet.

S:: endliche Menge von Zuständen; S = {S_i}
Y:: Menge von Beobachtungsdaten; Y = {y₁, ..., y_t}
A:: Satz von Zustandsübergangswahrscheinlichkeiten; A = {a_ij}
B:: Menge von Ausgabewahrscheinlichkeiten; B = {b_j(y_t)}
π:: Menge von ursprünglichen Zustandswahrscheinlichkeiten; π = {π_I}

22A und 22B zeigen typische Betontzustands- und Normalzustands-HMM's in dem Fall, dass die Zahl von Zuständen 4 ist (i = 1, 2, 3, 4). In dieser Ausgestaltung besteht z.B. im Fall der Modellierung von als betont und normal etikettierten Abschnitten in Trainingssprachdaten auf eine vorgegebene Zahl von Zuständen 4 eine endliche Menge von Betontzustands-HMM's Semp = {S_empi} aus S_emp1, S_emp2, S_emp3, S_emp4, wohingegen eine endliche Menge von Normalzustands-HMM's S_nrm = {S_nrmi} aus S_nrm1, S_nrm2, S_nrm3, S_nrm4 besteht. Elemente einer Menge Y von Beobachtungsdaten {y₁, ..., y_t} sind Mengen von quantisierten Sprachparametern der als betont und normal etikettierten Abschnitte. Diese Ausgestaltung verwendet als Sprachparameter ebenfalls eine Menge von Sprachparametern, die wenigstens eines von Grundfrequenz, Leistung, zeitliche Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz in wenigstens einem dieser Parameter enthalten. a_empij gibt die Wahrscheinlichkeit des Übergangs vom Zustand S_empi zu S_empj an, und b_empj (y_t) gibt die Wahrscheinlichkeit der Ausgabe von y_t nach Übergang zum Zustand S_empj an. Die ursprünglichen Zustandswahrscheinlichkeiten π_emp(y₁) und π_nrm(y₁). a_empij, a_nrmij, b_empj(y_t) und b_nrmj(y_t) werden aus Trainingssprache durch einen EM-(Erwartungswert-Maximierungs-)Algorithmus und einen Vorwärts/Rückwärts-Algorithmus abgeschätzt.
Das allgemeine Konzept einer Betontzustands-HMM-Konstruktion wird nachfolgend erläutert.
Schritt S1: An erster Stelle werden Rahmen aller in den Trainingssprachdaten als betont oder normal etikettierten Abschnitte analysiert, um einen Satz von vorgegebenen Sprachparametern für jeden Rahmen zu erhalten, der verwendet wird, um ein quantisiertes Codebuch zu erzeugen. Die Menge von vorgegebenen Sprachparametern sei hier die Menge von 13 Sprachparametern, die in dem Experiment von Ausgestaltung 1 verwendet wurden, identifiziert durch eine Kombination Nr. 17 in der später beschriebenen 17; d.h., es wird ein 13-dimensionales Vektorcodebuch erzeugt. Die Größe des quantisierten Codebuchs wird auf M gesetzt, und der jedem Vektor entsprechende Code wird mit Cm bezeichnet (wobei m = 1, ..., M). In dem quantisierten Codebuch sind durch Training erhaltene Sprachparametervektoren gespeichert.
Schritt S2: Die Menge von Sprachparametern von Rahmen aller als betont und normal etikettierten Abschnitte in den Trainingssprachdaten werden unter Verwendung des quantisierten Codebuchs codiert, um eine Codefolge Cm_t (mit t = 1, ..., LN) der Sprachparametervektoren jedes als betont etikettierten Abschnitts zu erhalten, wobei LN die Anzahl von Rahmen ist. Wie zuvor in Ausgestaltung 1 beschrieben, wird die Betontzustands-Auftretenswahrscheinlichkeit P_emp(Cm) jedes Codes Cm in dem quantisierten Codebuch erhalten; diese wird zu der ursprünglichen Zustandswahrscheinlichkeit π_nrm(Cm). 23A ist eine Tabelle, die die Beziehung zwischen den Nummern der Codes Cm und den ursprünglichen Zustandswahrscheinlichkeiten π_emp(Cm) bzw. π_nrm(Cm) zeigt, die diesen entsprechen.
Schritt S3: Die Anzahl von Zuständen des Betontzustands-HMM kann willkürlich sein. Z.B. zeigen 22A und 22B den Fall, wo die Zahl von Zuständen des Betontzustands-HMMs und des Normalzustands-HMMs jeweils auf 4 gesetzt ist. Für das Betontzustands-HMM sind Zustände S_emp1, S_emp2, S_emp3, S_emp4 vorgesehen und für das Normalzustands-Hmm sind S_nrm1, S_nrm2, S_nrm3, S_nrm4 vorgesehen.
Ein Zählwert der Anzahl von Zustandsübergängen wird aus der von einer Folge von Rahmen der als betont etikettierten Abschnitte der Trainingssprachdaten abgeleiteten Codefolge gewonnen, und basierend auf der Zahl von Zustandsübergängen werden Maximum-Likelihood-Abschätzungen der Übergangswahrscheinlichkeiten a_empij, a_nrmij und der Ausgabewahrscheinlichkeiten b_empj(Cm), b_nrmj(Cm) unter Verwendung des EM-Algorithmus und des Vorwärts/Rückwärts-Algorithmus durchgeführt. Verfahren zum Berechnen von diesen sind z.B. beschrieben bei L. E. Baum, „An Inequality and Associated Maximization Technique in Statistical Estimation of Probabalistic Function of a Markov Process", Inequalities, Band 3, Seiten 1–8 (1972). 23B und 23C zeigen in Tabellenform die für die jeweiligen Zustände gelieferte Übergangswahrscheinlichkeit a_empij und a_nrmij, und 24 zeigt in Tabellenform die Ausgabewahrscheinlichkeiten b_empj(Cm) und b_nrmj(Cm) jedes Codes in den Zuständen S_empj bzw. S_nrmj (wobei j = 1, ..., 4 ist).
Die Zustandsübergangswahrscheinlichkeiten a_empij, a_nrmij und Codeausgabewahrscheinlichkeiten b_empj(Cm) und b_nrmj(Cm) sind in Tabellenform gespeichert, z.B. in dem Codebuchspeicher 15 der Vorrichtung aus 13 zur Verwendung bei der Festlegung des Äußerungszustandes des eingegebenen Sprachsignals, wie unten beschrieben. Dabei entspricht die Tabelle der Ausgabewahrscheinlichkeit den Codebüchern in den Ausgestaltungen 1 und 2.
Mit dem so bezeichneten betonten Zustand und den Normalzustands-HMMs ist es möglich, den Äußerungszustand von Eingabesprache-Subblöcken wie unten beschrieben festzulegen.
Eine Folge von Sätzen von aus einer Folge von Rahmen (deren Anzahl durch Fn angegeben ist) der eingegebenen Sprach-Subblöcke abgeleiteten Sprachparametern wird erhalten, und die jeweiligen Sätze von Sprachparametern werden mit dem quantisierten Codebuch codiert, um eine Codefolge {Cm₁, Cm₂, ..., Cm_FN} zu erhalten. Für die Codefolge wird eine Berechnung der Betontzustands-Auftretenswahrscheinlichkeit (Likelihood) des Sprach-Subblocks auf allen möglichen Übergangswegen des Betontzustands-HMMs vom Zustand S_emp1 nach S_emp4 durchgeführt. Ein Übergangsweg k wird nachfolgend beschrieben. 25 zeigt die Codefolge, den Zustand, die Zustandsübergangswahrscheinlichkeit und die Ausgabewahrscheinlichkeit für jeden Rahmen des Sprach-Subblocks. Die Betontzustandswahrscheinlichkeit P(S^k _emp), wenn die Zustandsfolge S^k _emp auf dem Weg k für das Betontzustands-HMM S^k _emp = {S^k _emp1, S^k _emp, ...., S^k _empFN} ist, ist gegeben durch die folgende Gleichung
Gleichung (20) wird für alle Wege k berechnet. Wenn man als Betontzustands-Wahrscheinlichkeit (d.h. Betontzustands-Likelihood) P_empHMM des Sprach-Subblocks die Betontzustands-Wahrscheinlichkeit auf dem Weg maximaler Likelihood annimmt, ist diese gegeben durch die folgende Gleichung.
Alternativ kann die Summe von Gleichung (20) für alle Wege erhalten werden durch die folgende Gleichung. PempHMM = Σ kP(Skemp ) (21)
Entsprechend ist die Normalzustands-Wahrscheinlichkeit (d.h. die Normalzustands-Likelihood) P(S^k _nrm), wenn die Zustandsfolge S^k _nrm auf dem Weg k für das Betontzustands-HMM S^k _nrm = {S^k _nrm1, S^k _nrm2, ..., S^k _nrmFN} ist, gegeben durch die folgende Gleichung
Wenn als Normalzustands-Wahrscheinlichkeit p_nrmHMM des Sprach-Subblocks die Normalzustands-Wahrscheinlichkeit auf dem Weg maximaler Likelihood angenommen wird, ist diese gegeben durch folgende Gleichung:
Alternativ kann die Summe aus Gleichung (22) für alle Wege erhalten werden durch die folgende Gleichung PnrmHMM = Σ kP(Sknrm ) (23')
Für den Sprach-Subblock werden die Betontzustands-Wahrscheinlichkeit P_empHMM und die Normalzustands-Wahrscheinlichkeit P_nrmHMM verglichen; wenn erstere größer als letztere ist, wird der Sprach-Subblock als betont festgelegt, und wenn letztere größer ist, wird der Sprach-Subblock als normal festgelegt. Alternativ kann das Wahrscheinlichkeitsverhältnis P_empHMM/P_nrmHMM verwendet werden, wobei in diesem Fall der Sprach-Subblock als betont oder normal festgelegt wird, je nachdem, ob das Verhältnis größer als ein Referenzwert ist oder nicht.
Die Berechnungen der Betontzustands- und Normalzustands-Wahrscheinlichkeiten durch Verwendung der oben beschriebenen HMMs können verwendet werden, um die Sprach-Betontzustands-Wahrscheinlichkeit in dem zuvor mit Bezug auf Ausgestaltung 2 erwähnten Schritt S11 in 18 zu berechnen, der eine Sprachzusammenfassung durchführt, detaillierter in Schritten S103 und S104 in 19. D.h., anstatt die Wahrscheinlichkeiten P_Semp und P_Snrm durch Gleichungen (17) und (19) zu berechnen, können die durch Gleichungen (21) und (23) oder (21') und (23') berechnete Betontzustands-Wahrscheinlichkeit P_empHMM und Normalzustands-Wahrscheinlichkeit P_nrmHMM auch in der in 20 gezeigten Sprach-Betontzustands-Wahrscheinlichkeitstabelle gespeichert sein. Wie im Fall der Ausgestaltung 2 kann die Zusammenfassungsrate geändert werden durch Ändern des Referenzwerts für den Vergleich mit dem Wahrscheinlichkeitsverhältnis P_empHMM/P_nrmHMM.
AUSGESTALTUNG 4
In Ausgestaltung 2 werden Anfangszeit und Endzeit des zusammenzufassenden Abschnitts als Anfangszeit und Endzeit der als zusammenzufassender Abschnitt festgelegten Sprachblockfolge ausgewählt, doch im Falle eines Inhalts mit Video ist es auch möglich, ein Verfahren zu verwenden, in welchem: Schneidepunkte des Videosignals in der Nähe der Anfangszeit und Endzeit der als zusammenzufassend festgelegten Sprachblockfolge durch die z.B. in der japanischen Patentoffenlegungsschrift Nr. 32924/96, der japanischen Patentschrift Nr. 2839132 oder der japanischen Patentoffenlegungsschrift Nr. 18028/99 offenbarten Mittel erfasst werden; und Anfangszeit und Endzeit des Zusammenfassungsabschnitts werden definiert durch die Zeiten der Schneidepunkte (durch Ausnutzung von Signalen, die auftreten, wenn Szenen wechseln). Im Fall der Verwendung von Schneidepunkten des Videosignals, um Anfangs- und Endzeit des Zusammenfassungsabschnitts zu definieren, wird der Zusammenfassungsabschnitt synchron zur Änderung des Videos verändert; dies verbessert die Betrachtbarkeit und erleichtert daher das Verständnis der Zusammenfassung.
Es ist auch möglich, das Verständnis des zusammengefassten Videos zu verbessern, indem vorzugsweise ein Sprachblock zu dem zusammenzufassenden Video hinzugefügt wird, der ein Telop enthält. Der Telop enthält nämlich in vielen Fällen Informationen von hoher Bedeutung wie etwa Titel, Besetzung, Hauptinhalt eines Dramas oder Nachrichtenthemata. Daher bietet das bevorzugte Anzeigen von Video, das einen solchen Telop enthält, in dem zusammengefassten Video eine erhöhte Wahrscheinlichkeit, dass einem Betrachter wichtige Information dargeboten wird – dies verbessert weiter die Verständlichkeit des zusammengefassten Videos für den Betrachter. Für ein Telop-Erfassungsverfahren wird auf die japanische Patentoffenlegungsschrift Nr. 167583/99 oder 181994/00 verwiesen.
Es wird nun eine Beschreibung eines Inhaltsinformations-Verteilungsverfahrens, einer Vorrichtung und eines Programms gemäß der vorliegenden Erfindung gegeben.
26 zeigt in Blockform die Konfiguration der Inhaltsverteilungsvorrichtung gemäß der vorliegenden Erfindung. Bezugszeichen 41 bezeichnet eine Inhaltsbereitsteller-(Content Provider)-Vorrichtung, 42 ein Fernmeldenetzwerk, 43 eine Datenzentrale, 44 eine Buchführungsvorrichtung und 45 Benutzerterminals. Die Inhaltsbereitstellervorrichtung 41 greift zurück auf eine Vorrichtung eines Inhaltsproduzenten oder -händlers, genauer gesagt eine Server-Vorrichtung, die von einem Geschäft, welches Video, Musik und ähnliche digitale Inhalte verbreitet, wie etwa eine Fernsehgesellschaft, ein Videovertreiber oder ein Videoverleih.
Die Inhaltsbereitstellervorrichtung 41 sendet einen Inhalt, der verkauft werden soll, an die Datenzentrale 43 über das Fernmeldenetz 42 oder ein anderes Aufzeichnungsmedium zur Speicherung in einer Inhalt-Datenbank 43A, die in der Datenzentrale 43 bereitgestellt ist. Das Fernmeldenetzwerk 42 ist z.B. ein Telefonnetz, ein LAN, ein Kabelfernsehnetz oder das Internet.
Die Datenzentrale 43 kann durch einen Server gebildet sein, der z. B. von einem Vertreiber für Zusammenfassungsinformation installiert ist. In Reaktion auf ein Anforderungssignal von der Benutzerterminalgruppe 43 liest die Datenzentrale 43 den angeforderten Inhalt aus der Inhaltsdatenbank 43A und verteilt ihn an dasjenige der Benutzerterminals 45A, 45B, ..., 45N, das die Anforderung gemacht hat, und rechnet ein Konto in Bezug auf die Inhaltsverteilung ab. D.h., der Benutzer, der den Inhalt empfangen hat, sendet an die Buchführungsvorrichtung 44 ein Signal, das diese auffordert, ein Bankkonto des Benutzerterminals mit dem die Inhaltsverteilung betreffenden Preis oder Wert zu belasten.
Die Buchführungsvorrichtung 44 führt mit dem Verkauf des Inhalts zusammenhängende Buchführung durch. Z.B. zieht die Buchführungsvorrichtung 44 den Wert des Inhalts von dem Saldo in dem Bankkonto des Benutzerterminals ab und addiert den Wert des Inhalts zu dem Saldo in dem Bankkonto des Inhaltsvertreibers.
In dem Fall, wo der Benutzer einen Inhalt über das Benutzerterminal 45 empfangen will, ist es günstig, wenn eine Zusammenfassung des zu empfangen gewünschten Inhalts verfügbar ist. Insbesondere im Fall eines Inhalts, der mehrere Stunden dauert, ist eine auf eine gewünschte Zeitlänge von z.B. etwa 5 Minuten komprimierte Zusammenfassung von großer Hilfe für den Benutzer, um zu entscheiden, ob er den Inhalt empfangen will.
Des weiteren gibt es einen Fall, wo es wünschenswert ist, ein auf Videoband aufgenommenes Programm zu einer Zusammenfassung von willkürlicher Zeitdauer zu komprimieren. In einem solchen Fall ist es günstig, wenn es möglich ist, ein System zu implementieren, in dem, wenn ein Benutzerbefehl empfangen wird, der die von ihm gewünschte Zusammenfassungsdauer spezifiziert, die Datenzentrale 43 Daten zum Abspielen an den Benutzer sendet, die es ihm ermöglichen, das auf Videoband aufgenommene Programm in komprimierter Form mit der von ihm gewünschten Kompressionsrate abzuspielen.
In Anbetracht des oben Gesagten bietet diese Ausgestaltung
(a) ein Verfahren und eine Vorrichtung zum Verteilen oder Vertreiben von Inhalten, die eine Zusammenfassung eines von einem Benutzer gewünschten Inhalts liefern und diese an den Benutzer vor dem Kauf des Inhalts verteilen, und (b) ein Verfahren und eine Vorrichtung zur Verteilung oder zum Vertrieb von Inhaltsinformation, die Daten zum Abspielen eines Inhalts in komprimierter Form einer gewünschten Zeitdauer erzeugen und die Abspieldaten an das Benutzerendgerät verteilen.
In 27 bezeichnet Bezugszeichen 43G eine Inhaltsinformations-Vertriebsvorrichtung gemäß dieser Ausgestaltung. Die Inhaltsinformations-Vertriebsvorrichtung 43G ist in der Datenzentrale 43 platziert und umfasst eine Inhaltsdatenbank 43A, ein Inhaltauffindeteil 43B, ein Inhaltzusammenfassungsteil 43C und ein Zusammenfassungsinformationsverteilungsteil 43D.
Bezugszeichen 43E bezeichnet ein Eingabeteil zum Eingeben von Inhalten in die Datenbank 43A und 43F ein Inhaltsverteilungsteil, das an das Benutzerterminal den Inhalt, den die Benutzerterminalgruppe 45 kaufen will, oder einen zusammengefassten Inhalt des gewünschten Inhalts verteilt.
In der Inhaltsdatenbank 43A sind Inhalte, die jeweils ein Sprachsignal und Hilfsinformation, die deren Attribute angeben, in Entsprechung zueinander gespeichert. Das Inhaltauffindeteil 43B empfängt Hilfsinformation eines Inhalts von einem Benutzerterminal und findet den entsprechenden Inhalt aus der Inhaltsdatenbank 43A. Das Inhaltszusammenfassungsteil 43C extrahiert den zusammenzufassenden Abschnitt des aufgefundenen Inhalts. Das Inhaltszusammenfassungsteil 43C ist mit einem Codebuch ausgestattet, in welchem in Entsprechung zu Codes Sprachparametervektoren gespeichert sind, die jeder wenigstens eine Grundfrequenz oder Tonhöhenperiode, Leistung und zeitliche Änderungscharakteristik eines Dynamikmaßes oder eine Rahmen-Rahmen-Differenz eines beliebigen von diesen sowie die Auftretenswahrscheinlichkeit eines jeden der besagten Sprachparametervektoren im betonten Zustand enthält, wie oben beschrieben. Die Betontzustands-Wahrscheinlichkeit, die dem durch rahmenweise Analyse des Sprachsignals in dem Inhalt erhaltenen Sprachparametervektor entspricht, wird aus dem Codebuch erhalten, und basierend auf dieser Betontzustands-Wahrscheinlichkeit wird der Sprach-Subblock berechnet, und ein Sprachblock, der den Sprach-Subblock enthält, dessen Betontzustands-Wahrscheinlichkeit höher als ein vorgegebener Wert ist, wird als ein zusammenzufassender Abschnitt festgelegt. Das Zusammenfassungsinformationsverteilungsteil 43D extrahiert als einen zusammengefassten Inhalt eine Folge von Sprachblöcken, die als zusammenzufassender Abschnitt festgelegt worden sind. Wenn der Inhalt ein Videosignal enthält, fügt das Zusammenfassungsinformationsverteilungsteil 43D zu dem zusammenzufassenden Abschnitt Video in den den Dauern der Sprachblöcke entsprechenden Abschnitten hinzu. Das Anhaltsverteilungsteil 43F verteilt den extrahierten zusammengefassten Inhalt an das Benutzerterminal.
Die Inhaltsdatenbank 43A umfasst, wie in 28 gezeigt, eine Inhaltsdatenbank 3A-1 zum Speichern von von der Inhaltsbereitstellervorrichtung 41 gesendeten Inhalten 6 und eine Hilfsinformationsdatenbank 3A-2, in der Hilfsinformation gespeichert ist, die das Attribut jedes in der Inhaltsdatenbank 3A-1 gespeicherten Inhalts angibt. Ein Internet-TV-Spaltenbetreiber kann derselbe wie ein Datenbankbetreiber oder von diesem verschieden sein.
Z.B. werden im Fall von Fernsehprogrammen die Inhalte in der Inhaltsdatenbank 3A-1 nach Kanalnummern von Fernsehstationen sortiert und entsprechend der Sendezeit für jeden Kanal gespeichert. 28 zeigt ein Beispiel der Speicherung von Kanal 722 in der Inhaltsdatenbank 3A-1. Eine Hilfsinformationsquelle für die Speicherung in der Hilfsinformationsdatenbank 3A-2 können z.B. Daten einer Internet-TV-Spalte sein. Die Datenzentrale 43 spezifiziert „Kanal: 722; Datum: 01. Januar 2001; Sendezeit 09.00 bis 10.00 Uhr abends" in der Internet-TV-Spalte und lädt Hilfsinformationen wie etwa Titel: Friend, 8.; Hauptdarsteller: Taro Suzuki; Heldin: Hanako Satoh; Thema: Junge-trifft-Mädchen-Geschichte" in die Hilfsdatenbank 3A-1, wo sie in Verbindung mit den Ausstrahlungsinhalten für 01. Januar 2001, 09.00 bis 10.00 Uhr abends gespeichert wird, die in der Inhaltsdatenbank 3A-1 gespeichert sind.
Ein Benutzer greift auf die Datenzentrale 43 z.B. vom Benutzerterminal 45A aus zu und gibt in das Inhaltauffindeteil 43B Daten über das Programm ein, das er zusammengefasst haben möchte, wie etwa Datum und Zeit der Sendung, Kanalnummer und Titel des Programms. 29 zeigt Beispiele von Einträgen, die auf einer Anzeige 45D des Benutzerterminals 45A angezeigt werden. In dem Beispiel der 29 ist das Datum der Sendung der 01. Januar 2001, die Kanalnummer ist 722, und der Titel ist „Los Angels Story" oder Friend". Schwarze Kreise in Anzeigeabschnitten 3B-1, 3B-2 und 3B-3 zeigen die Auswahl dieser Punkte an.
Das Inhaltauffindeteil 43B findet das betreffende Programm aus der Inhaltdatenbank 3A-1 und liefert das gefundene Ergebnis an das Inhaltszusammenfassungsteil 43C. In diesem Fall wird das Programm „Friend", ausgestrahlt am 01. Januar 2001, 09.00 bis 10.00 Uhr abends, aufgefunden und an das Inhaltszusammenfassungsteil 43C übergeben.
Das Inhaltszusammenfassungsteil 43C fasst den darin aus dem Inhaltauffindeteil 43B eingegebenen Inhalt zusammen. Die Inhaltszusammenfassung durch das Inhaltszusammenfassungsteil 43C folgt der in 30 gezeigten Prozedur.
In Schritt S304-1 wird die Zusammenfassungsbedingung durch Betrieb eines Benutzers eingegeben. Die Zusammenfassungsbedingung ist die Zusammenfassungsrate oder Zusammenfassungsdauer. Die hier erwähnte Zusammenfassungsrate bezieht sich auf das Verhältnis der Wiedergabedauer des zusammengefassten Inhalts zur Wiedergabedauer des ursprünglichen Inhalts. Die Zusammenfassungsdauer bezieht sich auf die Gesamtdauer des zusammengefassten Inhalts. Z.B. wird ein stundenlanger Inhalt basierend auf der vom Benutzer eingegebenen willkürlichen oder voreingestellten Zusammenfassungsrate zusammengefasst.
Nach Eingabe der Zusammenfassungsbedingungen werden Video- und Sprachsignale in Schritt S304-2 getrennt. In Schritt S304-3 wird die Zusammenfassung unter Benutzung des Sprachsignals durchgeführt. Nach Beendigung der Zusammenfassung werden das zusammengefasste Sprachsignal und das entsprechende Videosignal extrahiert und zusammengefügt, und die Zusammenfassung wird an das anfordernde Benutzerterminal, z.B. 45A, geliefert.
Nachdem es die zusammengefassten Sprach- und Videosignale empfangen hat, kann das Benutzerendgerät 45 beispielsweise ein einstündiges Programm in 90 Sekunden abspielen. Wenn der Benutzer nach der Wiedergabe den Inhalt empfangen möchte, sendet er ein Verteilungsanforderungssignal vom Benutzerterminal 45A aus. Die Datenzentrale 43 reagiert auf die Anforderung, den gewünschten Inhalt von dem Inhaltverteilungsteil 43E an das Benutzerterminal 45A zu verteilen (siehe 27). Nach Verteilung belastet das Buchhaltungsteil 44 das Benutzerterminal 45A mit dem Preis des Inhalts.
Zwar ist oben die Anwendung der vorliegenden Erfindung auf die Verteilung einer Zusammenfassung mit dem Ziel, Inhalte zu verkaufen, beschrieben worden, doch ist die Erfindung auch anwendbar auf die Verteilung von Abspieldaten zur Zusammenfassung, wie nachfolgend beschrieben.
Die Verarbeitung ab dem Empfang der Hilfsinformation vom Benutzerendgerät 45A bis zur Entscheidung über den zusammenzufassenden Abschnitt ist dieselbe wie im oben beschriebenen Fall der Inhaltsinformationsverteilungsvorrichtung. In diesem Fall wird jedoch anstelle des Inhalts ein Satz von Anfangs- und Endzeiten jedes Sprachblocks, die den zusammenzufassenden Abschnitt bilden, verteilt. D.h., die Anfangs- und Endzeiten jedes den zusammenzufassenden Abschnitt bildenden Sprachblocks, die durch Analysieren des Sprachsignals wie zuvor beschrieben festgelegt sind, und die Dauer des zusammenzufassenden Abschnitts werden durch Akkumulation für jeden Sprachblock erhalten. Anfangs- und Endzeiten jedes Sprachblocks und, falls notwendig, die Gesamtdauer des zusammenzufassenden Abschnitts, werden an das Benutzerterminal 45A gesendet. Wenn der betreffende Inhalt bereits am Benutzerterminal 45A empfangen worden ist, kann der Benutzer den Inhalt sehen, indem er ihn sprachblockweise vom Anfangs- zum Endzeitpunkt abspielt.
D.h., der Benutzer sendet die Hilfsinformation und das Zusammenfassungsanforderungssignal vom Benutzerterminal aus, und die Datenzentrale erzeugt eine Zusammenfassung des Inhalts entsprechend der Hilfsinformation, bestimmt dann Anfangs- und Endzeiten jedes Zusammenfassungsabschnitts und sendet diese Zeiten an das Benutzerterminal. Mit anderen Worten fasst die Datenzentrale 43 das vom Benutzer spezifizierte Programm nach der von ihm angeforderten Zusammenfassungsbedingung zusammen und verteilt zum Zusammenfassen erforderliche Wiedergabedaten (Anfangs- und Endzeitpunkte der für die Zusammenfassung zu verwendenden Sprachblöcke etc.) an das Benutzerterminal 45A. Der Benutzer am Benutzerterminal 45A sieht das Programm durch Abspielen von dessen Zusammenfassung für die Abschnitte mit den Anfangs- und Endzeiten, die in den an das Benutzerterminal 45A verteilten Abspieldaten angegeben sind. Entsprechend sendet in diesem Fall das Benutzerterminal 45A ein Buchhaltungsanforderungssignal an die Buchhaltungsvorrichtung 44 mit Bezug auf die Verteilung der Abspieldaten. Die Buchhaltungsvorrichtung 44 führt die benötigte Buchhaltung durch, z.B. durch Abziehen des Wertes der Abspieldaten von dem Saldo im Bankkonto des betreffenden Benutzerterminals und Hinzufügen des Datenwerts zum Saldo in dem Bankkonto des Betreibers der Datenzentrale.
Das Verarbeitungsverfahren der oben beschriebenen Inhaltsinformationsverteilungsvorrichtung wird implementiert durch Ausführung eines Programms auf einem Computer, der die Datenzentrale 43 bildet. Das Programm wird über eine Fernmeldeschaltung heruntergeladen oder von einer Magnetplatte, einer CD-ROM oder einem ähnlichen magnetischen Medium in ein Verarbeitungsmittel wie etwa eine CPU heruntergeladen oder installiert.
Wie oben beschrieben, ist es gemäß Ausgestaltung 4 für einen Benutzer möglich, eine nach Wunsch zeitlich reduzierte Zusammenfassung eines gewünschten Inhalts zu sehen, bevor er den Inhalt kauft. Dementsprechend kann der Benutzer eine korrekte Entscheidung über den Kauf des Inhalts treffen.
Wie zuvor beschrieben, kann der Benutzer ferner eine Zusammenfassung eines während seiner Abwesenheit aufgezeichneten Inhalts anfordern, und Abspieldaten für die Zusammenfassung können in Reaktion auf die Anforderung verteilt werden. Diese Ausgestaltung ermöglicht also eine Zusammenfassung an den Benutzerendgeräten 45A bis 45N, ohne dass Zusammenfassungsprogramme an den Terminals vorbereitet sind.
Wie oben beschrieben, wird gemäß einem ersten Aspekt der Ausgestaltung 4 ein Inhaltsinformationsverteilungsverfahren bereitgestellt, das eine Inhaltsdatenbank verwendet, in dem Inhalte, die jeweils ein Sprachsignal und ihre Attribute angebende Hilfsinformation umfassen, in Entsprechung zueinander gespeichert sind, wobei das Verfahren folgende Schritte umfasst:

(A) Empfangen von Hilfsinformation von einem Benutzerterminal;
(B) Extrahieren des Sprachsignals des der Hilfsinformation entsprechenden Inhalts;
(C) Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltenen Sprachparametern und Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit für den dem Satz von Sprachparametern entsprechenden Sprachparametervektor aus einem Codebuch, das für jeden Code einen Sprachparametervektor und eine Betontzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigstens eines unter Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
(D) Berechnen der Betontzustands-Likelihood eines Sprach-Subblocks basierend auf der Betontzustands-Auftretenswahrscheinlichkeit, die aus dem Codebuch erhalten wird;
(E) Entscheiden, dass Sprachblöcke, die jeweils einen Sprach-Subblock enthalten, dessen Betontzustands-Likelihood höher als ein vorgegebener Wert ist, Zusammenfassungsabschnitte sind; und
(F) Senden von jedem der Zusammenfassungsabschnitte des Inhalts entsprechender Inhaltsinformation an das Benutzerterminal.

Einem zweiten Aspekt der Ausgestaltung 4 zufolge sind bei dem Verfahren nach dem ersten Aspekt in dem Codebuch ferner die Normalzustands-Auftretenswahrscheinlichkeiten der Sprachparametervektoren in Entsprechung zu den jeweiligen Codes gespeichert;
enthält Schritt (C) einen Schritt des Berechnens einer Normalzustands-Likelihood des Sprach-Subblocks basierend auf der aus dem Codebuch erhaltenen Normalzustands-Auftretenswahrscheinlichkeit; und
enthält Schritt (E) die Schritte:

(E-1) Berechnen eines Likelihood-Verhältnisses der Betontzustands-Likelihood zu der Normalzustands-Likelihood für jeden der Sprach-Subblöcke;
(E-2) Berechnen der Gesamtsumme der Dauern der Zusammenfassungsabschnitte in absteigender Reihenfolge des Likelihood-Verhältnisses; und
(E-3) Entscheiden, dass ein Sprachblock der Zusammenfassungsabschnitt ist, für den ein Zusammenfassungsverhältnis, welches das Verhältnis der Gesamtsumme der Dauern der Zusammenfassungsabschnitte zu dem gesamten Sprachsignalabschnitt ist, gleich einer von dem Benutzerterminal empfangenen Zusammenfassungsrate oder vorgegebenen Zusammenfassungsrate ist.

Gemäß einem dritten Aspekt von Ausgestaltung 4 umfasst bei dem Verfahren des zweiten Aspekts der Schritt (C) die Schritte:

(C-1) Entscheiden, ob jeder Rahmen des Sprachsignals ein stimmhafter oder stimmloser Abschnitt ist;
(C-2) Entscheiden, dass ein Abschnitt, der einen stimmhaften Abschnitt enthält, dem mehr als eine vorgegebene Anzahl von stimmlosen Abschnitten vorangeht und nachfolgt, ein Sprach-Subblock ist; und
(C-3) Entscheiden, dass eine Sprach-Subblockfolge, die mit einem Sprach-Subblock endet, der stimmhafte Abschnitte enthält, deren durchschnittliche Leistung kleiner als ein Vielfaches einer vorgegebenen Konstanten der durchschnittlichen Leistung des Sprach-Subblocks ist, ein Sprachblock ist; und

Gemäß einem vierten Aspekt von Ausgestaltung 4 ist ein Inhaltsinformationsverteilungsverfahren vorgesehen, das eine Inhaltsdatenbank verwendet, die Inhalte, die jeweils ein Sprachsignal und Hilfsinformation, die deren Attribute angibt, im Zusammenhang miteinander gespeichert enthält, wobei das Verfahren die Schritte umfasst:

(A) Empfangen von Hilfsinformation von einem Benutzerterminal;
(B) Extrahieren des Sprachsignals des der Hilfsinformation entsprechenden Inhalts;
(C) Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltenen Sprachparametern und Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern entsprechenden Sprachparametervektors aus einem Codebuch, das für jeden Code einen Sprachparametervektor und eine Betontzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigstens eines von Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
(D) Berechnen der Betontzustands-Likelihood eines Sprach-Subblocks basierend auf der aus dem Codebuch erhaltenen Betontzustands-Auftretenswahrscheinlichkeit;
(E) Entscheiden, dass Sprachblöcke, die jeweils einen Sprach-Subblock enthalten, dessen Betontzustands-Likelihood höher als ein vorgegebener Wert ist, Zusammenfassungsabschnitte sind; und
(F) Senden von wenigstens Anfangs- oder Endzeit jedes Zusammenfassungsabschnitts des der von dem Benutzerterminal empfangenen Hilfsinformation entsprechenden Inhalts an das Benutzerterminal.

Gemäß einem fünften Aspekt von Ausgestaltung 4 sind in dem Codebuch ferner die Normalzustands-Auftretenswahrscheinlichkeiten der Sprachparametervektoren in Entsprechung zu den Codes gespeichert;
enthält Schritt (C) einen Schritt des Erhaltens der Normalzustands-Auftretenswahrscheinlichkeit, die demjenigen aus dem Satz von Sprachparametern entspricht, der durch Analysieren des Sprachsignals erhalten wird, für jeden Rahmen;
Schritt (D) einen Schritt des Berechnens der Normalzustands-Likelihood des Sprach-Subblocks basierend auf der aus dem Codebuch erhaltenen Normalzustands-Auftretenswahrscheinlichkeit; und
enthält Schritt (E) die Schritte:

(E-1) Berechnen eines Likelihood-Verhältnisses der Betontzustands-Likelihood zu der Normalzustands-Likelihood für jeden der Sprach-Subblocke;
(E-2) Berechnen der Gesamtsumme der Dauern der Zusammenfassungsabschnitte in absteigender Reihenfolge des Likelihood-Verhältnisses; und
(E-3) Entscheiden, dass ein Sprachblock der Zusammenfassungsabschnitt ist, für den ein Zusammenfassungsverhältnis, das das Verhältnis der Gesamtsumme der Dauern der Zusammenfassungsabschnitte zu dem gesamten Sprachsignalabschnitt ist, gleich einer von einem Benutzerendgerät empfangenen Zusammenfassungsrate oder einer vorgegebenen Zusammenfassungsrate ist.

Gemäß einem sechsten Aspekt von Ausgestaltung 4, bei dem Verfahren nach dem fünften Aspekt, enthält Schritt (C) die Schritte:

(C-1) Entscheiden, ob jeder Rahmen des Sprachsignals ein stimmloser oder stimmhafter Abschnitt ist;
(C-2) Entscheiden, dass ein Abschnitt, der einen stimmhaften Abschnitt enthält, dem mehr als eine vorgegebene Anzahl von stimmlosen Abschnitten vorangehen und nachfolgen, ein Sprach-Subblock ist; und
(C-3) Entscheiden, dass eine Sprach-Subblockfolge, die mit einem Sprach-Subblock abschließt, der stimmhafte Abschnitte enthält, deren durchschnittliche Leistung kleiner als ein Vielfaches einer vorgegebenen Konstante der durchschnittlichen Leistung des Sprach-Subblocks ist, ein Sprachblock ist;

Gemäß einem siebten Aspekt von Ausgestaltung 4 ist eine Inhaltsinformationsverteilungsvorrichtung vorgesehen, die eine Inhaltsdatenbank verwendet, in welcher Inhalte, die jeweils ein Sprachsignal und Hilfsinformation, die deren Attribute angibt, in Entsprechung zueinander gespeichert sind, und die an ein Benutzerterminal einen inhaltszusammengefassten Abschnitt sendet, der von dem Benutzerterminal empfangener Hilfsinformation entspricht, wobei die Vorrichtung umfasst:
ein Codebuch, das für jeden Code einen Sprachparametervektor und eine Betontzustands-Auftretenswahrscheinlichkeit für den Sprachparametervektor speichert, wobei jeder der Sprachparametervektoren wenigstens eines unter Grundfrequenz, Leistung und zeitliche Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
ein Betontzustands-Wahrscheinlichkeits-Rechenteil zum Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltenen Sprachparametern, das aus dem Codebuch eine Betontzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern entsprechenden Sprachparametervektors erhält und eine Betontzustands-Likelihood eines Sprach-Subblocks basierend auf der Betontzustands-Auftretenswahrscheinlichkeit berechnet;
ein Zusammenfassungsabschnitt-Entscheidungsteil zum Entscheiden, dass Sprachblöcke, die jeweils einen Sprach-Subblock enthalten, dessen Betontzustands-Likelihood höher als ein vorgegebener Wert ist, Zusammenfassungsabschnitte sind; und
ein Inhaltsverteilungsteil zum Verteilen von jedem Zusammenfassungsabschnitt des Inhalts entsprechender Inhaltsinformation an das Benutzerterminal.
Gemäß einem achten Aspekt von Ausgestaltung 4 ist eine Inhaltsinformationsverteilungsvorrichtung vorgesehen, die eine Inhaltsdatenbank verwendet, in der Inhalte, die jeweils ein Sprachsignal und deren Attribute angebende Hilfsinformation umfassen, in Entsprechung zueinander gespeichert sind, und die an das Benutzerterminal wenigstens die Anfangs- oder Endzeit jedes Zusammenfassungsabschnitts des der von dem Benutzerterminal empfangenen Hilfsinformation entsprechenden Inhalts sendet, wobei die Vorrichtung umfasst:
ein Codebuch, das für jeden Code einen Sprachparametervektor und eine Betontzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigstens eines von Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
ein Betontzustands-Wahrscheinlichkeits-Rechenteil zum Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltenen Sprachparametern, das aus dem Codebuch eine Betontzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern entspre chenden Sprachparametervektors erhält und die Betontzustands-Auftretenswahrscheinlichkeit eins Sprach-Subblocks basierend auf der Betontzustands-Auftretenswahrscheinlichkeit berechnet;
ein Zusammenfassungsabschnitt-Entscheidungsteil zum Entscheiden, dass Sprachblöcke, die jeweils einen Sprach-Subblock enthalten, dessen Betontzustands-Likelihood höher als ein vorgegebener Wert ist, Zusammenfassungsabschnitte sind; und
ein Inhaltsverteilungsteil zum Senden von wenigstens Anfangs- oder Endzeit jedes Zusammenfassungsabschnitts des Inhalts entsprechender Inhaltsinformation an das Benutzerterminal.
Gemäß einem neunten Aspekt von Ausgestaltung 4 ist ein in computerlesbarer Form beschriebenes Inhaltsinformationsverteilungsprogramm zum Implementieren eines der Inhaltsinformations-Verteilungsverfahren gemäß erstem bis sechstem Aspekt dieser Ausgestaltung auf einem Computer vorgesehen.
AUSGESTALTUNG 5
31 zeigt in Blockform zur Erläuterung ein Inhaltsinformations-Verteilungsverfahren und eine Vorrichtung gemäß dieser Ausgestaltung der Erfindung. Bezugszeichen 41 bezeichnet eine Inhaltsbereitsteller-(Content Provider)-Vorrichtung, 42 ein Fernmeldenetzwerk, 43 eine Datenzentrale, 44 eine Buchführungsvorrichtung, 46 eine Terminalgruppe und 47 eine Aufzeichnungsvorrichtung. Als Fernmeldenetz 42 wird z.B. ein Telefonnetz, das Internet oder ein Kabelfernsehnetz verwendet.
Die Inhaltsbereitsteller-Vorrichtung 41 ist ein Computer oder ein Fernmeldegerät, das unter der Steuerung eines Inhaltsservers oder Versorgers wie etwa eines Fernsehsenders oder einer Kinoverleihagentur steht. Die Inhaltsbereitsteller-Vorrichtung 41 zeichnet als Hilfsinformation bibliografische Information und Urheberrechtsinformation wie etwa die von dem Bereitsteller erzeugten oder verwalteten Inhalte, deren Titel, Produktionsdaten und Namen von Produzenten auf. In 31 ist nur eine Inhaltsbereitsteller-Vorrichtung 41 gezeigt, doch in der Praxis sind viele Bereitsteller-Vorrichtungen vorhanden. Die Inhaltsbereitsteller-Vorrichtung 41 sendet Inhalte, die verkauft werden sollen (üblicher Weise von Ton begleitete Videoinformationen wie etwa ein Kinofilm) an die Datenzentrale 43 über das Fernmeldenetz 42. Die Inhalte können an die Datenzentrale 43 in Form eines Magnetbandes, einer DVD oder eines ähnlichen Aufzeichnungsmediums genauso wie über das Fernmeldenetz 42 gesendet werden.
Die Datenzentrale 43 kann unter die Steuerung beispielsweise einer Fernmeldegesellschaft, die das Fernmeldenetzwerk 42 betreibt, oder einer dritten Partei gestellt sein. Die Datenzentrale 43 ist ausgestattet mit einer Inhaltsdatenbank 43A, in der Inhalte und von der Inhaltsbereitsteller-Vorrichtung 41 empfangene Hilfsinformation in Zuordnung zueinander gespeichert sind. In der Datenzentrale sind ferner angeordnet ein Auffindeteil 43B, ein Zusammenfassungsteil 43C, ein Zusammenfassungsverteilungsteil 43D, ein Inhaltsverteilungsteil 43F, ein Zieladressenanpassungsteil 43H und ein Repräsentativbildauswahlteil 43K.
Die Terminalgruppe 46 kann durch ein tragbares Telefon oder ein anderes tragbares Endgerät gebildet sein, das in der Lage ist, Bewegtbildinformation zu empfangen, oder durch ein internetfähiges Telefon 46B mit einem Anzeigeschirm oder ein Informationsterminal 46C, das in der Lage ist, Bewegtbildinformation zu senden und zu empfangen. Der Einfachheit halber wird bei dieser Ausgestaltung beschrieben, dass ein tragbares Telefon 46A eine Zusammenfassung anfordert und einen Inhalt bestellt.
Die Aufzeichnungsvorrichtung 47 ist eine Vorrichtung, die im Besitz des Benutzers des tragbaren Telefons 46A ist. Die Aufzeichnungsvorrichtung 47 befindet sich beispielsweise im Heim des Benutzers.
Die Buchführungsvorrichtung 44 ist an das Fernmeldenetz 42 angeschlossen, empfängt von der Datenzentrale ein Signal, das angibt, dass ein Inhalt verteilt worden ist, und führt eine Buchhaltung des Werts des Inhalts für den Inhaltsempfänger aus.
Es wird eine Beschreibung einer Prozedur von der Verteilung einer Zusammenfassung des Inhalts an das tragbare Telefon 46A bis zur Beendigung des Verkaufs des Inhalts nach dessen Verteilung an die Aufzeichnungsvorrichtung 47 geliefert.

(A) Der Titel eines gewünschten Inhalts oder dessen Identifikationsinformation wird von dem tragbaren Telefon 46A an die Datenzentrale 43, wenn notwendig zusammen mit der Zusammenfassungsrate oder Zusammenfassungsdauer, gesendet.
(B) In der Datenzentrale findet das Auffindeteil 43B den spezifizierten Inhalt in der Inhaltsdatenbank 43A basierend auf dem von dem tragbaren Telefon 46 gesendeten Titel des Inhalts.
(C) Der von dem Auffindeteil 43B gefundene Inhalt wird in das Zusammenfassungsteil 43C eingegeben, das eine Zusammenfassung des Inhalts erzeugt. Beim Zusammenfassen des Inhalts wird die zuvor mit Bezug auf 14 beschriebene Sprachverarbeitungsprozedur verfolgt, um über die Betontheit des in dem Inhalt enthaltenen Sprachsignals entsprechend der benutzerspezifizierten Zusammenfassungsrate oder Zusammenfassungsdauer, die von dem tragbaren Telefon 46A gesendet ist, zu entscheiden, und der Sprachblock, der den Sprach-Subblock im betonten Zustand enthält, wird als Zusammenfassungsabschnitt festgelegt. Die Zusammenfassungsrate oder Zusammenfassungszeit müssen nicht immer von dem tragbaren Telefon 46A eingegeben werden, sondern es kann vorgesehen werden, dass voreingestellte Zahlenwerte (z.B. fünffach, 20 Sekunden usw.) auf dem tragbaren Telefon 46A angezeigt werden, so dass der Benutzer einen gewünschten von diesen auswählen kann.

Ein repräsentatives Standbild wenigstens eines Rahmens wird aus dem Abschnitt des Inhaltsbildsignals ausgewählt, der mit jedem Zusammenfassungsabschnitt synchronisiert ist, der wie oben erwähnt festgelegt ist. Das repräsentative Standbild kann auch ein Bild sein, mit dem das Bildsignal jedes Zusammenfassungsabschnitts beginnt oder endet, oder ein Schneidepunktbild, d.h. ein Bild eines Rahmens t nach einem Referenzrahmen, das von dem Bild des letzteren mehr als ein vorgegebener Schwellwert entfernt ist, dessen Entfernung zum Bild eines nah benachbarten Rahmens aber kleiner als der Schwellwert ist, wie in der japanischen Patentoffenlegung Schrift Nr. 32924/96 beschrieben. Alternativ ist es möglich, als das repräsentative Standbild einen Bildrahmen zu einer Zeit auszuwählen, zu der die Betontzustands-Wahrscheinlichkeit P_Semp der Sprache maximal ist, oder einen Bildrahmen zu einer Zeit, wo das Wahrscheinlichkeitsverhältnis P_Semp/P_Snrm zwischen Betontzustands- und Normalzustands-Wahrscheinlichkeit P_Semp und P_Snrm der Sprache maximal ist. Ein solches repräsentatives Standbild kann für jeden Sprachblock ausgewählt werden. Auf diese Weise werden das Sprachsignal und das repräsentative Standbild jedes als Zusammenfassungsinhalt erhaltenen Zusammenfassungsabschnitts festgelegt.

(D) Das Zusammenfassungsverteilungsteil 43D verteilt an das tragbare Endgerät 46A den von dem Zusammenfassungsteil 43C erzeugten Zusammenfassungsinhalt.
(E) Auf dem tragbaren Telefon 46A werden die repräsentativen Standbilder des von der Datenzentrale 43 verteilten Zusammenfassungsinhalts durch die Anzeigevorrichtung angezeigt, und Sprache der Zusammenfassungsabschnitte wird abgespielt. Dies beseitigt die Notwendigkeit, alle Bildinformationsteile zu senden, und ermöglicht eine Kompensation für Informationsausfälle durch Sprache der Zusammenfassungsabschnitte. So kann selbst im Fall äußerst begrenzter Kanalkapazität wie etwa bei der Mobilkommunikation das Thema des Inhalts mit minimalem Informationsmangel verteilt werden.
(F) Nach Betrachten des Zusammenfassungsinhalts sendet der Benutzer an die Datenzentrale 43 Inhaltsbestellinformation, die angibt, dass er die Verteilung einer ungekürzten Version des Inhalts an ihn wünscht.
(G) Bei Empfang der Bestellinformation spezifiziert die Datenzentrale 43 durch das Zieladressenanpassungsteil 43H die Identifikationsinformation der Zielvorrichtung, die einer Telefonnummer, E-Mail-Adresse oder einer ähnlichen Terminalidentifikationsinformation entspricht, die dem tragbaren Telefon 46A zugeordnet ist.
(H) In dem Adressenanpassungsteil 43H sind der Name des Benutzers jedes tragbaren Telefon 46A, dessen Terminalidentifikationsinformation und Identifikationsinformation jeder Zielvorrichtung in Entsprechung zueinander vorab gespeichert. Die Zielvorrichtung kann das tragbare Telefon des Benutzers oder ein Personal Computer sein.
(I) Das Inhaltsverteilungsteil 43F gibt hierein den gewünschten Inhalt aus der Inhaltsdatenbank 43A ein und sendet ihn an das durch die Identifikationsinformation angegebene Ziel.
(J) Die Aufzeichnungsvorrichtung 47 erfasst die zugeteilte Adresse aus dem Fernmeldenetzwerk 42 durch das Zugriffserfassungsteil 47A und startet die Aufzeichnungsvorrichtung 47 durch das Erfassungssignal, um an die Adresse gerichtete Inhaltsinformation zu lesen und aufzuzeichnen.
(K) Die Buchführungsvorrichtung 44 führt eine mit der Inhaltsverteilung verknüpfte Buchführungspro zedur durch, z.B. durch Abziehen des Wertes des verteilten Inhalts vom Saldo des Bankkontos des Benutzers und anschließendes Addieren des Wertes des Inhalts zum Saldo des Bankkontos des Inhaltsverteilers.

Oben wird für jeden Sprach-Zusammenfassungsabschnitt ein repräsentatives Standbild extrahiert, und die Zusammenfassungs-Sprachinformation wird zusammen mit solchen repräsentativen Standbildern verteilt, doch ist es auch möglich, die Sprache in ihrer ursprünglichen Form zu verteilen, ohne sie zusammenzufassen, in welchem Fall repräsentative Standbilder, die durch Verfahren wie unten aufgeführt, extrahiert werden, während der Verteilung der Sprache gesendet werden.

(1) Für jede t-Sekunden-Periode wird ein Bild, das mit einem Sprachsignal der höchsten Betontzustands-Wahrscheinlichkeit in dieser Periode synchronisiert ist, als repräsentatives Standbild extrahiert.
(2) Für jeden Sprach-Subblock werden S Bilder (wobei S eine vorgegebene ganze Zahl größer oder gleich 1 ist), die mit Rahmen hoher Betontzustands-Wahrscheinlichkeiten in dem Sprach-Subblock synchronisiert sind, als ein repräsentatives Standbild extrahiert.
(3) Für jeden Sprach-Subblock von y Sekunden Dauer werden y/t repräsentative Standbilder (wobei y/t die Normierung von y durch eine feste Zeitdauer t darstellt) synchronisiert zu Sprachsignalen hoher Betontzustands-Wahrscheinlichkeit extrahiert.
(4) Die Anzahl von extrahierten repräsentativen Standbildern ist proportional zum Wert der Betontzustands-Wahrscheinlichkeit jedes Rahmens des Sprach-Subblocks oder zum Wert des Verhältnisses zwischen Betontzustands- und Normalzustands-Wahrscheinlichkeiten oder zum Wert des Gewichtungskoeffizienten W.
(5) Das obige Repräsentativ-Standbildextraktionsverfahren gemäß einem von (1) bis (4) wird für den Sprachblock anstatt für den Sprach-Subblock durchgeführt.

D.h. (1) betrifft ein Verfahren, das für jeweils für t Sekunden z.B. ein repräsentatives Standbild extrahiert, das mit einem Sprachsignal der höchsten Betontzustands-Wahrscheinlichkeit in der t-Sekunden-Periode synchronisiert ist.
Punkt (2) betrifft ein Verfahren, das für jeden Sprach-Subblock als repräsentative Standbilder eine willkürliche Anzahl S von Bildern extrahiert, die mit denjenigen Rahmen des Sprach-Subblocks synchronisiert sind, die eine hohe Betontzustands-Wahrscheinlichkeit haben.
Punkt (3) betrifft ein Verfahren, das Standbilder in einer zur Länge der Dauer y des Sprach-Subblocks proportionalen Zahl extrahiert.
Punkt (4) betrifft ein Verfahren, das Standbilder in einer zum Wert der Betontzustands-Wahrschein lichkeit proportionalen Anzahl extrahiert.
In dem Fall, dass der Sprachinhalt in seiner ursprünglichen Form verteilt wird, während gleichzeitig, wie oben erwähnt, repräsentative Standbilder gesendet werden, wird das Sprachsignal des durch das Auffindeteil 43B gefundenen Inhalts durch das Inhaltsverteilungsteil 43F intakt an das Benutzerterminal 46A, 46B oder 46C verteilt. Gleichzeitig berechnet das Zusammenfassungsteil 43C den Wert des Gewichtungskoeffizienten W zum Ändern des Schwellwerts, der verwendet wird, um über die Betontzustands-Wahrscheinlichkeit des Sprachsignals oder das Verhältnis P_Semp/P_Snrm zwischen Betontzustands- und Normalzustands-Wahrscheinlichkeiten oder den Betontzustand des Sprachsignals zu ändern. Basierend auf dem so berechneten Wert extrahiert das Repräsentativbild-Auswahlteil 43K repräsentative Standbilder, die von dem Inhaltverteilungsteil 43F an das Benutzerterminal zusammen mit dem Sprachsignal verteilt werden.
Das obige Schema erlaubt das Abspielen des gesamten Sprachsignals ohne Ausfälle. Andererseits werden die mit stimmhaften, als betont festgelegten Abschnitten synchronisierten Standbilder intermittierend und synchronisiert zur Sprache angezeigt. Dies erlaubt es dem Benutzer, den Handlungsablauf beispielsweise eines Fernsehspiels leicht zu verstehen; daher ist die tatsächlich an den Benutzer gesendete Datenmenge klein, obwohl die an ihn übertragbare Informationsmenge groß ist.
Zwar ist oben das Zieladressenanpassungsteil 43N in der Datenzentrale 43 platziert, doch ist dies nicht immer nötig. D.h., wenn das Ziel das tragbare Telefon 46A ist, kann dessen Identifikationsinformation als die Identifikationsinformation der Zielvorrichtung verwendet werden.
Das Zusammenfassungsteil 43C kann mit Spracherkennungsmitteln ausgestattet sein, so dass es eine Phonemfolge aus dem Sprachsignal des Zusammenfassungsabschnitts spezifiziert und Textinformation erzeugt, welche die Phonemfolge darstellt. Das Spracherkennungsmittel kann eines sein, das lediglich aus der Sprachsignal-Wellenform die Textinformation bestimmen muss, die den Inhalt der Äußerung angibt. Die Textinformation kann als Teil des Zusammenfassungsinhalts anstelle des Sprachsignals gesendet werden. In einem solchen Fall kann das tragbare Telefon 46A auch eingerichtet sein, Zeichencodes und Zeichenbildmuster in Entsprechung zueinander vorab zu speichern, so dass die Zeichenbildmuster, die den Text des Zusammenfassungsinhalts bildenden Zeichencodes entsprechen, den repräsentativen Bildern wie Untertitel überlagert werden, um mit Zeichen überlagerte Bilder anzuzeigen.
Wenn das Sprachsignal auch als Zusammenfassungsinhalt übertragen wird, kann das tragbare Telefon 46A mit Spracherkennungsmitteln ausgestattet sein, so dass Zeichenbildmuster, die auf durch Erkennen des übertragenen Sprachsignals erhaltenen Textinformationen basieren, erzeugt und den repräsentativen Standbildern überlagert werden, um zeichenüberlagerte Bildmuster anzuzeigen.
In dem Zusammenfassungsteil 43C sind Zeichencodes und Zeichenbildmuster in Entsprechung zueinander vorab gespeichert, so dass die Zeichenbildmuster, die den Text des Zusammenfas sungsinhalts bildenden Zeichencodes entsprechen, den repräsentativen Bildern überlagert werden, um zeichenüberlagerte Bilder anzuzeigen. In diesem Fall werden zeichenüberlagerte Bilder als Zusammenfassungsinhalt an das tragbare Telefon 46A gesendet. Das tragbare Telefon muss lediglich mit Mitteln zum Anzeigen der zeichenüberlagerten Bilder ausgestattet sein und muss weder die Entsprechung zwischen den Zeichencodes und den Zeichenbildmustern speichern, noch muss es Spracherkennungsmittel verwenden.
Auch kann der Zusammenfassungsinhalt als Bildinformation ohne Notwendigkeit des Abspielens von Sprache angezeigt werden – dies ermöglicht ein Abspielen des Zusammenfassungsinhalts sogar unter Umständen, wo das Abspielen von Sprache eingeschränkt ist, wie etwa in öffentlichen Verkehrsmitteln.
Bei dem oben erwähnten Schritt (E), im Fall, dass auf dem tragbaren Telefon 46A eine Folge von als Zusammenfassung erhaltenen repräsentativen Standbildern angezeigt wird, können die Bilder sequenziell eines nach dem anderen synchronisiert zu der Sprache des Zusammenfassungsabschnitts angezeigt werden, doch ist es auch möglich, jedes repräsentative Standbild in den letzten 20 bis 50% seines Anzeigezeitraums allmählich auszublenden und gleichzeitig mit dem Anzeigen des nächsten Standbildes zu Beginn des Ausblendezeitraums zu beginnen, so dass das nächste Standbild mit dem vorhergehenden überlappt. Als Ergebnis sieht die Folge von Standbildern wie bewegte Bilder aus.
Die Datenzentrale 43 muss lediglich den Inhalt an die Adresse der Aufzeichnungsvorrichtung 47 verteilen, die der Bestellinformation beigefügt ist.
Das oben beschriebene Inhaltsinformations-Verteilungsverfahren gemäß der vorliegenden Erfindung kann implementiert werden durch Ausführen eines Inhaltsinformations-Verteilungsprogramms auf einem Computer. Das Programm wird in dem Computer über eine Fernmeldeleitung installiert oder von einer CD-ROM oder Magnetplatte installiert.
Wie oben beschrieben, ermöglicht diese Ausgestaltung dem tragbaren Telefon 46A, dem Telefon 46A mit Anzeigevorrichtung und dem tragbaren Terminal 46C, Zusammenfassungen von in der Datenzentrale gespeicherten Inhalten zu empfangen, solange sie bewegte Bilder empfangen können. Folglich können Benutzer auf Zusammenfassungen der von ihnen gewünschten Inhalte von der Straße aus oder beliebigen Orten zugreifen.
Da außerdem die Länge der Zusammenfassung oder Zusammenfassungsrate frei gesetzt werden kann, kann der Inhalt nach Wunsch zusammengefasst werden.
Wenn der Benutzer nach Überprüfung der Zusammenfassung den Inhalt kaufen möchte, kann er außerdem eine Bestellung dafür unmittelbar abgeben, und der Inhalt wird sofort an seine Aufzeichnungsvorrichtung 47 verteilt und dort aufgezeichnet. Dies macht die Überprüfung des Inhalts bequem und vereinfacht die Prozedur von dessen Kauf.
Wie oben beschrieben ist gemäß einem ersten Aspekt von Ausgestaltung 5 ein Verfahren vorgesehen, das eine Inhaltsdatenbank verwendet, in der Inhalte in Entsprechung zueinander gespeichert sind, die jeweils ein mit einem Sprachsignal synchronisiertes Videosignal und deren Attribute angebende Hilfsinformation umfassen, und das wenigstens einen Teil des der von einem Benutzerterminal empfangenen Hilfsinformation entsprechenden Inhalts sendet, wobei das Verfahren die Schritte umfasst:

(A) Empfangen von Hilfsinformation von einem Benutzerterminal;
(B) Extrahieren des Sprachsignals aus dem der Hilfsinformation entsprechenden Inhalt;
(C) Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltenen Sprachparametern und Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern entsprechenden Sprachparametervektors aus einem Codebuch, das für jeden Code einen Sprachparametervektor und eine Betontzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigstens eines von Grundfrequenz, Leistung und zeitliche Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
(D) Berechnen einer Betontzustands-Likelihood eines Sprach-Subblocks basierend auf der aus dem Codebuch erhaltenen Betontzustands-Auftretenswahrscheinlichkeit;
(E) Entscheiden, dass Sprachblöcke, die jeweils einen Sprach-Subblock enthalten, dessen Betontzustands-Likelihood höher als ein gegebener Wert ist, Zusammenfassungsabschnitte sind; und
(F) Auswählen, als repräsentatives Bildsignal, eines Bildsignals wenigstens eines Rahmens aus dem Abschnitt des gesamten Bildsignals, das mit jedem der Zusammenfassungsabschnitte synchronisiert ist; und
(G) Senden von auf dem repräsentativen Bildsignal und einem Sprachsignal wenigstens eines Teils jedes Zusammenfassungsabschnitts basierender Information an das Benutzerterminal.

Gemäß einem zweiten Aspekt von Ausgestaltung 5 sind bei dem Verfahren nach dem ersten Aspekt in dem Codebuch ferner die Normalzustands-Auftretenswahrscheinlichkeiten der Sprachparametervektoren jeweils in Entsprechung zu den Codes gespeichert;
enthält der (C) einen Schritt des Erhaltens der Normalzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors, der dem durch Quantisieren des Sprachsignals erhaltenen Sprachparametervektor entspricht, aus dem Codebuch für jeden Rahmen;
enthält Schritt (D) einen Schritt des Berechnens der Normalzustands-Likelihood des Sprach-Subblocks basierend auf der Normalzustands-Auftretenswahrscheinlichkeit;
enthält Schritt (E) die Schritte:

(E-1) provisorisch Entscheiden, dass Sprachblöcke, die jeweils einen Sprach-Subblock enthalten, in welchem ein Likelihood-Verhältnis der Betontzustands-Likelihood zu der Normalzustands-Likelihood größer als ein vorgegebener Koeffizient ist, Zusammenfassungsabschnitte sind;
(E-2) Berechnen der Gesamtsumme der Dauern der Zusammenfassungsabschnitte oder des Verhältnisses der Gesamtsumme der Dauern der Zusammenfassungsabschnitte zu dem gesamten Sprachsignalabschnitt als Zusammenfassungsrate dafür;
(E-3) Entscheiden über die Zusammenfassungsabschnitte durch Berechnen eines vorgegebenen Koeffizienten, so dass die Gesamtsumme der Dauern der Zusammenfassungsabschnitte oder die Zusammenfassungsrate, die das Verhältnis dieser Gesamtsumme zu dem gesamten Sprachab schnitt ist, gleich der voreingestellten oder von dem Benutzerendgerät empfangenen Zusammenfassungsdauer oder Zusammenfassungsrate wird.

Gemäß einem dritten Aspekt von Ausgestaltung 5 sind bei dem Verfahren nach dem ersten Aspekt in dem Codebuch ferner die Normalzustands-Auftretenswahrscheinlichkeiten der Sprachparametervektoren in Entsprechung zu den jeweiligen Codes gespeichert;
enthält Schritt (C) einen Schritt des Erhaltens der Normalzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors, der dem durch Analysieren des Sprachsignals erhaltenen Satz von Sprachparametern entspricht, aus dem Codebuch für jeden Rahmen;
enthält Schritt (D) einen Schritt des Berechnens der Normalzustands-Likelihood des Sprach-Subblocks basierend auf der aus dem Codebuch erhaltenen Normalzustands-Auftretenswahrscheinlichkeit; und
enthält Schritt (E) die Schritte:

(E-1) Berechnen eines Likelihood-Verhältnisses der Betontzustands-Likelihood zur Normalzustands-Likelihood für jeden der Sprach-Subblöcke;
(E-2) Berechnen der Gesamtsumme der Dauern der Zusammenfassungsabschnitte in absteigender Reihenfolge des Wahrscheinlichkeitsverhältnisses; und
(E-3) Entscheiden, dass ein Sprachblock ein Zusammenfassungsabschnitt ist, für den eine Zusammenfassungsrate, die das Verhältnis der Gesamtsumme der Dauern der Zusammenfassungsabschnitte zum gesamten Sprachsignalabschnitt ist, gleich einer von dem Benutzerterminal empfangenen Zusammenfassungsrate oder einer vorgegebenen Zusammenfassungsrate ist.

Gemäß einem vierten Aspekt von Ausgestaltung 5 enthält bei dem Verfahren des zweiten oder dritten Aspekts der Schritt (C) die Schritte:

(C-1) Entscheiden, ob jeder Rahmen des Sprachsignals ein stimmloser oder stimmhafter Abschnitt ist;
(C-2) Entscheiden, dass ein Abschnitt, der einen stimmhaften Abschnitt enthält, dem mehr als eine vorgegebene Anzahl von stimmlosen Abschnitten vorangehen und nachfolgen, ein Sprach-Subblock ist; und
(C-3) Entscheiden, dass eine Sprach-Subblockfolge, die mit einem Sprach-Subblock abschließt, der stimmhafte Abschnitte enthält, deren durchschnittliche Leistung kleiner als ein Vielfaches einer vorgegebenen Konstanten der durchschnittlichen Leistung des Sprach-Subblocks ist, ein Sprachblock ist; und

Gemäß einem fünften Aspekt von Ausgestaltung 5 ist ein Inhaltsinformations-Verteilungsverfahren vorgesehen, das das gesamte Sprachsignal eines Inhalts an ein Benutzerendgerät verteilt, wobei das Verfahren die Schritte umfasst:

(A) Extrahieren eines repräsentativen Standbildes, das mit jedem Sprachsignalabschnitt synchronisiert ist, in welchem die Betontsprach-Wahrscheinlichkeit höher als ein vorgegebener Wert wird oder das Verhältnis zwischen Betontsprach- und Normalsprach-Wahrscheinlichkeiten höher als ein vor gegebener Wert wird, während der Verteilung des Sprachsignals; und
(B) Verteilen der repräsentativen Standbilder an das Benutzerendgerät zusammen mit dem Sprachsignal.

Gemäß einem sechsten Aspekt von Ausgestaltung 5 enthält bei dem Verfahren nach einem der ersten bis vierten Aspekte der Schritt (G) einen Schritt des Erzeugens von Textinformation durch Spracherkennung von Sprachinformation eines jeden der Zusammenfassungsabschnitte und des Sendens der Textinformation als einer auf dem Sprachsignal basierenden Information.
Gemäß einem siebten Aspekt von Ausgestaltung 5 enthält bei dem Verfahren nach einem der ersten bis vierten Aspekte der Schritt (G) einen Schritt des Erzeugens von zeichenüberlagerten Bildern durch Überlagern von Zeichenbildmustern, die Zeichencodes entsprechen, die wenigstens einen Teil der Textinformation bilden, mit den repräsentativen Standbildern, und des Sendens der zeichenüberlagerten Bilder als auf den repräsentativen Standbildern und dem Sprachsignal wenigstens eines Abschnitts jedes stimmhaften Abschnitts basierende Information.
Gemäß einem achten Aspekt von Ausgestaltung 5 ist eine Inhaltsinformations-Verteilungsvorrichtung vorgesehen, die mit einer Inhaltsdatenbank ausgestattet ist, in der Inhalte, die jeweils ein mit einem Sprachsignal synchronisiertes Bildsignal und deren Attribute angebende Hilfsinformation enthalten, in Entsprechung zueinander gespeichert sind, und die wenigstens einen Teil des Inhalts sendet, die der von einem Benutzerterminal empfangenen Hilfsinformation entspricht, wobei das Verfahren umfasst:
ein Codebuch, das für jeden Code einen Sprachparametervektor und eine Betontzustands-Auftretenswahrscheinlichkeit dieses Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigsten eines unter Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
ein Betontzustands-Likelihood-Rechenteil zum Quantisieren eines Satzes von durch Analysieren der Sprache erhaltenen Parametern für jeden Rahmen, Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors, der dem Satz von Sprachparametern entspricht, aus dem Codebuch und Berechnen einer Betontzustands-Likelihood eines Sprach-Subblocks basierend auf der Betontzustands-Auftretenswahrscheinlichkeit;
ein Zusammenfassungsabschnitt-Entscheidungsteil zum Entscheiden, dass Sprachblöcke, die jeweils einen Sprach-Subblock enthalten, dessen Betontzustands-Likelihood höher als ein gegebener Wert ist, Zusammenfassungsabschnitte sind, ein Repräsentativbild-Auswahlteil zum Auswählen, als ein repräsentatives Bildsignal, eines Bildsignals wenigstens eines Rahmens aus dem mit jedem der Zusammenfassungsabschnitte synchronisierten Abschnitt des gesamten Bildsignals;
ein Zusammenfassungsverteilungsteil zum Senden von Information basierend auf dem repräsentativen Bildsignal und einem Sprachsignal wenigstens eines Teils jedes Zusammenfassungsabschnitts.
Gemäß einem neunten Aspekt von Ausgestaltung 5 ist eine Inhaltsinformationsverteilungsvorrichtung vorgesehen, die mit einer Inhaltsdatenbank ausgestattet ist, in der Inhalte, die jeweils ein mit einem Sprachsignal synchronisiertes Bildsignal und Hilfssignal, die deren Attribute angibt, umfassen, in Entsprechung miteinander gespeichert sind, und die wenigstens einen Teil des der von einem Be nutzerterminal empfangenen Hilfsinformation entsprechenden Inhalts sendet, wobei das Verfahren umfasst:
ein Codebuch, das für jeden Code einen Sprachparametervektor und eine Betontzustands-Auftretenswahrscheinlichkeit dieses Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigsten eines unter Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
ein Betontzustands-Likelihood-Rechenteil zum Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltener Sprachparameter, Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern aus dem Codebuch entsprechenden Sprachparametervektors und Berechnen der Betontzustands-Likelihood basierend auf der Betontzustands-Auftretenswahrscheinlichkeit;
ein Repräsentativbild-Auswahlteil zum Auswählen, als ein repräsentatives Bildsignal, eines Bildsignals wenigsten eines Rahmens aus demjenigen Abschnitt des mit jedem Sprach-Subblock synchronisierten gesamten Bildsignals, dessen Betontzustands-Likelihood höher als ein vorgegebener Wert ist; und
ein Zusammenfassungsverteilungsteil zum Senden der gesamten Sprachinformation des Inhalts und der repräsentativen Bildsignale an das Benutzerterminal.
Gemäß einem zehnten Aspekt von Ausgestaltung 5 ist in dem Codebuch ferner eine Normalzustands-Auftretenswahrscheinlichkeit eines Sprachparametervektors in Entsprechung zu jedem Code gespeichert;
ein Normalzustands-Likelihood-Rechenteil zum Erhalten der dem Satz von durch Analysieren des Sprachsignals erhaltenen Satzes von Sprachparametern entsprechenden Normalzustands-Auftretenswahrscheinlichkeit für jeden Rahmen und zum Berechnen der Normalzustands-Likelihood eines Sprach-Subblocks basierend auf der Normalzustands-Auftretenswahrscheinlichkeit;
ein Provisorisch-Zusammenfassungsabschnitts-Entscheidungsteil zum provisorischen Entscheiden, dass Sprachblöcke, die einen Sprach-Subblock enthalten, in dem ein Likelihood-Verhältnis der Betontzustands-Likelihood zu der Normalzustands-Likelihood größer als ein vorgegebener Koeffizient ist, Zusammenfassungsabschnitte sind; und
ein Zusammenfassungsabschnittsentscheidungsteil zum Berechnen der Gesamtsumme der Dauern der Zusammenfassungsabschnitte oder des Verhältnisses der Gesamtsumme der Dauern der Zusammenfassungsabschnitte zum gesamten Sprachsignalabschnitt als Zusammenfassungsrate dafür und zum Entscheiden über die Zusammenfassungsabschnitte durch Berechnen eines vorgegebenen Koeffizienten, so dass die Gesamtsumme der Dauern der Zusammenfassungsabschnitte oder die Zusammenfassungsrate, die das Verhältnis der Gesamtsumme zu dem gesamten Sprachabschnitt ist, die Zusammenfassungsdauer oder Zusammenfassungsrate wird, die voreingestellt oder von dem Benutzerterminal aus empfangen ist.
Gemäß einem elften Aspekt von Ausgestaltung 5 ist bei der Vorrichtung nach dem achten oder neunten Aspekt in dem Codebuch ferner die Normalzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors jeweils in Entsprechung zu jedem Code gespeichert;
ein Normalzustands-Likelihood-Rechenteil zum Erhalten der dem Satz von durch Analysieren des Sprachsignals erhaltenen Satzes von Sprachparametern entsprechenden Normalzustands-Auftre tenswahrscheinlichkeit für jeden Rahmen und zum Berechnen der Normalzustands-Likelihood eines Sprach-Subblocks basierend auf der Normalzustands-Auftretenswahrscheinlichkeit;
ein Provisorisch-Zusammenfassungsabschnitts-Entscheidungsteil zum Berechnen eines Verhältnisses der Betontzustands-Likelihood zur Normalzustands-Likelihood für jeden Sprach-Subblock, zum Berechnen der Gesamtsumme der Dauern der Zusammenfassungsabschnitte durch Akkumulieren auf einen vorgegebenen Wert in absteigender Reihenfolge der Wahrscheinlichkeitsverhältnisse und zum provisorischen Entscheiden, dass Sprachblöcke, die jeweils den Sprach-Subblock enthalten, in dem das Likelihood-Verhältnis der Betontzustands-Likelihood zu der Normalzustands-Likelihood größer als ein vorgegebener Koeffizient sind, Zusammenfassungsabschnitte sind;
ein Zusammenfassungsabschnitts-Entscheidungsteil zum Entscheiden über die Zusammenfassungsabschnitte durch Berechnen eines vorgegebenen Koeffizienten, so dass die Gesamtsumme der Dauern der Zusammenfassungsabschnitte oder die Zusammenfassungsrate, die das Verhältnis dieser Gesamtsumme zu dem gesamten Sprachabschnitt ist, gleich der von dem Benutzerterminal empfangenen Zusammenfassungsdauer oder Zusammenfassungsrate wird.
Gemäß einem zwölften Aspekt von Ausgestaltung 5 ist ein Inhaltsinformations-Verteilungsprogramm vorgesehen, das in computerlesbarer Form beschrieben ist, zum Implementieren eines beliebigen der Inhaltsinformations-Verteilungsverfahren gemäß dem ersten bis siebten Aspekt dieser Ausgestaltung auf einem Computer.
AUSGESTALTUNG 6
Bezogen auf 32 und 33 wird eine Beschreibung eines Verfahrens gegeben, durch die Echtzeitbild- und Sprachsignale eines gegenwärtig ausgestrahlten Programms aufgezeichnet werden und gleichzeitig die bislang gemachte Aufzeichnung zusammengefasst und mit dem Betontsprachblock-Extraktionsverfahren nach einer der Ausgestaltungen 1 bis 3 abgespielt wird, so dass das abgespielte zusammengefasste Bild das ausgestrahlte Bild zum gegenwärtigen Zeitpunkt einholt. Diese Abspielverarbeitung wird im nachfolgenden als Skimming-Abspielen bezeichnet.
Schritt S111 ist ein Schritt zum Spezifizieren von Originalzeit oder -rahmen der Skimming-Wiedergabe. Wenn z.B. ein Betrachter eines Fernsehprogramms zeitweilig seinen Sitz verlässt, spezifiziert er den Zeitpunkt des Verlassens des Sitzes durch eine Drucktastenhandhabung über ein Eingabeteil 111. Alternativ ist ein Sensor an der Zimmertür montiert, so dass er das Verlassen des Raums durch Öffnen und Schließen der Tür erfasst und so die Zeit des Verlassens des Sitzes spezifiziert. Auch gibt es den Fall, wo der Betrachter einen Teil des bereits aufgezeichneten Programms im schnellen Vorlauf abspielt und seinen gewünschten ursprünglichen Rahmen für Skimming-Abspielen spezifiziert.
In Schritt S112 wird die Zusammenfassungsbedingung (die Länge der Zusammenfassung oder die Zusammenfassungsrate) eingegeben. Diese Bedingung wird zu der Zeit eingegeben, zu der der Betrachter zu seinem Sitz zurückkehrt. Wenn der Betrachter z.B. 30 Minuten lang von seinem Sitz fort war, gibt er seine gewünschten Zusammenfassungsbedingungen ein, d.h., wie viel des während seiner 30minütigen Abwesenheit ausgestrahlten Programms zum Durchstöbern komprimiert werden soll. Alternativ ist das Videoabspielgerät eingerichtet, um vorgegebene Defaultwerte, z.B. 3 Minuten usw., zur Auswahl durch den Betrachter anzuzeigen.
Gelegentlich ergibt sich eine Situation, in der, obwohl eine programmierte unbeaufsichtigte Aufzeichnung eines Fernsehprogramms gemacht wird, der Betrachter eine Zusammenfassung des bereits aufgezeichneten Abschnitts des Programms sehen möchte, bevor er den Rest des Programms in Echtzeit anschaut. Da die Aufzeichnungsanfangszeit aufgrund der Programmierung in diesem Fall bekannt ist, wird die für den Beginn des Abspielens des Zusammenfassungsabschnitts bezeichnete Zeit als Zusammenfassungs-Endzeit festgelegt. Wenn z.B. die Zusammenfassungsbedingung durch einen Defaultwert oder dgl. vorgegeben ist, wird der aufgezeichnete Abschnitt von der Aufzeichnungsanfangszeit bis zur Zusammenfassungsendzeit gemäß der Zusammenfassungsbedingung zusammengefasst.
In Schritt S113 wird eine Anforderung zum Beginnen des Skimming-Abspielens gemacht. Dadurch ist der Endpunkt des zusammenzufassenden Abschnitts (der Endzeitpunkt der Zusammenfassung) spezifiziert. Die Anfangszeit des Skimming-Abspielens kann durch eine Tastenmanipulation eingegeben werden; alternativ kann auch die von dem wie oben beschrieben an der Zimmertür montierten Sensorerfasste Zimmereintrittszeit des Betrachters als Abspielanfangszeit verwendet werden.
In Schritt S114 wird das Abspielen des gegenwärtig ausgestrahlten Programms gestoppt.
In Schritt S115 wird die Zusammenfassungsverarbeitung durchgeführt, und Bild- und Sprachsignale des Zusammenfassungsabschnitts werden abgespielt. Die Zusammenfassungsverarbeitung spezifiziert den Zusammenfassungsabschnitt entsprechend den in Schritt S113 eingegebenen Zusammenfassungsbedingungen und spielt die Sprach- und Bildsignale des spezifizierten zusammenzufassenden Abschnitts ab. Zum Zusammenfassen wird das aufgezeichnete Bild mit hoher Geschwindigkeit gelesen und betonte Sprachblöcke werden extrahiert; die hierfür erforderliche Zeit ist vernachlässigbar kurz im Vergleich zur üblichen Abspielzeit.
In Schritt S116 endet das Abspielen des zusammengefassten Abschnitts.
In Schritt S117 wird das Abspielen des gegenwärtig ausgestrahlten Programms wieder aufgenommen.
33 zeigt in Blockform ein Beispiel eines Videoabspielgerätes, allgemein mit 100 bezeichnet, für das oben beschriebene Skimming-Abspielen. Das Videoabspielgerät 100 umfasst ein Aufzeichnungsteil 101, ein Sprachsignalextraktionsteil 102, ein Sprachzusammenfassungsteil 103, ein Zusammenfassungsabschnitt-Ausgabeteil 104, ein Modenschaltteil 105, ein Steuerteil 110 und ein Eingabeteil 111. Das Aufzeichnungsteil 101 ist gebildet durch ein Aufzeichnungs/Abspielmittel, das in der Lage zu einer schnellen Schreib-/Leseoperation ist, wie etwa eine Festplatte, ein Halbleiterspeicher, eine DVD-ROM oder dgl. Mit der schnellen Schreib-/Leseleistung ist es möglich, einen bereits aufgezeichneten Abschnitt abzuspielen, während das gegenwärtig ausgestrahlte Programm aufgezeichnet wird. Ein Eingabesignal S1 wird von einem Fernsehtuner oder dgl. eingegeben; das Eingabesignal kann ein analoges oder digitales Signal sein. Die Aufzeichnung in dem Aufzeichnungsteil 101 ist in digitaler Form.
Das Sprachsignalextraktionsteil 102 extrahiert das Sprachsignal aus dem Bildsignal eines Zusammenfassungszielabschnitts, der durch das Steuerteil 110 spezifiziert ist. Das extrahierte Sprachsignal wird in das Sprachzusammenfassungsteil 103 eingegeben. Das Sprachzusammenfassungsteil 103 verwendet das Sprachsignal, um einen betonten Sprachabschnitt zu extrahieren und den zusammenzufassenden Abschnitt zu spezifizieren.
Das Sprachzusammenfassungsteil 103 analysiert stets Sprachsignale während des Aufzeichnens, und für jedes Programm, das aufgezeichnet wird, erzeugt es eine Sprachbetonungs-Wahrscheinlichkeitstabelle, die in 16 abgebildet ist, und speichert sie in einem Speicherteil 104M. Entsprechend wird im Falle des Abspielens des aufgezeichneten Abschnitts in zusammengefasster Form auf halbem Wege durch die Ausstrahlung des Programms der aufgezeichnete Abschnitt unter Verwendung der Sprach-Betontzustands-Wahrscheinlichkeitstabelle des Speicherteils 104M zusammengefasst. Beim Abspielen der Zusammenfassung des aufgezeichneten Programms wird später ebenfalls die Sprach-Betontzustands-Wahrscheinlichkeitstabelle zum Zusammenfassen verwendet.
Das Zusammenfassungsabschnitts-Ausgabeteil 104 liest aus dem Aufzeichnungsteil 101 ein sprachbegleitetes Bildsignal des durch den Sprachzusammenfassungsabschnitt 103 spezifizierten Zusammenfassungsabschnitts und gibt das Bildsignal an das Modenumschaltteil 105 aus. Das Modenumschaltteil 105 gibt als ein zusammengefasstes Bildsignal das von dem Zusammenfassungsabschnitts-Ausgabeabschnitt 104 gelesene sprachbegleitete Bildsignal aus.
Das Modenumschaltteil 105 ist durch das Steuerteil 110 gesteuert, um zwischen einem Zusammenfassungsbild-Ausgabemodus a, einem Abspielmodus b zum Ausgeben des aus dem Aufzeichnungsteil 101 gelesenen Bildsignals und einem Modus zum direkten Darstellen des Eingabesignals S1 zur Betrachtung umzuschalten.
Das Steuerteil 110 hat einen eingebauten Zeitgeber 110T und steuert: das Aufzeichnungsteil 101, mit dem Aufzeichnen zu einer manuell von dem Eingabeteil (einer Aufzeichnungs-Start/Stopp-Taste, Zahleneingabetasten oder dgl.) eingegebenen Zeit oder zum gegenwärtigen Zeitpunkt zu starten oder zu stoppen; das Sprachzusammenfassungsteil 103, um eine Sprachzusammenfassung gemäß den von dem Eingabeteil 111 gesetzten Zusammenfassungsbedingungen durchzuführen; das Zusammenfassungsabschnitts-Ausgabeteil 104, aus dem Aufzeichnungsteil 101 das der extrahierten zusammengefassten Sprache entsprechende Bild zu lesen, und ein Modenumschaltteil 105, um in den über das Eingabeteil 111 gesetzten Modus überzugehen.
Gemäß dem oben beschriebenen Skimming-Abspielverfahren ist das während des Skimming-Abspielens ausgestrahlte Bild nicht in dem Zusammenfassungs-Zielabschnitt vorhanden und wird daher dem Betrachter nicht angezeigt.
Als Lösung für dieses Problem werden bei Beendigung des Abspielens des Zusammenfassungsabschnitt die Zusammenfassungsverarbeitung und die Zusammenfassungsbild- und Sprachabspielverarbeitung mit der vorhergehenden Abspielstartzeit und Stoppzeit wiederholt, die als die gegenwärtige Abspiel-Startzeit bzw. Stoppzeit gesetzt sind. Wenn das Zeitintervall zwischen der vorhergehenden Abspiel-Startzeit und der gegenwärtigen Abspiel-Stoppzeit kürzer als ein vorgegebener Wert, z.B. 5 bis 10 Sekunden, ist, wird die Wiederholung abgebrochen.
In diesem Fall tritt das Problem auf, dass die Zusammenfassungsabschnitte über die spezifizierte Zusammenfassungsrate hinaus oder für eine längere Zeit als spezifiziert ausgestrahlt werden. Wenn die Länge des zusammenzufassenden Abschnitts dargestellt ist durch T_A und die Zusammenfassungsrate durch r (mit 0 < r < 1, r = Gesamtdauer der Zusammenfassung/Dauer jedes zusammenzufassenden Abschnitts), ist die Länge (oder Dauer) T₁ des ersten zusammengefassten Abschnitts T_Ar. Bei der zweiten Zusammenfassungsrunde wird die Dauer T_Ar des ersten Zusammenfassungsabschnitts weiter um die Rate r zusammengefasst, und folglich ist die Dauer des zweiten Zusammenfassungsabschnitts T_Ar². Da diese Verarbeitung für jede Zusammenfassungsrunde durchgeführt wird, ist die für die gesamte Zusammenfassungsverarbeitung benötigte Zeit T_Ar/(1 – r).
In Anbetracht dessen wird die spezifizierte Zusammenfassungsrate r angepasst auf r/(1 + r), die für die Zusammenfassung verwendet wird. In diesem Fall ist die bis zum Ende der oben erwähnten wiederholten Operation verstrichene Zeit T_Ar, was die Zusammenfassungsdauer ist, die zur spezifizierten Zusammenfassungsrate passt. Entsprechend kann, auch wenn die Länge T₁ des Zusammenfassungsabschnitts spezifiziert ist, wenn die Dauer T_A des zusammenzufassenden Abschnitts gegeben ist, da die spezifizierte Zusammenfassungsrate r = T₁/T_A ist, die Dauer des ersten Zusammenfassens auch durch Setzen der Zusammenfassungsrate auf T₁/(T_A + T₁) oder gar auf T_AT₁/T_A + T₁) angepasst werden.
34 zeigt eine abgewandelte Form dieser Ausgestaltung, die das Problem lösen kann, dass ein Benutzer während der oben beschriebenen Skimming-Wiedergabe das ausgestrahlte Bild nicht sehen kann. Bei diesem Beispiel wird das eingegebene Signal S1 intakt ausgegebenen, um das gegenwärtig ausgestrahlte Bild auf einem Hauptfenster 200 einer Anzeige wiederzugeben (siehe 35). In dem Modenumschaltteil 105 ist ein Subfenster-Datenerzeugungsteil 106 vorgesehen, von dem ein durch Bildverkleinerung erhaltenes Zusammenfassungsbildsignal ausgegeben und dabei dem eingegebenen Signal S1 zur Anzeige in einem Subfenster 201 überlagert wird (siehe 35). D.h. dieses Beispiel hat einen Hybridmodus d.
Dieses Beispiel bietet eine Zusammenfassung des zuvor ausgestrahlten Abschnitts eines Programms auf dem Subfenster 201 dar und bietet gleichzeitig eine Echtzeitanzeige des gegenwärtig ausgestrahlten Abschnitts des gleichen Programms in dem Hauptfenster 200. Daher kann der Betrachter auf dem Hauptfenster 200 den Abschnitt des ausgestrahlten Programms verfolgen und gleichzeitig den zusammengefassten Abschnitt in dem Subfenster 201 verfolgen, und so kann er nach Vollendung des Abspielens der zusammengefassten Informationen den Inhalt des Programms vom ersten halben Abschnitt bis zum gegenwärtig ausgestrahlten Abschnitt im wesentlichen voll ständig verstehen.
Das oben beschriebene Bildwiedergabeverfahren gemäß dieser Ausgestaltung wird implementiert durch Ausführen eines Bildabspielprogramms auf einem Computer.
In diesem Fall wird das Bildabspielprogramm über eine Kommunikationsleitung heruntergeladen oder auf einem Aufzeichnungsmedium wie etwa einer CD-ROM oder einer Magnetplatte gespeichert und in dem Computer zur Ausführung darin durch eine CPU oder einen ähnlichen Prozessor installiert.
Gemäß dieser Ausgestaltung kann ein aufgezeichnetes Programm mit einer willkürlichen Kompressionsrate komprimiert werden, um eine Zusammenfassung zum Abspielen zu liefern. Dies erlaubt kurzfristiges Durchstöbern der Inhalte vieler aufgezeichneter Programme und somit ein bequemes Suchen nach einem vom Betrachter gewünschten Programm.
Auch wenn der Benutzer nicht die erste Hälfte eines Programms betrachten konnte, kann er das Programm genießen, da er dessen ersten halben Abschnitt in zusammengefasster Form betrachten kann.
Wie oben beschrieben, ist gemäß einem ersten Aspekt von Ausgestaltung 6 ein Bildabspielverfahren vorgesehen, das folgende Schritte umfasst:

(A) Speichern von Echtzeitbild- und -sprachsignalen in Entsprechung zu einer Abspielzeit, Eingeben einer Zusammenfassungsanfangszeit und Eingeben der Zusammenfassungsdauer, die die Gesamtdauer von Zusammenfassungsabschnitten ist, oder eines Zusammenfassungsverhältnisses, das das Verhältnis zwischen der Gesamtdauer des zusammengefassten Abschnitts und des gesamten Zusammenfassungszielabschnitts ist;
(B) Entscheiden, dass diejenigen Abschnitte des gesamten Zusammenfassungszielabschnitts, in denen das Sprachsignal als betont festgelegt ist, als zusammenzufassender Abschnitt festgelegt werden, wobei der gesamte Zusammenfassungszielabschnitt definiert ist durch die Zusammenfassungsdauer oder Zusammenfassungsrate, so dass er an der Zusammenfassungsanfangszeit beginnt und an der Zusammenfassungsendzeit aufhört; und
(C) Abspielen von Sprach- und Bildsignalen in jedem der zusammenzufassenden Abschnitte.

Gemäß einem zweiten Aspekt von Ausgestaltung 6 umfasst bei dem Verfahren nach dem ersten Aspekt der Schritt (C) einen Schritt des Festlegens des zusammenzufassenden Abschnitts, wobei die Endzeit des Abspielens von Sprach- und Bildsignalen in jedem Zusammenfassungsabschnitt auf die nächste Zusammenfassungsabspiel-Anfangszeit gesetzt sind, und des Wiederholens des Abspielens von Sprach- und Bildsignalen in dem zusammenzufassenden Abschnitt in Schritt (C).
Gemäß einem dritten Aspekt von Ausgestaltung 6 enthält bei dem Verfahren nach dem zweiten Aspekt der Schritt (B) einen Schritt des Einstellens der Zusammenfassungsrate r auf r/(1 + r), wobei r eine reelle Zahl 0 < r < 1 ist, und des Festlegens des zusammenzufassenden Abschnitts basierend auf der angepassten Zusammenfassungsrate.
Gemäß einem vierten Aspekt von Ausgestaltung 6 umfasst bei dem Verfahren nach einem der ersten bis dritten Aspekte der Schritt (B) die Schritte:

(B-1) Quantisieren eines Satzes von Sprachparametern, die durch Analysieren der Sprache für jeden Rahmen erhalten sind, und Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit und einer Normalzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern entsprechenden Vektors aus einem Codebuch, das für jeden Code einen Sprachparametervektor und eine Betontzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigstens eines von Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
(B-2) Erhalten der Normalzustands-Auftretenswahrscheinlichkeit des durch Quantisieren des Sprachsignals erhaltenen Sprachsignalvektors entsprechenden Sprachparametervektors aus dem Codebuch für jeden Rahmen;
(B-3) Berechnen der Betontzustands-Likelihood basierend auf der aus dem Codebuch erhaltenen Betontzustands-Auftretenswahrscheinlichkeit;
(B-4) Berechnen der Normalzustands-Likelihood basierend auf der aus dem Codebuch erhaltenen Normalzustands-Auftretenswahrscheinlichkeit;
(B-5) Berechnen des Likelihood-Verhältnisses der Betontzustands-Likelihood zur Normalzustands-Likelihood für jeden Sprachsignalabschnitt;
(B-6) Berechnen der Gesamtzeit der Zusammenfassung durch Akkumulieren der Zeiten der Zusammenfassungsabschnitte in absteigender Reihenfolge des Wahrscheinlichkeitsverhältnisses; und
(B-7) Entscheiden, dass ein Sprachblock, für den die Zusammenfassungsrate, die das Verhältnis der Gesamtdauer der Zusammenfassungsabschnitte zum gesamten Zusammenfassungszielabschnitt ist, gleich der eingegebenen Zusammenfassungsrate wird, der Zusammenfassungsabschnitt ist.

Gemäß einem fünften Aspekt von Ausgestaltung 6 umfasst bei dem Verfahren nach einem der ersten bis dritten Aspekte der Schritt (B) die Schritte:

(B-1) Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltenen Sprachparameter und Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit und einer Normalzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern entsprechenden Sprachparametervektors aus einem Codebuch, das für jeden Code einen Sprachparametervektor und Betontzustands- und Normalzustands-Auftretenswahrscheinlichkeiten des Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigstens eines von Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
(B-2) Erhalten der Normalzustands-Auftretenswahrscheinlichkeit des dem durch Quantisieren des Sprachsignals für jeden Rahmen erhaltenen Sprachparametervektors entsprechenden Sprachparametervektors aus dem Codebuch;
(B-3) Berechnen der Betontzustands-Likelihood basierend auf der aus dem Codebuch erhaltenen Betontzustands-Auftretenswahrscheinlichkeit;
(B-4) Berechnen der Normalzustands-Likelihood basierend auf der aus dem Codebuch erhaltenen Normalzustands-Auftretenswahrscheinlichkeit;
(B-5) provisorisches Entscheiden, dass ein Sprachblock, der einen Sprach-Subblock enthält, für den ein Likelihood-Verhältnis der Betontzustands-Likelihood zur Normalzustands-Likelihood größer als ein vorgegebener Koeffizient ist, ein Zusammenfassungsabschnitt ist;
(B-6) Berechnen der Gesamtdauer des Zusammenfassungsabschnitts oder, als Zusammenfassungsrate, des Verhältnisses der Gesamtdauer des Zusammenfassungsabschnitts zum gesamten Zusammenfassungszielabschnitt; und
(B-7) Berechnen des vorgegebenen Koeffizienten, durch den die Gesamtdauer der Zusammenfassungsabschnitte im wesentlichen gleich einer vorgegebenen Zusammenfassungsdauer wird oder die Zusammenfassungsrate im wesentlichen gleich einem vorgegebenen Wert wird, und Festlegen des Zusammenfassungsabschnitts.

Gemäß einem sechsten Aspekt von Ausgestaltung 6 umfasst bei dem Verfahren nach dem vierten oder fünften Aspekt Schritt (B) die Schritte:

(B-1-1) Entscheiden ob jeder Rahmen des Sprachsignals ein stimmloser oder stimmhafter Abschnitt ist;
(B-1-2) Entscheiden, dass ein Abschnitt, der einen stimmhaften Abschnitt enthält, dem mehr als eine vorgegebene Anzahl von stimmlosen Abschnitten vorangehen und nachfolgen, ein Sprach-Subblock ist; und
(B-1-3) Entscheiden, dass eine Sprach-Subblock-Folge, die mit einem Sprach-Subblock abschließt, der stimmhafte Abschnitte enthält, deren durchschnittliche Leistung kleiner als ein Vielfaches einer vorgegebenen Konstanten der durchschnittlichen Leistung des Sprach-Subblocks ist, ein Sprachblock ist; und

Gemäß einem siebten Aspekt von Ausgestaltung 6 ist ein Videoabspielgerät vorgesehen, welches umfasst:
Speichermittel zum Speichern eines Echtzeitbildes und von Sprachsignalen in Entsprechung zu einer Wiedergabedauer;
Zusammenfassungsanfangszeit-Eingabemitel zum Eingeben einer Zusammenfassungsanfangszeit;
Zusammenfassungsbedingungs-Eingabemittel zum Eingeben einer Zusammenfassungsbedingung, die durch die Zusammenfassungsdauer, die die Gesamtdauer der Zusammenfassungsabschnitte ist, oder die Zusammenfassungsrate definiert ist, die das Verhältnis zwischen der Gesamtdauer der Zusammenfassungsabschnitte und der Zeitdauer des gesamten Zusammenfassungszielabschnitts ist;
Zusammenfassungsabschnitts-Entscheidungsmittel zum Entscheiden, dass die Abschnitte des Zusammenfassungszielabschnitts von der Zusammenfassungsendzeit bis zur gegenwärtigen Zeit, in der Sprachsignale als betont festgelegt werden, jeweils ein Zusammenfassungsabschnitt sind; und
Abspielmittel zum Abspielen von Bild- und Sprachsignalen des von dem Zusammenfassungsabschnitts-Entscheidungsmittel festgelegten Zusammenfassungsabschnitts.
Gemäß einem achten Aspekt von Ausgestaltung 6 umfasst bei der Vorrichtung nach dem siebten Aspekt das Zusammenfassungsabschnitts-Entscheidungsmittel:
ein Codebuch, welches für jeden Code einen Sprachparametervektor und Betontzustands- und Normalzustands-Auftretenswahrscheinlichkeiten des Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigstens eines von Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
ein Betontzustands-Likelihood-Rechenteil zum Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltenen Sprachparametern, Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit des Sprachparametervektors, der dem Satz von Sprachparametern aus dem Codebuch entspricht, und zum Berechnen der Betontzustands-Likelihood eines Sprach-Subblocks basierend auf der Betontzustands-Auftretenswahrscheinlichkeit;
ein Normalzustands-Likelihood-Rechenteil zum Quantisieren eines Satzes von Sprachparametern, die durch Analysieren der Sprache für jeden Rahmen erhalten werden, zum Erhalten einer Normalzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern entsprechenden Sprachparametervektors aus dem Codebuch, und zum Berechnen der Normalzustands-Likelihood des Sprach-Subblocks basierend auf der Normalzustands-Auftretenswahrscheinlichkeit;
ein Provisorisch-Zusammenfassungsabschnitt-Entscheidungsteil zum Berechnen des Likelihood-Verhältnisses der Betontzustands-Likelihood zur Normalzustands-Likelihood jedes Sprach-Subblocks, zum Berechnen der Zusammenfassungsdauer durch Akkumulieren von Zusammenfassungsabschnitten in absteigender Reihenfolge des Wahrscheinlichkeitsverhältnisses und zum provisorischen Entscheiden der Zusammenfassungsabschnitte; und
ein Zusammenfassungsabschnitts-Entscheidungsteil zum Entscheiden, dass ein Sprachsignalabschnitt, bei dem das Verhältnis der Zusammenfassungsabschnitte zum Gesamtzusammenfassungszielabschnitt die Zusammenfassungsrate erfüllt, der Zusammenfassungsabschnitt ist.
Gemäß einem neunten Aspekt von Ausgestaltung 6 umfasst bei der Vorrichtung nach dem siebten Aspekt das Zusammenfassungsabschnitts-Entscheidungsmittel:
ein Codebuch, das für jeden Code einen Sprachparametervektor und Betontzustands- und Normalzustands-Auftretenswahrscheinlichkeiten des Sprachparametervektors speichert, wobei jeder der Sprachparametervektoren wenigstens eines von Grundfrequenz, Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz wenigstens eines dieser Parameter enthält;
ein Betontzustands-Likelihood-Rechenteil zum Quantisieren eines Satzes von durch Analysieren der Sprache für jeden Rahmen erhaltenen Sprachparametern, zum Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit des dem Satz von Sprachparametern entsprechenden Sprachparametervektors aus dem Codebuch, zum Berechnen der Betontzustands-Likelihood eines Sprach-Subblocks basierend auf der Betontzustands-Auftretenswahrscheinlichkeit;
ein Normalzustands-Likelihood-Rechenteil zum Berechnen der Normalzustands-Likelihood des Sprach-Subblocks basierend auf der aus dem Codebuch erhaltenen Normalzustands-Auftretenswahrscheinlichkeit;
ein Provisorisch-Zusammenfassungsabschnitt-Entscheidungsteil zum provisorischen Entscheiden, dass ein Sprachblock, der einen Sprach-Subblock enthält, für den das Likelihood-Verhältnis der Betontzustands-Likelihood zu der Normalzustands-Likelihood des Sprach-Subblocks größer als ein vorgegebener Koeffizient ist, ein Zusammenfassungsabschnitt ist; und
ein Zusammenfassungsabschnitts-Entscheidungsteil zum Berechnen des vorgegebenen Koeffizienten, durch den die Gesamtdauer der Zusammenfassungsabschnitte oder die Zusammenfassungsrate im wesentlichen gleich einem vorgegebenen Wert wird, und zum Entscheiden eines Zusammenfassungsabschnitts für jeden Kanal oder für jeden Sprecher.
Gemäß einem zehnten Aspekt von Ausgestaltung 6 ist ein in computerlesbarer Form beschriebenes Videoabspielprogramm zum Implementieren eines der Videoabspielverfahren nach dem ersten oder sechsten Aspekt dieser Ausgestaltung auf einem Computer vorgesehen.
WIRKUNG DER ERFINDUNG
Wie oben beschrieben, können gemäß der vorliegenden Erfindung ein Sprach-Betontzustand und Sprachblöcke von natürlicher gesprochener Sprache extrahiert werden, und der Betontzustand einer Äußerung von Sprach-Subblöcken kann entschieden werden. Mit diesem Verfahren kann Sprache, die durch Zusammenfügen von Sprachblöcken rekonstruiert ist, die jeweils einen betonten Sprach-Subblock enthalten, verwendet werden, um zusammengefasste Sprache zu erzeugen, die wichtige Abschnitte der Originalsprache überbringt. Dies kann sprecherunabhängig und ohne Notwendigkeit des Voreinstellens von Bedingungen für die Zusammenfassung wie etwa Modellierung erfolgen.

Claims

Sprachverarbeitungsverfahren zum Entscheiden, ob ein Abschnitt von Eingabesprache betont ist oder nicht, basierend auf einem Satz von Sprachparametern für jeden Rahmen, mit den Schritten: (a) Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit für einen Sprachparameter durch Verwendung eines Codebuches, welches für jeden Code einen Sprachparameter und eine Betontzustands-Auftretenswahrscheinlichkeit speichert; (b) Berechnen einer Betontzustands-Likelihood basierend auf der Betontzustands-Auftretenswahrscheinlichkeit; und (c) Entscheiden, ob ein Abschnitt, der einen gegenwärtigen Rahmen enthält, betont ist oder nicht, basierend auf der berechneten Betontzustands-Likelihood; dadurch gekennzeichnet, dass das Codebuch für jeden Code einen Sprachparametervektor und eine Normalzustands-Auftretenswahrscheinlichkeit zusammen mit der Betontzustands-Auftretenswahrscheinlichkeit speichert, wobei jeder Sprachparametervektor zusammengesetzt ist aus einer Mehrzahl von Sprachparametern, darunter wenigstens einer aus einer Grundfrequenz, einer Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz in wenigstens einem dieser Sprachparameter; der Schritt (a) eine Betontzustands-Auftretenswahrscheinlichkeit für einen Sprachparametervektor, der ein quantisierter Satz von Sprachparametern für den gegenwärtigen Rahmen ist, durch Verwendung des Codebuches gewinnt; der Schritt (b) eine Betontzustands-Likelihood und eine Normalzustands-Likelihood basierend auf der Betontzustands-Auftretenswahrscheinlichkeit bzw. der Normalzustands-Auftretenswahrscheinlichkeit berechnet; und der Schritt (c) basierend auf der berechneten Betontzustands-Likelihood und Normalzustands-Likelihood entscheidet, ob ein Abschnitt, der den gegenwärtigen Rahmen enthält, betont ist oder nicht.
Verfahren nach Anspruch 1, bei dem jeder der Sprachparametervektoren wenigstens eine zeitliche Änderung des Dynamikmaßes enthält.
Verfahren nach Anspruch 1, bei dem jeder der Sprachparametervektoren wenigstens eine Grundfrequenz, eine Leistung und eine zeitliche Änderung des Dynamikmaßes enthält.
Verfahren nach Anspruch 1, bei dem jeder der Sprachparametervektoren wenigstens eine Grundfrequenz, eine Leistung und eine zeitliche Änderung eines Dynamikmaßes oder eine Rahmen-Rahmen-Differenz in jedem der Parameter enthält.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem der Schritt (c) darauf basiert, dass die Betontzustands-Likelihood größer als die Normal-Likelihood ist.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem der Schritt (c) auf einem Verhältnis der Betontzustands-Likelihood zu der Normalzustands-Likelihood basiert.
Verfahren nach einem der Ansprüche 1 bis 6, bei dem die in dem Codebuch gespeicherte Betontzustands-Auftretenswahrscheinlichkeit eine eine unabhängige Betontzustands-Auftretenswahrscheinlichkeit für den jeweiligen Code und bedingte Betontzustands-Auftretenswahrscheinlichkeiten für den jeweiligen Code im Anschluss an eine vorgegebene Anzahl von vorhergehenden Codes enthält, und Schritt (b) einen Schritt zum Berechnen der Betontzustands-Likelihood durch Multiplizieren der unabhängigen Betontzustands-Auftretenswahrscheinlichkeit mit den bedingten Betontzustands-Auftretenswahrscheinlichkeiten umfasst.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem die in dem Codebuch gespeicherte Normalzustands-Auftretenswahrscheinlichkeit eine unabhängige Normalzustands-Auftretenswahrscheinlichkeit für den jeweiligen Code und bedingte Normalzustandswahrscheinlichkeiten für den jeweiligen Code im Anschluss an eine vorgegebene Anzahl von vorhergehenden Codes enthält, und Schritt (b) einen Schritt zur Berechnung der Normalzustands-Likelihood durch Multiplizieren der unabhängigen Normalzustands-Auftretenswahrscheinlichkeit mit den bedingten Normalzustandswahrscheinlichkeiten umfasst.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem der Schritt (c) folgende Schritte umfasst: (c-1) Entscheiden, ob jeder von Rahmen in dem Abschnitt im Betontzustand oder Normalzustand ist, basierend auf der für den Rahmen berechneten Normalzustands-Likelihood und der Betontzustands-Likelihood; (c-2) Multiplizieren der Betontzustands-Likelihood aller Rahmen in dem Abschnitt, von denen entschieden wurde, dass sie betonte Zustände sind, um eine multiplizierte Betontzustands-Likelihood zu erzeugen, Multiplizieren der Normalzustands-Likelihood aller Rahmen in dem Abschnitt, von denen entschieden wurde, dass sie im Normalzustand sind, um eine multiplizierte Normalzustands-Likelihood zu erzeugen; und (c-3) Entscheiden, ob der Abschnitt im Betontzustand oder Normalzustand ist, basierend auf der multiplizierten Betontzustands-Likelihood und der multiplizierten Normalstands-Likelihood dieses Abschnitts.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem Schritt (c) folgende Schritte umfasst: (c-1) Entscheiden, ob jeder von Rahmen in dem Abschnitt im Betontzustand oder Normalzustand ist, basierend auf der für den jeweiligen Rahmen berechneten Normalzustands-Likelihood und Betontzustands-Likelihood; (c-2) Aufsummieren der Betontzustands-Likelihood aller als im Betontzustand entschiedenen Rahmen in dem Abschnitt, um eine aufsummierte Betontzustands-Likelihood zu erhalten, und Aufsummieren der Normalzustands-Likelihood aller als im Normalzustand entschiedenen Rahmen in dem Abschnitt, um eine aufsummierte Normalzustands-Likelihood zu erzeugen; und (c-3) Entscheiden, ob der Abschnitt im Betontzustand oder Normalzustand ist, basierend auf der aufsummierten Betontzustands-Likelihood und der aufsummierten Normalzustands-Likelihood dieses Abschnitts.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem Schritt (a) gekennzeichnet ist durch eine Normierung der Sprachparameter durch jeden einzelnen der Sprachparameter zum Berechnen eines den gegenwärtigen Rahmen enthaltenden Abschnitts und Quantisieren eines Satzes dieser normierten Sprachparameter.
Verfahren nach Anspruch 7 oder 8, bei dem Schritt (b) einen Schritt zum Berechnen einer bedingten Wahrscheinlichkeit des Betontzustandes durch lineare Interpolation der unabhängigen und bedingten Auftretenswahrscheinlichkeiten umfasst.
Verfahren nach Anspruch 8, bei dem Schritt (b) einen Schritt zum Berechnen einer bedingten Wahrscheinlichkeit des Normalzustandes durch lineare Interpolation der unabhängigen und bedingten Auftretenswahrscheinlichkeiten umfasst.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem eine Anfangs-Betontzustandswahrscheinlichkeit und eine Anfangs-Normalzustandswahrscheinlichkeit in dem Codebuch als die Betontzustands-Auftretenswahrscheinlichkeit und die Normalzustandswahrscheinlichkeit gespeichert sind, unter Verwendung eines akustischen Modells, das eine Ausgabewahrscheinlichkeit für jeden Zustandsübergang, der jedem Sprachparametervektor entspricht, und eine Betontzustands-Übergangswahrscheinlichkeit und eine Normalzustands-Übergangswahrscheinlichkeit für jeden Zustandsübergang umfasst; und bei dem: Schritt (a) folgende Schritte umfasst: (a-1) Beurteilen jedes Rahmens auf Stimmhaftigkeit oder Stimmlosigkeit; (a-2) Beurteilen eines Abschnitts, der einen stimmhaften Abschnitt von wenigstens einem Rahmen enthält und zwischen stimmlosen Abschnitten liegt, die länger als eine vorgegebene Anzahl von Rahmen sind, als einen Sprach-Subblock; (a-3) Erhalten einer Anfangs-Betontzustandswahrscheinlichkeit und einer Anfangs-Normalzustandswahrscheinlichkeit für einen Sprachparametervektor, der ein quantisierter Satz von Sprachparametern ist, für einen Anfangsrahmen in dem Sprach-Subblock; und (a-4) Erhalten einer Ausgabewahrscheinlichkeit für jeden Zustandsübergang, der einem Sprachparametervektor entspricht, welcher ein quantisierter Satz von Sprachparametern ist, für jeden Rahmen nach dem Anfangsrahmen in dem Sprach-Subblock; Schritt (b) einen Schritt zum Berechnen einer Likelihood als die Betontzustands-Likelihood basierend auf der Anfangs-Betontzustandswahrscheinlichkeit, der Ausgabewahrscheinlichkeit und der Betontzustands-Übergangswahrscheinlichkeit bzw. einer Likelihood als die Normalzustands- Likelihood basierend auf der Anfangs-Normalzustandswahrscheinlichkeit, der Ausgabewahrscheinlichkeit und der Normalzustands-Übergangswahrscheinlichkeit für jeden Zustandsübergangsweg umfasst; und Schritt (c) einen Schritt zum Vergleichen der Betontzustands-Likelihood mit der Normalzustands-Likelihood umfasst.
Verfahren nach Anspruch 14, bei dem Schritt (a) einen Schritt zum Festlegen, als einen Sprachblock, einer Folge aus wenigstens einem Sprach-Subblock umfasst, die einen finalen Subblock hat, wobei eine durchschnittliche Leistung in einem stimmhaften Abschnitt in dem finalen Subblock kleiner ist als eine durchschnittliche Leistung in dem Sprach-Subblock multipliziert mit einer Konstante; und der Schritt (c) einen Schritt zum Festlegen, als einen zusammenzufassenden Abschnitt, eines Sprachblocks umfasst, der einen Sprach-Subblock enthält, der als ein betonter Subblock entschieden worden ist.
Verfahren nach Anspruch 15, bei dem Schritt (a) einen Schritt zum Festlegen, als einen Sprachblock, einer Folge aus wenigstens einem Sprach-Subblock umfasst, die einen finalen Subblock hat, wobei eine Durchschnittsleistung in einem stimmhaften Abschnitt in dem finalen Subblock kleiner ist als eine durchschnittliche Leistung in dem Sprach-Subblock multipliziert mit einer Konstante, und der Schritt (c) umfasst: (c-1) einen Schritt zum Berechnen eines Likelihood-Verhältnisses der Betontzustands-Likelihood zu der Normalzustands-Likelihood; (c-2) einen Schritt des Entscheidens, dass der Sprach-Subblock in einem Betontzustand ist, wenn das Likelihood-Verhältnis größer als ein Schwellwert ist; und (c-3) einen Schritt zum Festlegen eines Sprachblocks, der den betonten Sprach-Subblock enthält, als einen zusammenzufassenden Abschnitt.
Verfahren nach Anspruch 16, bei dem der Schritt (c) ferner einen Schritt zum Variieren des Schwellwertes und Wiederholen der Schritte (c-2) und (c-3) zum Erhalten von zusammenzufassenden Abschnitten mit einem vorgegebenen Zusammenfassungsverhältnis umfasst.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem der Schritt (a) folgende Schritte umfasst: (a-1) Beurteilen jedes Rahmens auf Stimmhaftigkeit oder Stimmlosigkeit; (a-2) Beurteilen eines Abschnitts, der einen stimmhaften Abschnitt von wenigstens einem Rahmen enthält und zwischen stimmlosen Abschnitten liegt, die länger als eine vorgegebene Anzahl von Rahmen sind, als einen Sprach-Subblock; und (a-3) Beurteilen einer Folge aus wenigstens einem Sprach-Subblock mit einem finalen Subblock, in welchem eine durchschnittliche Leistung in einem stimmhaften Abschnitt kleiner ist als eine durchschnittliche Leistung in dem gesamten Abschnitt oder diese durchschnittliche Leistung multipliziert mit einer Konstante, als einen Sprachblock; und der Schritt (c) einen Schritt zum Beurteilen eines jeden der Sprach-Subblöcke als den den gegenwärtigen Rahmen enthaltenden Abschnitt und zum Beurteilen eines Sprachblocks, der einen betonten Sprach-Subblock enthält, als einen zusammenzufassenden Abschnitt enthält.
Verfahren nach Anspruch 18, bei dem: der Schritt (a) einen Schritt zum Erhalten einer Normalzustands-Auftretenswahrscheinlichkeit für den Sprachparametervektor umfasst; Schritt (b) einen Schritt des Berechnens einer Normalzustands-Likelihood für jeden Sprach-Subblock basierend auf der Normalzustands-Auftretenswahrscheinlichkeit umfasst; Schritt (c) folgende Schritte umfasst: (c-1) Beurteilen eines Sprachblocks, der einen Sprach-Subblock enthält, für den ein Likelihood-Verhältnis der Betontzustands-Likelihood zu der Normalzustands-Likelihood größer als eine Schwelle ist, als einen provisorischen Abschnitt; (c-2) Berechnen einer Gesamtdauer von provisorischen Abschnitten oder eines Verhältnisses einer Gesamtdauer von ganzen Abschnitten zu der Gesamtdauer von provisorischen Abschnitten als ein Zusammenfassungsverhältnis; und (c-3) Festlegen der provisorischen Abschnitte als zusammenzufassende Abschnitte, die der Schwelle entsprechen, bei der eine Gesamtdauer von provisorischen Abschnitten gleich oder ungefähr gleich einer vorgegebenen Zusammenfassungszeit ist oder das Zusammenfassungsverhältnis gleich oder ungefähr gleich einem vorgegebenen Zusammenfassungsverhältnis ist.
Verfahren nach Anspruch 19, bei dem Schritt (c-3) umfasst: (c-3-1) Erhöhen der Schwelle, wenn die Gesamtdauer provisorischer Abschnitte länger als die vorgegebene Zusammenfassungszeit ist oder das Zusammenfassungsverhältnis größer als das vorgegebene Zusammenfassungsverhältnis ist, und Wiederholen der Schritte (c-1), (c-2) und (c-3) und (c-3-2) Verringern der Schwelle, wenn die Gesamtdauer provisorischer Abschnitte kürzer als die vorgegebene Zusammenfassungszeit ist oder das Zusammenfassungsverhältnis kleiner als das vorgegebene Zusammenfassungsverhältnis ist, und Wiederholen der Schritte (c-1), (c-2) und (c-3).
Verfahren nach Anspruch 18, bei dem der Schritt (a) einen Schritt zum Erhalten einer Normalzustands-Auftretenswahrscheinlichkeit für den Sprachparametervektor umfasst; der Schritt (b) einen Schritt des Berechnens einer Normalzustands-Likelihood für jeden Sprach-Subblock basierend auf der Normalzustands-Auftretenswahrscheinlichkeit umfasst; der Schritt (c) folgende Schritte umfasst: (c-1) Berechnen eines Likelihood-Verhältnisses der Betontzustands-Likelihood zu der Normalzustands-Likelihood für jeden Sprach-Subblock; (c-2) Berechnen einer Gesamtdauer durch Akkumulieren von Dauern jedes Sprachblocks, der einen von Sprach-Subblöcken enthält, in einer abnehmenden Reihenfolge des Likelihood-Verhältnisses; und (c-3) Festlegen der Sprachblöcke als zusammenzufassende Abschnitte, bei denen eine Gesamtdauer provisorischer Abschnitte gleich oder ungefähr gleich einer vorgegebenen Zusammenfassungszeit ist oder das Zusammenfassungsverhältnis gleich oder ungefähr gleich einem vorgegebenen Zusammenfassungsverhältnis ist.
Sprachverarbeitungsprogramm zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 21.
Sprachverarbeitungsvorrichtung zum Entscheiden, ob ein Abschnitt von eingegebener Sprache betont ist oder nicht, basierend auf einem Satz von Sprachparametern für jeden Rahmen der eingegebenen Sprache, wobei die Vorrichtung umfasst: ein Codebuch (15), welches für jeden Code einen Sprachparameter und eine Betontzustands-Auftretenswahrscheinlichkeit speichert; ein Betontzustands-Likelihood-Rechenteil (16) zum Berechnen einer Betontzustands-Likelihood eines Abschnitts, der einen gegenwärtigen Rahmen enthält, basierend auf der Betontzustands-Auftretenswahrscheinlichkeit; und ein Betontzustands-Entscheidungsteil (18), zum Entscheiden, ob der den gegenwärtigen Rahmen enthaltende Abschnitt betont ist oder nicht, basierend auf der berechneten Betontzustands-Likelihood; dadurch gekennzeichnet, dass: das Codebuch für jeden Code einen Sprachparametervektor und eine Normalzustands-Auftretenswahrscheinlichkeit zusammen mit der Betontzustands-Auftretenswahrscheinlichkeit speichert, jeder Sprachparametervektor zusammengesetzt ist aus einer Mehrzahl von Sprachparametern, darunter wenigstens einer aus einer Grundfrequenz, einer Leistung und einer zeitlichen Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz in wenigstens einem dieser Sprachparameter; wobei die Vorrichtung ferner umfasst: ein Normalzustands-Likelihood-Rechenteil (17) zum Berechnen einer Normalzustands-Likelihood des den Rahmen enthaltenden Abschnitts basierend auf der dem Sprachparametervektor jedes Rahmens entsprechenden Normalzustands-Auftretenswahrscheinlichkeit für jeden Rahmen; wobei das Betontzustands-Entscheidungsteil (18) eingerichtet ist, über den den gegenwärtigen Rahmen enthaltenden Abschnitt basierend auf einem Vergleich der berechneten Betontzustands-Likelihood mit der berechneten Normalzustands-Likelihood zu entscheiden.
Vorrichtung nach Anspruch 23, bei der jeder der Sprachparametervektoren wenigstens eine zeitliche Änderung des Dynamikmaßes enthält.
Vorrichtung nach Anspruch 23, bei der jeder der Sprachparametervektoren wenigstens eine Grundfrequenz, eine Leistung und eine zeitliche Änderung des Dynamikmaßes enthält.
Vorrichtung nach Anspruch 23, bei der jeder der Sprachparametervektoren wenigstens eine Grundfrequenz, eine Leistung und eine zeitliche Änderung eines Dynamikmaßes oder eine Rahmen-Rahmen-Differenz eines jeden der Parameter enthält.
Vorrichtung nach einem der Ansprüche 23 bis 26, bei der das Betontzustands-Entscheidungsteil (18) Betontzustands-Entscheidungsmittel enthält zum Festlegen, ob die Betontzustands-Likelihood höher als ein vorgegebener Wert ist, und, wenn ja, zum Entscheiden, dass der den gegenwärtigen Rahmen enthaltende Abschnitt betont ist.
Vorrichtung nach Anspruch 27, ferner mit: einem Stimmlosabschnitt-Entscheidungsteil (21), um für jeden Rahmen der eingegebenen Sprache zu entscheiden, ob er ein stimmloser Abschnitt ist; einem Stimmhaftabschnitt-Entscheidungsteil (22) zum Entscheiden, für jeden Rahmen der eingegebenen Sprache, ob er ein stimmhafter Abschnitt ist; einem Sprach-Subblock-Entscheidungsteil (23) zum Entscheiden, dass der Abschnitt, der den gegenwärtige Rahmen enthält, dem mehr als eine vorgegebene Anzahl von stimmlosen Abschnitten vorangehen und nachfolgen und der den stimmhaften Abschnitt enthält, ein Sprach-Subblock ist; ein Sprachblock-Entscheidungsteil (25) zum Entscheiden, dass wenn die durchschnittliche Leistung des stimmhaften Abschnitts von einem oder mehreren Rahmen, die in dem Sprach-Subblock enthalten sind, kleiner als die durchschnittliche Leistung des Sprach-Subblocks multipliziert mit einer Konstante ist, eine Sprach-Subblockgruppe, die mit dem Sprach-Subblock endet, ein Sprachblock ist; und einem Zusammenfassungsabschnitt-Ausgabeteil (26) zum Entscheiden, dass ein Sprachblock, der den von dem Betontzustands-Entscheidungsteil als betont entschiedenen Sprach-Subblock enthält, ein Zusammenfassungsabschnitt ist, und zum Ausgeben dieses Sprachblocks als einen Zusammenfassungsabschnitt.
Vorrichtung nach Anspruch 28, bei der: das Normalzustands-Likelihoods-Rechenteil (17) eingerichtet ist, die Normalzustands-Likelihood jedes Sprach-Subblocks zu berechnen; und das Betontzustands-Entscheidungsteil (18) enthält: ein Provisorisch-Zusammenfassungsabschnitts-Entscheidungsteil zum Entscheiden, dass ein Sprachblock, der einen Sprach-Subblock enthält, ein provisorischer Zusammenfassungsabschnitt ist, wenn ein Likelihoodsverhältnis zwischen der Betontzustands-Likelihood des Sprach-Subblocks und dessen Normalzustands-Likelihood höher als ein Referenzwert ist; und ein Zusammenfassungsabschnitts-Entscheidungsteil zum Berechnen der Gesamtzeit der provisorischen Zusammenfassungsabschnitte oder, als Zusammenfassungsrate, der Gesamtzeit des gesamten Abschnitts der eingegebenen Sprache zu der Gesamtzeit der provisorischen Zusammenfassungsabschnitte, zum Berechnen des Referenzwertes, auf dessen Grundlage die Gesamtzeit der provisorischen Zusammenfassungsabschnitte im Wesentlichen gleich einem vorgegebenen Wert wird oder die Zusammenfassungsrate im Wesentlichen gleich einem vorgegebenen Wert wird, und zum Festlegen der provisorischen Zusammenfassungsabschnitte als Zusammenfassungsabschnitte.
Vorrichtung nach Anspruch 28, bei der das Normalzustands-Likelihoods-Rechenteil (17) eingerichtet ist, eine Normalzustands-Likelihood für jeden der Sprach-Subblöcke zu berechnen; und das Betontzustands-Entscheidungsteil (18) enthält: ein Provisorisch-Zusammenfassungsabschnitts-Entscheidungsteil zum Berechnen des Likelihood-Verhältnisses der Betontzustands-Likelihood jedes Sprach-Subblocks zu dessen Normal zustands-Likelihood und zum provisorischen Entscheiden, dass jeder Sprachblock, der Sprach-Subblöcke mit Likelihoods bis hinunter zu einem vorgegebenen Likelihood-Verhältnis in absteigender Reihenfolge enthält, ein provisorischer Zusammenfassungsabschnitt ist; und ein Zusammenfassungsabschnittsentscheidungsteil zum Berechnen der Gesamtzeit der provisorischen Zusammenfassungsabschnitte oder, als Zusammenfassungsrate, der Gesamtzeit der provisorischen Zusammenfassungsabschnitte zur Gesamtzeit des gesamten Abschnitts der eingegebenen Sprache, zum Berechnen des vorgegebenen Likelihood-Verhältnisses, auf dessen Grundlage die Gesamtzeit der provisorischen Zusammenfassungsabschnitte im Wesentlichen gleich einem vorgegebenen Wert wird oder die Zusammenfassungsrate im Wesentlichen gleich einem vorgegebenen Wert wird, und zum Bestimmen eines Zusammenfassungsabschnitts.