-
Diese
Erfindung bezieht sich auf Sprachsynthese und das hörbare Lesen
eines Textes mittels künstlicher
Mittel.
-
Ein
signifikanter Teil von Kommunikationen hat sich von Telefongesprächen und
Nachrichten auf Papierbasis zu Textnachrichten in elektronischer Form,
die elektronisch übertragen
werden, wie E-Mails, verschoben. Textnachrichten in elektronischer
Form werden auf Computeranzeigen und auf anderen elektrischen und
elektronischen Anzeigen dargestellt. Die Verwendung des E-Mail-Verfahrens, um
Textnachrichten zu erstellen und zu senden, ist populär, da es
eine schnelle Lieferung an eine potentiell große Anzahl von Empfängern liefert,
und sie durch einen Computer hergestellt werden können, zu dem
viele Menschen Zugang haben. Zusätzlich
können
Textnachrichten leicht gespeichert und dann von ihren Empfängern gelesen
werden, wenn es passend ist.
-
Beispiele
von Textnachrichten umfassen E-Mail-Textnachrichten für die Anzeige auf Computern
und SMS-Nachrichten
(Kurznachrichtendienst) für
das Anzeige auf Mobiltelefonen. Da eine digitale Konvergenz auftritt,
ist es nun gebräuchlich
geworden, dass Nachrichten, die von einem Typ einer sendenden elektronischen
Vorrichtung gesendet werden, von einem anderen Typ einer elektronischen Vorrichtung
empfangen werden. Beispielsweise können E-Mail-Textnachrichten, die von einem Computer gesendet
werden, von Mobiltelefonen empfangen und angezeigt werden. In gleicher
Weise können
Mobiltelefone E-Mail-Textnachrichten an Computer oder andere Mobiltelefone übertragen.
-
Wenn
solche Textnachrichten nur von Computer zu Computer gesandt werden,
verursacht dies, sogar für
relativ lange Textnachrichten, keine Probleme bei ihrem Lesen. Dies
ergibt sich daraus, dass Computeranzeigen groß genug sind, um solche Textnachrichten
bequem zu präsentieren,
und da Computernutzer typischerweise stationär sind und fähig, ihre
Aufmerksamkeit auf ihre Computeranzeigen zu richten. Es ist gebräuchlich
geworden, dass Textnachrichten von mobilen Kommunikationsvorrichtungen,
wie Mobiltelefonen, empfangen werden. Da diese Vorrichtungen gewöhnlicherweise
Anzeigen aufweisen, die klein genug sind, damit die Vorrichtungen komfortabel
von einem Benutzer getragen werden können, kann es für einen
Benutzer schwierig sein, die empfangenen Textnachrichten komfortabel
zu lesen, insbesondere wenn es eine große Menge Text gibt. Weiterhin
kann es bei mobilen Kommunikationsvorrichtungen Probleme beim Lesen
solcher Textnachrichten geben, beispielsweise wenn der Benutzer
in einem Fahrzeug reist oder eine andere Aktivität ausführt, die es erfordert, dass
der Blick des Benutzers woanders hin gerichtet ist.
-
Wegen
dieser Schwierigkeiten beim Liefern von Textnachrichten sind Informationssysteme
entwickelt worden, die verbale Nachrichten aufzeichnen können, oder
die Text mittels Sprachsynthese in Sprache umwandeln können.
-
Bei
der Sprachsynthese ist die Qualität der erzeugten Sprache von
der Anzahl der Bytes, die in einem Sprachsynthesemuster (speech
synthesis template), das die synthetisierte Sprache kennzeichnet,
verwendet werden, stark abhängig.
Eine Sprachsynthese guter Qualität
kann eine große
Menge von Daten für
das Sprachsynthesemuster erfordern. Zusätzlich ist eine signifikante
Menge von Rechenleistung erforderlich, um das Sprachsynthesemuster
zu erzeugen. Solche Anforderungen sind mit Mobiltelefonen schwierig
zu erfüllen.
Darüber
hinaus ist das Erzeugen des Sprachsynthesemusters eine Zeit in Anspruch
nehmende Aufgabe, die für
den Sprecher, dessen Sprache zu synthetisieren ist, vorzunehmen ist.
Somit wird eine Vorrichtung gewöhnlicherweise nur
ein Sprachsynthesemuster oder maximal einige wenige Sprachsynthesemuster
des Sprechers enthalten, um synthetisierte Sprache zu erzeugen.
-
Die
japanische Veröffentlichung
11-219278 beschreibt ein System, in welchem Benutzer eine virtuelle
Anwesenheit in einem dreidimensionalen virtuellen Raum haben können. Wenn
ein Benutzer wünscht,
zu einem anderen Benutzer zu sprechen, wird die Sprache des Benutzers
erkannt, in eine zeichenbasierte Nachricht umgewandelt, und dann
wird die zeichenbasierte Nachricht übertragen. Beim Empfang wird
die zeichenbasierte Nachricht in Sprache synthetisiert, und die
synthetisierte Sprache wird dem anderen Benutzer abgespielt. Die
Sprachsynthese wird durch das Anwenden einer Ton- und Lautstärkesteuerung,
um eine virtuelle Distanz zwischen dem Sprecher und dem Hörer im virtuellen
Raum zu simulieren, verbessert.
-
Die
EP-A-0901000 bezieht sich auf eine Nachrichtenverarbeitungsvorrichtung,
die konstruiert ist, um Textdaten zu erhalten und Textdaten unter Verwendung
einer Sprachsynthetisiereinheit laut zu lesen. Die Vorrichtung speichert
eine Vielzahl von Sprachtönen
und weist einen Sprachton einer Nachricht und einen anderen Sprachton
einer anderen Nachricht zu. Die jeweiligen Nachrichten können in den
jeweiligen zugewiesenen Sprachtönen
gelesen werden. Die Typen der Töne,
die verwendet werden können,
sind eine hohe männliche
Stimme, eine tiefe männliche
Stimme, eine hohe weibliche Stimme, eine tiefe weibliche Stimme
und eine Kinderstimme. Andere Stimmen sind mögliche, wie eine Roboterstimme.
In dem Fall, dass die Anzahl der Sender der Textnachrichten die
Anzahl der Sprachtöne übersteigt,
werden die Sprachtöne "wieder verwendet", beispielsweise
werden fünf
Sprachtöne
den ersten fünf
Textnachrichten zugewiesen und dann wieder für den Rest der Textnachrichten
verwendet.
-
Gemäß einem
ersten Aspekt der Erfindung, wie sie in den Ansprüchen 1-31
beansprucht ist, wird eine Kommunikationsvorrichtung vorgesehen,
die umfasst:
einen Speicher für das Speichern eines Sprachsynthesemusters
für das
Synthetisieren von Sprache;
eine Nachrichtenhandhabungseinrichtung
für das Senden
einer Textnachricht zusammen mit einer Kennung, die die Quelle der
Textnachricht identifiziert, an einen Empfänger der Textnachricht; und
eine
Sprachsynthesemusterhandhabungseinrichtung für das Senden
einer Kopie des Sprachsynthesemusters, so dass sie vom Empfänger der
Textnachricht zugänglich
ist.
-
Vorzugsweise
kommuniziert die Kommunikationsvorrichtung mit einem Kommunikationsnetz. Sie
kann mit anderen Kommunikationsvorrichtungen, wie dem Empfänger, über das
Kommunikationsnetz kommunizieren.
-
Vorzugsweise
umfasst die Kommunikationsvorrichtung einen Nachrichtenerzeugungseinrichtung
für das
Erzeugen der Textnachricht.
-
Vorzugsweise
wird das Sprachsynthesemuster an den Empfänger der Textnachricht gesandt.
-
Vorzugsweise
ist das Sprachsynthesemuster für
einen bestimmten Benutzer der Kommunikationsvorrichtung spezifisch,
um synthetisierte Sprache zu liefern, die wie die Sprache des bestimmten
Benutzers klingt.
-
Vorzugsweise
ist die Sprachsynthesemusterhandhabungseinrichtung ausgebildet,
um die Kopie des Sprachsynthesemusters an den Empfänger der
Textnachricht auf Anforderung zu senden. Dies kann als Folge einer
Anforderung durch den Empfänger
oder einer Anforderung durch das Netz erfolgen.
-
Vorzugsweise
speichert die Kommunikationsvorrichtung eine Aufzeichnung der Sprachsynthesemuster,
die gesendet wurden, und die Empfangsvorrichtungen, an die sie gesendet
wurden. Die Kommunikationsvorrichtung kann eine Prüfeinrichtung umfassen,
die beim Senden der Textnachricht prüft, ob das Sprachsynthesemuster
schon an den Empfänger gesandt
oder von ihm empfangen wurde. Wenn das Sprachsynthesemuster schon
an den Empfänger
gesandt oder von ihm empfangen wurde, kann die Sprachsynthesemusterhandhabungseinrichtung
ausgelegt sein, das Sprachsynthesemuster zu senden. Dies kann automatisch
beim Senden der Textnachricht geschehen.
-
Vorzugsweise
weist die Kommunikationsvorrichtung einen Anforderungsempfänger für das Empfangen
einer Sprachsynthesemustersendeanforderung auf, und die Sprachsynthesemusterhandhabungseinrichtung
ist ausgebildet, um die Kopie des Sprachsynthesemusters an den Empfänger der
Textnachricht in Erwiderung auf die Sprachsynthesemustersendeanforderung
zu senden. Die Anforderung kann von einem Empfänger oder vom Kommunikationsnetz
gesandt werden. Vorzugsweise ist der Empfänger ausgebildet, aus der Anforderung
ein Ziel für das
angeforderte Sprachsynthesemuster zu erkennen, und die Sprachsynthesemusterhandhabungseinrichtung
ist ausgebildet, um das Sprachsynthesemuster an das erkannte Ziel
zu senden.
-
Vorzugsweise
ist die Kommunikationsvorrichtung eine mobile Vorrichtung. Alternativ
ist die Kommunikationsvorrichtung ein Festnetz. Sie kann ein Mobiltelefon,
ein PDA (persönlicher
digitaler Assistent) oder ein mobiler, tragbarer Computer, wie ein Laptop-Computer
oder ein Netzendgerät
sein.
-
Gemäß einem
zweiten Aspekt der Erfindung wird eine Kommunikationsvorrichtung
vorgesehen, die umfasst:
einen Speicher für das Speichern eines Sprachsynthesemusters
für das
Synthetisieren von Sprache;
einen Nachrichtenempfänger für das Empfangen
einer Textnachricht zusammen mit einer Kennung, die die Quelle der
Textnachricht identifiziert; und
ein Sprachsynthesemusterempfänger für das Empfangen
einer Kopie des Sprachsynthesemusters, das der Quelle der Textnachricht
entspricht, für
das künstliche
Lesen der Textnachricht unter Verwendung der Kopie des empfangenen
Sprachsynthesemuster.
-
Gemäß einem
dritten Aspekt der Erfindung wird ein Kommunikationssystem geliefert,
das eine Kommunikationsvorrichtung und ein Netz umfasst, wobei das
Kommunikationssystem umfasst:
einen Speicher für das Speichern
eines Sprachsynthesemusters für
das Synthetisieren von Sprache;
eine Nachrichtenhandhabungseinrichtung
für das Senden
einer Textnachricht zusammen mit einer Kennung, die die Quelle der
Textnachricht identifiziert, an den Empfänger der Textnachricht; und
eine
Sprachsynthesemusterhandhabungseinrichtung für das Senden einer Kopie eines
Sprachsynthesemusters an den Empfänger der Textnachricht.
-
Vorzugsweise
umfasst das Netz eine Datenbank für das Speichern einer Vielzahl
von Sprachsynthesemustern. Die Datenbank kann Kennungen speichern,
die dem Sprachsynthesemuster entsprechen. Die Sprachsynthesemuster
können
von Kommunikationsvorrichtungen empfangen worden sein. Vorzugsweise
umfasst das Netz eine Sprachsynthesemusterhandhabungseinrichtung
für das
Senden der Kopie des Sprachsynthesemusters an die Kommunikationsvorrichtung.
Dies kann in Erwiderung auf eine Anforderung nach dem Sprachsynthesemuster erfolgen,
oder es kann auf die Initiative des Netzes oder eines Servers erfolgen.
-
Gemäß einem
vierten Aspekt der Erfindung wird ein Sprachsynthesemusterserver
für das
Speichern einer Vielzahl von Sprachsynthesemustern in einem Kommunikationsnetz
bereitgestellt, wobei der Server umfasst:
einen Speicher für das Speichern
von Sprachsynthesemustern für
das Synthetisieren von Sprache;
einen Speicher für das Speichern
von Kennungen, die die Quelle der Sprachsynthesemuster identifizieren;
und
eine Sprachsynthesemusterhandhabungseinrichtung für das Senden
einer Kopie eines Sprachsynthesemusters an eine Kommunikationsvorrichtung.
-
Vorzugsweise
umfasst der Server eine Datenbank für das Speichern der Vielzahl
von Sprachsynthesemustern. Die Sprachsynthesemuster können von
Kommunikationsvorrichtungen empfangen worden sein. Das Senden der
Kopie des Sprachsynthesemusters kann in Erwiderung auf eine Anforderung
für das
Sprachsynthesemuster oder auf Initiative des Netzes oder eines Servers
erfolgen.
-
Vorzugsweise
ist die Kommunikationsvorrichtung der Empfänger der Textnachricht, die
von einer Partei empfangen wurde, die die Quelle eines speziellen
Sprachsynthesemusters ist.
-
Gemäß einem
fünften
Aspekt der Erfindung wird ein Verfahren für das Umwandeln einer Textnachricht
in synthetisierte Sprache vorgesehen, wobei das Verfahren folgende
Schritte umfasst:
Speichern eines Sprachsynthesemusters für das Synthetisieren
von Sprache;
Senden einer Textnachricht zusammen mit einer Kennung,
die die Quelle der Textnachricht identifiziert, an einen Empfänger der
Textnachricht; und
Senden einer Kopie des Sprachsynthesemusters
an den Empfänger
der Textnachricht.
-
Gemäß einem
sechsten Aspekt der Erfindung wird ein Verfahren zum Umwandeln einer
Textnachricht in synthetisierte Sprache vorgesehen, wobei das Verfahren
folgende Schritte umfasst:
Speichern eines Sprachsynthesemusters
für das Synthetisieren
von Sprache;
Empfangen einer Textnachricht zusammen mit einer Kennung,
die die Quelle der Textnachricht identifiziert;
Empfangen einer
Kopie des Sprachsynthesemusters, das der Quelle der Textnachricht
entspricht; und
Künstliches
Lesen der Textnachricht unter Verwendung der Kopie des empfangenen
Sprachsynthesemusters.
-
Gemäß einem
siebten Aspekt der Erfindung wird ein Verfahren für das Handhaben
einer Vielzahl von Sprachsynthesemustern vorgesehen, wobei das Verfahren
die folgenden Schritte umfasst:
Empfangen einer Textnachricht
zusammen mit einer Kennung, die die Quelle der Textnachricht einem Empfänger der
Textnachricht identifiziert;
Empfangen eines Sprachsynthesemusters
für das Synthetisieren
von Sprache; und
Senden einer Kopie des Sprachsynthesemusters
an den Empfänger
der Textnachricht.
-
Vorzugsweise
umfasst das Verfahren den Schritt des Speicherns des Sprachsynthesemusters. Das
Sprachsynthesemuster kann im Netz gespeichert werden. Es kann in
einem Server gespeichert werden. Es kann in einem Server gemäß dem dritten Aspekt
der Erfindung gespeichert werden.
-
Vorzugsweise
umfasst das Verfahren den Schritt des Speicherns von Kennungen,
die den Sprachsynthesemustern entsprechen. Vorzugsweise können die
Sprachsynthesemuster von Kommunikationsvorrichtungen empfangen worden
sein. Das Senden von Kopien der Sprachsynthesemuster kann in Erwiderung
auf eine Nachfrage nach ihnen durch Kommunikationsvorrichtungen
oder ein Netz erfolgen.
-
Gemäß einem
achten Aspekt der Erfindung wird ein Verfahren für das Handhaben einer Vielzahl von
Sprachsynthesemustern vorgesehen, wobei das Verfahren die folgenden
Schritte umfasst:
Speichern einer Vielzahl von Sprachsynthesemustern
für das
Synthetisieren von Sprache;
Speichern von Kennungen, die die
Quellen der Sprachsynthesemuster identifizieren;
Empfangen
einer Kennung; und
Senden einer Kopie eines Sprachsynthesemusters, das
der Kennung entspricht, an den Empfänger einer Textnachricht.
-
Gemäß einem
neunten Aspekt der Erfindung wird ein Verfahren für das Umwandeln
einer Textnachricht in synthetisierte Sprache vorgesehen, wobei
es folgende Schritte umfasst:
Verknüpfen eines ersten Sprachsynthesemusters
für das
Synthetisieren von Sprache, das einen ersten Satz von Spracheigenschaften
aufweist, mit Textnachrichten, die von eine ersten spezifizierten
Quelle stammen;
Verknüpfen
eines zweiten Sprachsynthesemusters für das Synthetisieren von Sprache,
das einen zweiten Satz von Spracheigenschaften aufweist, mit Textnachrichten,
die von einer zweiten spezifizierten Quelle stammen, wobei der erste
Satz von Spracheigenschaften vom zweiten Satz von Spracheigenschaften
unterschieden werden kann;
Empfangen einer Textnachricht;
Prüfen der
Quelle, von wo die Textnachricht stammt; und Synthetisieren von
Sprache gemäß dem ersten Sprachsynthesemuster
oder dem zweiten Sprachsynthesemuster in Abhängigkeit von der Quelle, von der
die Textnachricht stammt.
-
Vorzugsweise
identifizierten die spezifizierten Quellen bestimmte Individuen.
Alternativ identifizieren die Spezifizierten Quellen Gruppen von
Individuen. In seiner grundsätzlichsten
Form können
die Gruppen männliche
und weibliche Sender von Textnachrichten sein.
-
Vorzugsweise
ist die Sprache, die aus dem zweiten Satz von Spracheigenschaften
synthetisiert wurde, von der Sprache, die aus dem ersten Satz von Spracheigenschaften
synthetisiert wurde, durch einen menschlichen Zuhörer, der
der synthetisierten Sprache zuhört,
unterscheidbar.
-
Vorzugsweise
wird das erste und/oder das zweite Sprachsynthesemuster von einem
Netz zu einer mobilen Kommunikationsvorrichtung übertragen. Vorzugsweise speichert
die mobile Kommunikationsvorrichtung mindestens ein Sprachsynthesemuster, das
an sie übertragen
wird.
-
Bei
der Funkkommunikation ist die Kanalbandbreite begrenzt und so ist
es nicht praktikabel, Sprachsynthesemuster mit elektronischen Textnachrichten
zu übertragen.
Da jedoch Empfänger
oft elektronische Textnachrichten wieder und wieder von denselben
Leuten empfangen, kann es für
eine empfangende Kommunikationsvorrichtung (die nachfolgend als
eine "Empfängervorrichtung" bezeichnet wird)
wünschenswert
sein, Zugang zu Sprachsynthesemustern zu haben (und diese vorzugsweise
enthalten), die für
das Synthetisieren der Sprache von Benutzern verwendet werden, die
regelmäßig Textnachrichten
senden. Auf diese Weise ist es nicht immer notwendig, Sprachsynthesemuster
für gewisse Sprecher
zu senden, da es sein kann, dass sie schon in einer Vorrichtung
gespeichert sind. Weiterhin kann es sein, dass es nur notwendig
ist, Sprachsynthesemuster zu senden, wenn sie wirklich benötigt werden, das
heißt,
wenn sie nicht schon gehalten werden. Dies ist möglich, wenn das Liefersystem,
wie beispielsweise ein Telekommunikationsnetz, Fälle berücksichtigt, bei denen sich
eine Kopie des Sprachsynthesemusters schon in der Empfängervorrichtung befindet
oder innerhalb des Netzes zugänglich
ist, und in diesen Fällen
das Sprachsynthesemuster nicht sendet. Dies kann in der Mehrzahl
der Fälle
gelten.
-
In
einem anderen Verfahren gemäß der Erfindung
wird mindestens ein Sprachsynthesemuster im Netz gespeichert, und
eine Sprachsynthese durch dieses Sprachsynthesemuster wird im Netz
ausgeführt,
und die sich ergebende synthetisierte Sprache (oder ein Kode, um
eine solche synthetisierte Sprache zu ermöglichen) wird an die Kommunikationsvorrichtung übertragen.
Auf diese Weise ist es nicht notwendig, dass an eine Empfängervorrichtung
Sprachsynthesemuster gesandt und dort gespeichert werden.
-
Gemäß einem
zehnten Aspekt der Erfindung wird eine Kommurikationsvorrichtung
für das
Umwandeln einer empfangenen Textnachricht in synthetisierte Sprache
geliefert, wobei sie einen Speicher für das Speichern eines ersten
Sprachsynthesemusters für
das Synthetisieren von Sprache, die einen ersten Satz von Spracheigenschaften
aufweist, und eines zweiten Sprachsynthesemusters für das Synthetisieren
von Sprache, die einen zweiten Satz von Spracheigenschaften aufweist,
umfasst, wobei das erste Sprachsynthesemuster mit einer ersten spezifizierten
Quelle verknüpft
ist, und wobei das zweite Sprachsynthesemuster mit einer zweiten
spezifizierten Quelle verknüpft
ist, wobei der erste Satz von Spracheigenschaften vom zweiten Satz
von Spracheigenschaften unterscheidbar ist, eine Identifikationseinheit
für das
Prüfen
der Quelle, von der die empfangende Textnachricht herkommt, und
Sprachsynthesemittel für
das Synthetisieren von Sprache gemäß dem ersten Sprachsynthesemuster
oder dem zweitem Sprachsynthesemuster in Abhängigkeit von der Quelle, von
der die empfangene Textnachricht herkommt.
-
Vorzugsweise
wird das identifizierte Sprachsynthesemuster verwendet, um synthetisierte
Sprache gemäß der Textnachricht
zu erzeugen.
-
Vorzugsweise
ist die Kommunikationsvorrichtung eine mobile Kommunikationsvorrichtung.
Alternativ basiert die Kommunikationsvorrichtung auf einem Netz.
In einer Ausführungsform,
bei der sich die Erfindung auf ein drahtloses Kommunikationssystem
bezieht, bedeutet dies, dass die Kommunikationsvorrichtung sich
auf der Netzseite einer Funkschnittstelle befindet, über die
die Kommunikationsvorrichtung und ein Kommunikationsnetz kommunizieren.
-
Gemäß einem
elften Aspekt der Erfindung wird ein Kommunikationssystem vorgesehen,
das ein Netz und eine Kommunikationsvorrichtung gemäß dem zehnten
Aspekt der Erfindung umfasst.
-
Gemäß einem
zwölften
Aspekt der Erfindung wird ein Computerprogrammprodukt vorgesehen, das
Computerprogrammkodemittel für
das Ausführen
irgend eines der Verfahren der Aspekte fünf bis neun auf einem Computer
umfasst.
-
Die
Erfindung erkennt, dass es in der Zukunft wünschenswert sein kann, Textnachrichten
in elektronischer Form zu handhaben und den Inhalt solcher Textnachrichten
in synthetisierter Sprache statt in Textform zu präsentieren.
Es kann insbesondere wünschenswert
sein, Sprache zu synthetisieren, die ein Sprachsynthesemuster verwendet,
das gemäß der Sprache
eines Benutzer, der die Textnachricht sendet, hergestellt wird,
typischerweise durch die Verwendung einer sendenden Kommunikationsvorrichtung
(die nachfolgend als eine "Sendevorrichtung" bezeichnet wird),
so dass die synthetisierte Sprache wie die Stimme des Benutzers,
der die Textnachricht sendet, klingt.
-
Andere
Aspekte der Erfindung sind Computerprogramme, die lesbaren Computerkode
umfassen, für
das Ausführen
der Schritte jedes der Verfahren gemäß den Aspekten der Erfindung.
Jedes der so definierten Computerprogramme kann auf einem Datenträger, wie
einer Diskette, einer CD oder in Hardware gespeichert werden.
-
Die
Erfindung wird nur beispielhaft unter Bezug auf die begleitenden
Zeichnungen beschrieben:
-
1 zeigt
eine Ausführungsform
eines Kommunikationssystems gemäß der Erfindung;
-
2 zeigt
ein Flussdiagramm eines ersten Verfahrens der Erfindung;
-
3 zeigt
ein Flussdiagramm eines zweiten Verfahrens der Erfindung;
-
4 zeigt
ein Flussdiagramm eines dritten Verfahrens der Erfindung;
-
5 zeigt
ein Flussdiagramm eines vierten Verfahrens der Erfindung;
-
6 zeigt
die Synchronisation von Sprachsynthesemustern; und
-
7 zeigt
eine andere Ausführungsform
eines Kommunikationssystems gemäß der Erfindung.
-
Eine
Ausführungsform
eines Kommunikationssystems gemäß der Erfindung
ist in 1 gezeigt. Das System umfasst drei Haupteinheiten:
ein mobiles Telekommunikationsnetz 130, eine Sendevorrichtung 110 und
eine Empfängervorrichtung 120. Die
Sendevorrichtung und die Empfängervorrichtung sind
mit dem mobilen Telekommunikationsnetz 130 verbunden. Es
sind identische Vorrichtungen und es können mobile Kommunikationsvorrichtungen,
wie Mobiltelefone sein. Jede Vorrichtung umfasst eine zentrale Verarbeitungseinheit 124,
die einen ersten Speicher 111, einen zweiten Speicher 112 und
einen dritten Speicher 113 steuert, und die weiter einen Funkfrequenzblock 115 steuert,
der mit einer Antenne 116 verbunden ist. Die Speicher 111, 112 und 113 sind
vorzugsweise so ausgebildet, dass sie ihre Inhalte behalten, wenn
die Leistung der Vorrichtung abgeschaltet wird. In der bevorzugten
Ausführungsform sind
die Speicher in den Vorrichtungen Halbleiterspeicher, wie Flash-RAM-Speicher,
die keine beweglichen Teile aufweisen. Die Sendevorrichtung 110 und
die Empfängervorrichtung 120 kommunizieren mit
dem mobilen Telekommunikationsnetz 130 über Funkkanäle.
-
Das
mobile Telekommunikationsnetz 130 umfasst eine Datenbank 132,
die eine Vielzahl von Datensätzen 133, 134, 135 und 136 für das Speichern
von Sprachsynthesemustern für
eine Vielzahl von Netzbenutzern umfasst. Die Datenbank wird durch
eine Verarbeitungseinheit 131 gesteuert, die Zugang zu
jedem der Datensätze 133, 134, 135 und 136 besitzt.
Die Datenbank ist vorzugsweise auf einem Massenspeicher, wie einer
Festplatte oder einem Satz von Festplatten, gespeichert. In der
Kombination sind die Datenbank 132 und die Verarbeitungseinheit 131 Teil
eines Sprachsynthesemusterservers 137.
-
Es
wird nun die Funktion des Kommunikationssystems beschrieben. Wenn
ein Benutzer einer Empfängervorrichtung
eine Textnachricht empfängt, wird
für die
Textnachricht eine Auswahl präsentiert, dass
sie entweder visuell zur Anzeige kommt oder hörbar gelesen wird, so dass
der Benutzer den Inhalt der Textnachricht hören kann. Natürlich kann
der Benutzer wählen,
sowohl eine visuelle Anzeige als auch eine hörbare Präsentation zu erhalten, obwohl
gewöhnlicherweise
nur eine Form der Präsentation
benötigt
wird. Ein Standardverfahren der visuellen Anzeige wird bevorzugt.
Wenn der Benutzer die hörbare Präsentation
wählt,
prüft die
Empfängervorrichtung die
Identität
des Senders der Textnachricht und verwendet dann ein Sprachsynthesemuster,
das mit dem Sender verknüpft
ist, um den Inhalt der Textnachricht in einer hörbaren Form zu liefern, die
der Sprache des Senders entspricht. Wenn sich das Sprachsynthesemuster
nicht in der Empfängervorrichtung
befindet, erhält
die Empfängervorrichtung
es entweder vom Netz oder von der sendenden Vorrichtung über das
Netz. Auf diese Weise kann der Benutzer den Textnachrichten in Sprachen
lauschen, die den Sendern der Textnachrichten entsprechen. Ein Vorteil
davon ist, dass der Benutzer zwischen Textnachrichten unterscheiden
kann, in Abhängigkeit
von der Stimmen, mit denen sie gelesen werden, oder er sogar den Sender
einer Textnachricht identifizieren kann, in Abhängigkeit von der Stimme, in
der sie gelesen wird.
-
Wenn
eine sendende Vorrichtung 110 zuerst eine Textnachricht
an das Netz 130 sendet, muss das Netz ein Sprachsynthesemuster,
das für
diese Sendevorrichtung 110 passend ist, empfangen. Dies
ist ein Sprachsynthesemuster, um eine Sprache zu erzeugen, die wie
der Benutzer oder einer der Benutzer der Sendevorrichtung klingt.
Das Sprachsynthesemuster wird somit (i) mit der Textnachricht, (ii)
zu einem späteren
Zeitpunkt, der von der Sendevorrichtung 110 bestimmt wird,
oder (iii) als Folge des Netzes 130, das dies anfordert
(zu einer Zeit, zu der die Textnachricht vom Netz 130 empfangen
wird, oder zu einem späteren
Zeitpunkt) gesandt. Die Sprachsynthesemuster werden (i) durch das
Netz gespeichert, (ii) durch die Empfängervorrichtungen gespeichert oder
(iii) durch das Netz und die Empfängervorrichtungen gespeichert.
Die Umstände,
unter denen die Sprachsynthesemuster gesendet werden, hängen davon
ab, welches der folgenden Verfahren der Erfindung verwendet wird.
Es ist wichtig, zu verstehen, dass die folgenden Verfahren sich
auf Situationen beziehen, bei denen einige Sprachsynthesemuster schon
durch die Sendevorrichtungen 110 gesendet, vom Netz 130 empfangen
und dann gespeichert wurden.
-
Es
wird nun ein erstes Verfahren zur Handhabung von Sprachsynthesemustern
beschrieben. Die Sendevorrichtung 110 unterhält eine
Liste von Empfängervorrichtungen 120,
an die ihr Sprachsynthesemuster gesandt worden ist. Tatsächlich kann die
Sendevorrichtung ein primäres
Sprachsynthesemuster und ein sekundäres oder verknüpftes Sprachsynthesemuster
aufweisen. Wenn die Sendevorrichtung 110 eine neue Textnachricht
an eine spezielle Empfängervorrichtung 120 sendet,
so prüft
sie, ob die Liste zeigt, dass die Empfängervorrichtung 120 schon
das Sprachsynthesemuster empfangen hat. Wenn das Sprachsynthesemuster
schon gesandt wurde, so wird nur die Textnachricht gesandt. Wenn das Sprachsynthesemuster
noch nicht gesendet wurde, so wird eine Kopie des Sprachsynthesemusters an
die Textnachricht angehängt
und mit ihr gesandt. Wenn die Empfängervorrichtung 120 das
Sprachsynthesemuster, das an die Textnachricht angefügt ist, empfängt, speichert
die Empfängervorrichtung 120 dieses
in einem Sprachsynthesemusterspeicher. Der Sprachsynthesemusterspeicher
kann von jeder geeigneten Art sein, wie ein Massenspeicher, ein Flash-ROM,
ein RAM oder eine Platte/Diskette. Wenn die Empfängervorrichtung 120 ein
Sprachsynthesemuster zu haben scheint, aber dies in Wirklichkeit
nicht der Fall ist, so kann die Empfängervorrichtung spezifisch
anfordern, dass es gesandt wird. Die Art, wie ein Sprachsynthesemuster
angefordert werden kann, wird nachfolgend beschrieben.
-
Das
erste Verfahren ist in 2 gezeigt.
-
In
einem zweiten Verfahren zur Handhabung von Sprachsynthesemustern
sendet die Sendevorrichtung 110 keine Sprachsynthesemuster
mit einer Textnachricht beim anfänglichen
Senden der Textnachricht. Beim Empfangen einer Textnachricht, die eine
passende Kennung der Sendevorrichtung 110 einschließt, prüft die Empfängervorrichtung 120,
um zu sehen, ob ein passendes Sprachsynthesemuster für diese
Sendevorrichtung 110 schon in ihrem Speicher gespeichert
worden ist. Wenn ein solches Sprachsynthesemuster nicht gespeichert
wurde, fordert die Empfängervorrichtung 120,
dass eine Kopie des Sprachsynthesemusters gesendet wird. Ein Umstand,
bei dem das Sprachsynthesemuster nicht länger gespeichert ist, ist der,
wenn die Sprachsynthesemuster in einem Sprachsynthesemusterspeicher
(eine Art von Cache-Speicher)
gespeichert sind. Wenn neue Sprachsynthesemuster im Speicher gespeichert
werden, werden alte Sprachsynthesemuster, die schon im Speicher
gespeichert sind, gelöscht,
um Platz für
die neuen zu machen. Alternativ können die am wenigsten verwendeten
Sprachsynthesemuster statt die ältesten
Muster gelöscht
werden. Eine oder mehrere alte oder wenig verwendete Sprachsynthesemuster
können
zu einer Zeit gelöscht
werden. Alternativ oder zusätzlich
können
Sprachsynthesemuster mit ihnen verbunden eine Lebensdauer aufweisen,
und sie können
gelöscht
werden, wenn die Lebensdauer abläuft.
Dieses Sprachsynthesemusterverwaltungssystem kann auf das erste
oder jedes der nachfolgenden Verfahren angewandt werden.
-
In
diesem Verfahren wird ein Protokoll geliefert, um es zu ermöglichen,
dass eine Sendevorrichtung 110 für die Empfängervorrichtung 120 identifiziert
wird und um es der Empfängervorrichtung 120 zu
ermöglichen,
das Sprachsynthesemuster der Sendevorrichtung anzufordern und es
von der Empfangsvorrichtung herab zu laden.
-
Das
zweite Verfahren ist in 3 gezeigt.
-
In
einem dritten Verfahren für
das Handhaben von Sprachsynthesemustern ist die Funktion ähnlich dem
zweiten Verfahren. Sprachsynthesemuster werden jedoch statt nur
in den Sende- und Empfängervorrichtungen
gespeichert zu werden, auf dem Sprachsynthesemusterserver 137 gespeichert. Sprachsynthesemuster
werden vom Sprachsyntheseserver von einer Empfängervorrichtung 120 angefordert
statt dass sie von einer Sendevorrichtung 110 angefordert
werden. Um die Datenbank im Sprachsynthesemusterserver aufrecht
zu halten, gibt es mehrere Optionen. Das Netz 130 kann
ein Sprachsynthesemuster in Bezug auf die erste Textnachricht, die
von einer Sendevorrichtung 110 gesandt wird, anfordern.
Alternativ kann der Sprachsynthesemusterserver 137 das
Sprachsynthesemuster (auf Anforderung) anfordern, so dass, wenn
das Sprachsynthesemuster das erste Mal von einer Empfangsvorrichtung 120 angefordert
wird, der Sprachsynthesemusterserver 137 weiter das passende
Sprachsynthesemuster von der Sendevorrichtung 110 anfordert,
die eine geeignete Kopie sendet. Der Sprachsynthesemusterserver 137 empfängt die
Kopie, speichert seine eigene Kopie in seinem Speicher für eine zukünftige Verwendung
und sendet dann eine Kopie an die Empfängervorrichtung 120.
Auf diese Weise muss die Sendevorrichtung 110 das Sprachsynthesemuster nicht
mehr als einmal übertragen.
Weiterhin kann das Synthesemuster, wenn es im Sprachsynthesemusterserver 137 gespeichert
wurde, in einem oder mehreren verdrahteten oder mobilen Netzen,
beispielsweise dem Internet, übertragen
werden.
-
Das
Netz 130 kann Anforderungen an Sendevorrichtungen 110 nach
Sprachsynthesemustern abfangen und solche Muster, wenn es sie schon
hat, liefern. Wenn es sie noch nicht hat, kann es ermöglichen,
dass die Anforderungen an die Sendevorrichtungen 110 weiterlaufen.
-
Das
dritte Verfahren ist in 4 gezeigt.
-
In
einem vierten Verfahren zur Handhabung von Sprachsynthesemustern
müssen
die Sprachsynthesemuster überhaupt
nicht an die Empfängervorrichtungen 120 übertragen
werden. In diesem Verfahren werden Sprachsynthesemuster an das Netz 130 von
den Sendevorrichtungen 110 übertragen und dann im Netz 130 gespeichert.
Bei der Anforderung, dass eine Textnachricht in Form synthetisierter Sprache
präsentiert
werden soll, wird die notwendige Sprachsynthese im Netz 130 ausgeführt, und
die synthetisierte Sprache wird vom Netz an den Empfänger in
geeignet kodierter Form übertragen.
Die Sprachsynthesemuster können
an das Netz 130 beim Übertragen
einer Textnachricht übertragen
werden, oder auf die Initiative der Sendevorrichtung 110 oder
des Netzes 130, wie das vorangehend beschrieben wurde.
-
Das
vierte Verfahren ist in 5 gezeigt.
-
In
ihren ersten und zweiten Verfahren kann die Erfindung durch Software
implementiert werden, die durch die Sende- und Empfängervorrichtungen ausgeführt wird,
die eine Sprachsyntheseanwendung in der Sendevorrichtung 110 steuert.
Diese Anwendung verwaltet ein eigenes Sprachsynthesemuster der Kommunikationsvorrichtung
und Sprachsynthesemuster, die von anderen Kommunikationsvorrichtungen
empfangen und gespeichert wurden. Die Empfängervorrichtung 120 umfasst
eine entsprechende Sprachsyntheseanwendung. Im dritten Verfahren
weist der Sprachsynthesemusterserver 137 die passende Hardware
im Netz 130 auf, um die Sprachsynthesemuster zu puffern.
Dies kann entweder im Netz 130 oder innerhalb eines Servers,
der mit einem festen Telekommunikationsnetz oder mit einem Kommunikationsnetz,
wie dem Internet verbunden ist, erfolgen. Im vierten Verfahren befinden
sich die gesamten Funktionen, die die Sprachsynthesemuster und die
Sprachsynthese betreffen, im Netz. Die Kommunikationsvorrichtungen
müssen
nur die Fähigkeit
haben, Textnachrichten zu senden und zu empfangen und eine synthetisierte
Präsentation
von Textnachrichten anzufordern.
-
Das
dritte Verfahren wird gegenüber
den ersten und zweiten Verfahren bevorzugt, da es die Menge der
Daten, die übertragen
werden müssen,
minimiert. Andererseits erfordern die ersten und zweiten Verfahren
nicht, dass Sprachsynthesemuster im Netz 130 gespeichert
werden, und sie können
von Leuten bevorzugt werden, die es bevorzugen, dass ihre Sprachsynthesemuster
der Öffentlichkeit
nicht zugänglich
sind. Es ist jedoch in diesen Fällen
möglich, einen
Verschlüsselungsschutz
zu bieten, wie das nachfolgend beschrieben wird. Die ersten und
zweiten Verfahren benötigen
keine andere Unterstützung vom
Netz 130 als das Weitergeben der Sprachzsynthesemuster.
Das vierte Verfahren ermöglicht
das Empfangen gesprochener Nachrichten, sogar mit Vorrichtungen,
die keine Sprachsynthesemuster empfangen können.
-
Bei
solchen Verfahren, bei denen die Sprachsynthesemuster an die Kommunikationsvorrichtungen übertragen
werden, sollte verständlich sein,
dass dies nicht zu der Zeit erfolgen muss, zu der die Textnachricht übertragen
wird oder dem Benutzer der Empfängervorrichtung 120 präsentiert
wird. Zu Beginn könnte
eine Textnachricht unter Verwendung eines Standardsprachsynthesemusters,
vielleicht: das Sprachsynthesemuster des Benutzers der Empfängervorrichtung 120,
ausgelesen werden, und ein neues Sprachsynthesemuster könnte zu
einer passenderen Zeit, beispielsweise einer verkehrsärmeren Zeit,
empfangen werden, um Bandbreite zu sparen. Die Empfängervorrichtung 120 kann
automatisch das neue Sprachsynthesemuster zu einer passenden Zeit,
beispielsweise wenn die Empfängervorrichtung 120 nicht
verwendet wird, abrufen. Alternativ kann die Empfängervorrichtung 120 eine
Lieferung zu verkehrsarmer Zeit vom Netz 130 anfordern,
so dass das Netz 130 das angeforderte Sprachsynthesemuster
bei eigener Gelegenheit sendet. Das Sprachsynthesemuster kann beim
Senden segmentiert und beim Empfang wieder zusammengefügt werden.
-
In
allen vorangehenden Ausführungsformen kann
eine Verteilung von Sprachsynthesemustern als Ergebnis eines Synchronisationsvorgangs
erfolgen. Die Vorrichtungen 110 und 120 können sich
zeitweise nicht in Verbindung mit dem Netz 130 befinden,
beispielsweise können
sie abgeschaltet oder in einen Offline-Betriebsmodus versetzt werden.
Wenn die Kommunikation wieder errichtet wird, so kann es wünschenswert
sein, Daten, die in den Vorrichtungen vorgehalten werden, mit Daten,
die im Netz 130 vorgehalten werden, zu synchronisieren.
-
Wenn
die Synchronisation gestartet wird, beispielsweise wenn Kalenderereignisse
synchronisiert werden, so können
zur gleichen Zeit Vorrichtungen, die mit dem Netz 130 verbunden
sind, vom Sprachsynthesemusterserver 137 neue Muster anfordern.
Dies kann geschehen, wenn bemerkt wird, dass irgendwelche der Vorrichtungen
Nachrichten vorhalten, die beispielsweise gerade von einer Sendevorrichtung
oder Sendevorrichtungen empfangen wurden, für die ein Muster nicht vorgehalten
wird. Eine solche Synchronisation kann unter Verwendung einer Synchronisationsauszeichnungssprache
(Synchronisation Marku-up Language, SyncML) erfolgen, wie das Fachleute
verstehen werden. Die Sprachsynthesemuster können aus der "Bibliothek" der Sprachsynthesemuster
des dritten Aspekts der Erfindung genommen werden.
-
Die
Muster können
aus jeder Synchronisationsquelle, die dem Benutzer verfügbar ist,
herabgeladen werden, beispielsweise unter Verwendung einer lokalen
Verbindung (wie festverdrahtet, Funkfrequenz niedriger Leistung,
Infrarot, Bluetooth, WLAN) mit dem Benutzer-PC. Auf diese Weise
werden teuere und zeitverbrauchende Herabladevorgänge über Funk
vermieden.
-
6 zeigt
eine Synchronisation von Sprachsynthesemustern gemäß der Erfindung.
Eine Empfängervorrichtung
empfängt
Textnachrichten, wie E-Mails, über
Funk. Nachfolgend wird die Vorrichtung in einen Schreibtisch gestöpselt, der
eine drahtgebundene Verbindung zum PC des Benutzers aufweist. Als
Teil einer normalen Datensynchronisation, beispielsweise dem Aktualisieren
von Kalenderdaten aus einem Bürokalender,
empfängt
die Empfängervorrichtung
solche Sprachsynthesemuster, die sie benötigt, um die neu empfangenen
Textnachrichten in Sprache zu synthetisieren.
-
Wenn
die Empfängervorrichtung
eine Synchronisation von einem Synchronisationsserver anfordert,
so sendet sie in der Anforderung Daten, die solche Sprachsynthesemuster
betreffen, die sie benötigt.
Die benötigten
Sprachsynthesemuster werden durch das Vergleichen der neu empfangenen E-Mails,
die in der Empfängervorrichtung
enthalten sind, mit den Sprachsynthesemustern, die von der Empfängervorrichtung
vorgehalten werden, bestimmt. Der Synchronisationsserver verarbeitet
die Anforderung von der Empfängervorrichtung
und liefert die Sprachsynthesemuster entweder aus seinem eigenen
Speicher oder einem externen Server.
-
Zusätzlich zum
Hinzufügen
von Sprachsynthesemustern kann die Synchronisation das Entfernen
von einem oder mehreren Mustern umfassen, um einigen Speicher der
Vorrichtung, die synchronisiert wird, frei zu machen. Die Bestimmung,
welche Sprachsynthesemuster benötigt
werden, wird durch die Empfängervorrichtung
im Verfahren der Bestimmung des Synchronisationsdatensatzes ausgeführt. Die
Empfängervorrichtung
kann intelligent über
den zu synchronisierenden Datensatz auf der Basis der Relevanz der
zu synchronisierenden Daten entscheiden. Die Relevanz eines speziellen
Sprachsynthesemusters würde
beispielsweise durch die Anzahl der E-Mails, die von der Person
empfangen wurden, deren Sprache das Sprachsynthesemuster darstellt, bestimmt
werden. 7 zeigt ein Kommunikationssystem
für das
Handhaben von Sprachsynthesemustern. Es liefert einen Weg für das Erwerben
von Sprachsynthesemustern und ihre Speicherung auf einem Sprachsynthesemusterserver.
-
6 hat
mit 1 gemeinsame Merkmale, und es wurden entsprechende
Bezugszahlen für
die Merkmale verwandt, die beiden Systemen gemeinsam sind. Die Sprachsynthesemuster
werden im Sprachsynthesemusterserver 137 gespeichert. Statt dass
sie nur von der Sendevorrichtung 110 empfangen werden,
werden sie von Erzeugungseinheiten 160 für Sprachsynthesemuster über ein
Netz 158, beispielsweise ein Intranet oder das Internet,
erhalten.
-
Die
Erzeugungseinheiten 160 für die Sprachsynthesemuster
sind Netzendgeräte,
die mit einer Erzeugungssoftware für Sprachsynthesemuster ausgerüstet sind.
Diese Einheiten können
Personalcomputer umfassen. Eine einzelne Einheit 160 umfasst
eine Audioaufnahmeausrüstung 160 für eine Audioaufnahme.
Die Audioaufnahmeausrüstung
besitzt ein Mikrofon und einen zugehörigen Analog-Digital-Wandler
für das
Digitalisieren der aufgenommenen Sprache. Digitalisierte aufgenommene
Sprache wird auf einem Festplattenlaufwerk 162 gespeichert. Die
Erzeugungssoftware 165 für Sprachsynthesemuster erzeugt
ein Sprachsynthesemuster durch das Analysieren der digitalisierten
aufgenommenen Sprache, die auf dem Festplattenlaufwerk 162 gespeichert
ist. Die Software 165 kann auch auf dem Festplattenlaufwerk 162 gespeichert
sein.
-
Die
Einheit 160 umfasst auch einen Netzadapter 163,
um eine Verbindung der Einheit 160 mit dem Netz zu ermöglichen,
und eine Benutzerschnittstelle 164. Die Benutzerschnittstelle 164 erlaubt
einem Benutzer, Zugang zur Software 165 und ermöglicht es
ihm, diese zu betreiben.
-
Es
wird nun die Funktion des Kommunikationssystems beschrieben. Typischerweise
ist das Netzendgerät 160 ein
Personalcomputer des Benutzers. Wenn ein Benutzer wünscht, sein
Sprachsynthesemuster allgemein zugänglich zu machen (so dass es
von Empfängern
von Textnachrichten von ihm erhalten werden kann), aktiviert der
Benutzer die Software 165 und folgt den verschiedenen erforderlichen
Sprech- und Lehrübungen.
Diese umfassen gewöhnlicherweise
die Wiederholung von Tönen,
Worten und Sätzen.
Wenn ein Sprachsynthesemuster erzeugt worden ist, so kann der Benutzer
dieses zum Sprachsynthesemusterserver 137 senden. Dieser Server
befindet sich typischerweise unter der Steuerung des Betreibers
des Netzes 130.
-
Alternativ
wird das Netzendgerät 160 von
einem Dienstanbieter geliefert und befindet sich unter dessen Steuerung.
In diesem Fall kann der Benutzer ein Sprachsynthesemuster erzeugen,
wenn es passend oder notwendig ist. Eine passende Zeit, um ein Sprachsynthesemuster
zu erzeugen, ist beispielsweise die Errichtung einer neuen Verbindung
zum Netz 130, beispielsweise beim Kauf eines Mobiltelefons.
-
Wenn
der Server 137 Sprachsynthesemuster enthält, so können sie
von Empfänger
von Textnachrichten erhalten werden, die ein entsprechendes Sprachsynthesemuster
anfordern, so dass die Textnachricht ausgelesen werden kann. Jedes
Mal, wenn der Server 137 verwendet wird, um ein Sprachsynthesemuster
zu liefern, kann eine Gebühr
bei der Partei, die das Sprachsynthesemuster anfordert, erhoben
werden.
-
Es
wird erkennbar, dass ein gemeinsamer Zweck aller Verfahren darin
besteht, die Sprachsynthesemuster nur dann zu senden, wenn dies
notwendig ist, beispielsweise auf die Initiative des Netzes 130 hin
oder in Erwiderung auf eine Anforderung von einer Kommunikationsvorrichtung.
-
Es
wird nun ein passender Weg zur Erzeugung von Sprachsynthesemustern
beschrieben. Dies umfasst, dass die spezifischen Eigenschaften der
zu synthetisierten Sprache den Sprachsynthesemustern beigebracht
werden, so dass sie wiedergegeben werden kann.
-
In
einer Ausführungsform
erzeugen die Kommunikationsvorrichtungen Textnachrichten durch eine
Spracherkennung. Um Speicherplatz zu sparen, weist eine Kommunikationsvorrichtung
ein kombiniertes Spracherkennungs/Synthese-Anwendungsprogramm auf.
Dieses Anwendungsprogramm kann die Sprache erkennen und sie in Text
umwandeln. Obwohl eine Spracherkennung schon aus dem Stand der Technik
bekannt ist (die die Verwendung von entweder vom Sprecher abhängigen oder
vom Sprecher unabhängigen
Spracherkennungsmustern erfordert), schlägt die Erfindung vor, dass
die schon existierende Spracherkennungsfunktion zusätzlich für das Umwandeln
von Text in Sprache verwendet wird. Auf diese Weise würde unter
Verwendung von schon existierenden Spracherkennungsmustern der Benutzer
einer Kommunikationsvorrichtung keine Zeit benötigen, um die Vorrichtung zu
lehren, seine Sprache als eine individuelle und getrennte Aktivität zu erkennen
und zu synthetisieren, sondern ein solches Lehren kann für eine Spracherkennung
und für eine
Sprachsynthese kombiniert werden.
-
In
Situationen, bei denen, beispielsweise statt Tippen, eine Spracherkennung
verwendet wird, um die Textnachrichten zu produzieren, wenn die Sendevorrichtung 110 lernt,
die Sprache des Senders zu verstehen, wird, um das Sprachsynthesemuster
relativ schnell zu erzeugen, zumindest der erste Text, den ein Leser
lesen muss, dem Sender in einer Weise präsentiert, in der gewisse Worte,
die eine größere Wahrscheinlichkeit
aufweisen, dass sie inkorrekt sind, verstärkt werden, und es wird eine
Bestätigung
oder Korrektur dieser Worte gefordert. Eine solche Bestätigung oder
Korrektur ist in das Lernverfahren eingefügt, das beim Erzeugen des Sprachsynthesemusters
verwendet wird, so dass dieses effektiver erzeugt werden kann.
-
Es
sollte verständlich
sein, dass die Sprachsynthesemuster nicht notwendigerweise solche
sein müssen,
die zu den Benutzern der Sendevorrichtung 110 gehören. Es
ist nur notwendig, dass sie zwischen Benutzern unterscheiden, wenn
man ihnen zuhört. Sie
können
durch den Benutzer der Empfängervorrichtung 120 gewählt werden
und können "Scherz"-Sprachsynthesemuster
sein, beispielsweise solche, um die Sprache von Zeichentrickfiguren
zu synthetisieren. Alternativ können
zwei Sprachsynthesemuster vorhanden sein, eines für einen
männlichen
Sprecher und eines für
einen weiblichen Sprecher. Eine Geschlechtskennzeichnung, die mit
einer Textnachricht gesandt wird, kann gewährleisten, dass die Textnachricht
von einer synthetisierten Sprache gesprochen wird, die das korrekte
Geschlecht hat. Ein Weg, dies zu tun, besteht darin, den Vornamen
eines Benutzer, der die Sendevorrichtung verwendet, zu prüfen und
dies zu verwenden, um das Geschlecht zu bestimmen. Andere Unterscheidungsmöglichkeiten
könnten
verwendet werden, wie beispielsweise um Sprachsynthesemuster zu
haben, die junge und alte Stimmen darstellen.
-
Da
die Speicherung eines Sprachsynthesemusters eines Sprechers es möglicherweise
erlaubt, dass betrügerische
Nachrichten präsentiert
werden, unter Verwendung der "Stimme" von irgend jemand anderem,
kann es vorteilhaft sein, eine Sorte einer digitalen Unterschrift
in die Sprachsynthesemuster einzufügen (vielleicht als eingebettete
Signatur), so dass nur der Benutzer, der die Quelle des Sprachsynthesemusters
darstellt, es legitim verwenden kann. In einer Ausführungsform
basiert dies auf einem Verschlüsselungssystem
mit zwei Schlüsseln,
in welchem das Sprachsynthesemuster einen Schlüssel erzeugt, und neue Textnachrichten
mit einem zweiten Schlüssel
geliefert werden. Es wird ein Verschlüsselungsalgorithmus von der
Empfängervorrichtung
verwendet, um zu prüfen,
dass die Schlüssel
zum Inhalt der Textnachricht passen und um somit die Quelle der
Textnachricht zu authentifizieren. Diese Sicherheitsaspekte sind
kein solches Problem in Verfahren, wie dem vierten Verfahren, bei
denen die Sprachsynthesemuster nicht an die Kommunikationsvorrichtungen übertragen
werden.
-
Wenn
eine Textnachricht von einer Anzahl von Leuten kommt, könnte eine
Anzahl von Sprachsynthesemustern gesandt werden, so dass verschiedene
Teile der Textnachricht unter Verwendung unterschiedlicher Stimmen
in Abhängigkeit
von den Quellen der verschiednen Teile des Textes ausgelesen werden
können.
In diesem Fall können
Quellenkennungen in den Beginn eines Teils einer neuen Quelle in
der Textnachricht eingebettet werden. Dieser Fall kann sich bei
Textnachrichten ergeben, die von einer Anzahl von Empfängern empfangen
wurden, von denen alle etwas Text beigetragen haben und dann weiter
gesendet werden. Eine solche Textnachricht kann eine E-Mail sein,
die ein oder mehrmals empfangen und weitergegeben oder beantwortet
wurde.
-
Die
Erfindung kann auf drahtgebundenen Kommunikationswegen als auch
auf drahtlosen verwendet werden, so dass die Erfindung beispielsweise
in Fällen
verwendet werden kann, bei denen eine oder beide Parteien mit einem
Intranet oder dem Internet verbunden sind. In diesem Fall würden die Sendevorrichtung 110 und
die Empfängervorrichtung 120 keine
mobilen Kommunikationsvorrichtungen sein, sondern sie würden feste
Kommunikationsvorrichtungen, wie PCs (Personalcomputer) sein.
-
Die
Sprachsynthesemuster von Angestellten eines Unternehmens, beispielsweise
alle 1000 Angestellten einer Firma, könnten in die Speicher von Kommunikationsvorrichtungen,
die von den Angestellten verwendet werden, vorprogrammiert werden, um
ein unnötiges Übertragen
der Sprachsynthesemuster zu vermeiden. In gleicher Weise können die Sprachsynthesemuster
in einem von der Firma betriebenen Server gespeichert werden, von
dem sie an die Kommunikationsvorrichtungen geliefert werden.
-
Die
Erfindung betrifft einen Weg zur Synthetisierung von Sprache mit
der Stimme eines Benutzers. Sie betrifft auch einen Weg für das Vorsehen verschiedener
synthetisierter Stimmen für
verschiedene Benutzer, die Textnachrichten senden. Sie betrifft
die Handhabung von Sprachsynthesemustern, so dass sie für die Verwendung
durch eine Kommunikationsvorrichtung verfügbar gemacht werden, entweder
indem sie von einer Vorrichtung zu einer anderen Vorrichtung übertragen
werden oder indem sie von einem Netz zu einer Vorrichtung übertragen
werden.
-
Mit
der Erfindung wird es möglich,
Textnachrichten zu senden, die geringe Bandbreite benötigen, und
sie in einer Weise sprechen zu lassen, die es ermöglicht,
ihre Quellen zu identifizieren. Sie liefert einen Weg zur Erzeugung
synthetisierter Sprache, die persönlich ist oder zumindest zwischen
verschiedenen Quellen unterscheidbar. Die Erfindung ermöglicht es,
dass solche "gesprochenen
Textnachrichten" so
einfach wie eine E-Mail im Moment gesendet werden können. Sie
liefert auch einen Weg, um ein Vorsehen von personalisierten Sprachsynthesemustern zu
ermöglichen,
während
sie bei ihrem Transfer nur geringe Bandbreite benötigen. Dies
ist insbesondere bei einem Verfahren der Erfindung der Fall, bei
dem Sprachsynthesemuster nur einmal gesandt werden. Ein Vorteil
der Erfindung ist der, dass die Textnachrichten dennoch als einfacher
Text gespeichert werden, was bedeutet, dass ihre Speicherung im
Vergleich zum Speichern der tatsächlichen
Sprache wenig Speicherplatz benötigt.
Weiterhin ist es relativ einfach, Textnachrichten mit Schlüsselworten
zu suchen.
-
Sprachsynthesemuster
können
auch für
andere Zwecke verwendet werden. In einer Ausführungsform werden sie verwendet,
um Sprachnachrichten für
Anrufbeantworter zu erzeugen, beispielsweise können eine Anzahl von Sprachsynthesemustern
verfügbar
sein, die die Sprache von Leuten synthetisieren, deren Stimmen der
Bevölkerung
allgemein bekannt sind. Diese Leute können Persönlichkeiten des Fernsehens,
Schauspieler, Sportler, Unterhalter und dergleichen sein. Solche
Sprachsynthesemuster können
in einer Bibliothek von Sprachsynthesemustern auf Netzbasis vorgehalten
werden. Die Sprachsynthesemuster werden funktionell mit einem geeigneten
Prozessor verbunden, der Sprache gemäß irgend welchen Sprachsynthesemustern,
die ausgewählt
werden können,
erzeugen kann. Die Bibliothek und der Prozessor sind passenderweise
in einem auf dem Netz basierenden Server gemeinsam angeordnet. Wenn
ein Teilnehmer eine Antwortnachricht auf seiner Sprach-Mailbox haben
will, sendet der Teilnehmer eine Nachricht an den Server, die den Text
einschließt,
der dazu dient, die Basis der Antwortnachricht zu bilden und zeigt
die Sprache an, in welcher die Antwortnachricht gesprochen werden soll,
und die Sprach-Mailbox, auf die die Antwortnachricht angewandt werden
soll. Der Prozessor verwendet ein entsprechendes Sprachsynthesemuster, um
die synthetisierte Antwortnachricht zu erzeugen, und die Nachricht
wird dann zu einem Speicher übertragen,
der mit der Sprach-Mailbox verknüpft
ist. Wenn ein Anruf erfolgt, der zu einer Aktivierung der Antwortnachricht
der Sprach-Mailbox führt,
wird auf den Speicher zugegriffen und die synthetisierte Antwortnachricht
wird dem Anrufer vorgespielt. In einer anderen verfeinerten Ausführungsform
ist die Funktion wie vorher beschrieben, aber der Teilnehmer/die Teilnehmerin
sendet die Nachricht nicht direkt an den Server, sondern über seinen
oder ihren Betreiber des eigenen Telekommunikationsnetzes. Der Betreiber kann
den Teilnehmer authentifizieren und mit einer Gebühr für den Dienst
belasten, womit die Notwendigkeit für getrennte Authentifizierungs-
und getrennte Gebührenbelastungssysteme für ein Eintreiben
bei Benutzern (Teilnehmern) des Dienstes vermieden wird.
-
Spezielle
Implementierungen und Ausführungsformen
der Erfindung sind beschrieben worden. Für einen Fachmann ist es klar,
dass die Erfindung nicht auf die Details der oben präsentierten
Ausführungsformen
beschränkt
ist, sondern dass sie in anderen Ausführungsformen unter Verwendung äquivalenter
Mittel implementiert werden kann, ohne von den Eigenschaften der
Erfindung abzuweichen. Der Umfang der Erfindung wird nur durch die
angefügten Patentansprüche eingeschränkt.