DE60124985T2

DE60124985T2 - Sprachsynthese

Info

Publication number: DE60124985T2
Application number: DE60124985T
Authority: DE
Inventors: Andrew Walker; Samu Lamberg; Simon Walker; Kim Simelius
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2000-06-30
Filing date: 2001-06-29
Publication date: 2007-07-05
Anticipated expiration: 2021-06-30
Also published as: FI115868B; ATE347726T1; DE60124985D1; FI20001572A0; EP1168297B1; US20020013708A1; FI20001572A; EP1168297A1

Description

Diese Erfindung bezieht sich auf Sprachsynthese und das hörbare Lesen eines Textes mittels künstlicher Mittel.
Ein signifikanter Teil von Kommunikationen hat sich von Telefongesprächen und Nachrichten auf Papierbasis zu Textnachrichten in elektronischer Form, die elektronisch übertragen werden, wie E-Mails, verschoben. Textnachrichten in elektronischer Form werden auf Computeranzeigen und auf anderen elektrischen und elektronischen Anzeigen dargestellt. Die Verwendung des E-Mail-Verfahrens, um Textnachrichten zu erstellen und zu senden, ist populär, da es eine schnelle Lieferung an eine potentiell große Anzahl von Empfängern liefert, und sie durch einen Computer hergestellt werden können, zu dem viele Menschen Zugang haben. Zusätzlich können Textnachrichten leicht gespeichert und dann von ihren Empfängern gelesen werden, wenn es passend ist.
Beispiele von Textnachrichten umfassen E-Mail-Textnachrichten für die Anzeige auf Computern und SMS-Nachrichten (Kurznachrichtendienst) für das Anzeige auf Mobiltelefonen. Da eine digitale Konvergenz auftritt, ist es nun gebräuchlich geworden, dass Nachrichten, die von einem Typ einer sendenden elektronischen Vorrichtung gesendet werden, von einem anderen Typ einer elektronischen Vorrichtung empfangen werden. Beispielsweise können E-Mail-Textnachrichten, die von einem Computer gesendet werden, von Mobiltelefonen empfangen und angezeigt werden. In gleicher Weise können Mobiltelefone E-Mail-Textnachrichten an Computer oder andere Mobiltelefone übertragen.
Wenn solche Textnachrichten nur von Computer zu Computer gesandt werden, verursacht dies, sogar für relativ lange Textnachrichten, keine Probleme bei ihrem Lesen. Dies ergibt sich daraus, dass Computeranzeigen groß genug sind, um solche Textnachrichten bequem zu präsentieren, und da Computernutzer typischerweise stationär sind und fähig, ihre Aufmerksamkeit auf ihre Computeranzeigen zu richten. Es ist gebräuchlich geworden, dass Textnachrichten von mobilen Kommunikationsvorrichtungen, wie Mobiltelefonen, empfangen werden. Da diese Vorrichtungen gewöhnlicherweise Anzeigen aufweisen, die klein genug sind, damit die Vorrichtungen komfortabel von einem Benutzer getragen werden können, kann es für einen Benutzer schwierig sein, die empfangenen Textnachrichten komfortabel zu lesen, insbesondere wenn es eine große Menge Text gibt. Weiterhin kann es bei mobilen Kommunikationsvorrichtungen Probleme beim Lesen solcher Textnachrichten geben, beispielsweise wenn der Benutzer in einem Fahrzeug reist oder eine andere Aktivität ausführt, die es erfordert, dass der Blick des Benutzers woanders hin gerichtet ist.
Wegen dieser Schwierigkeiten beim Liefern von Textnachrichten sind Informationssysteme entwickelt worden, die verbale Nachrichten aufzeichnen können, oder die Text mittels Sprachsynthese in Sprache umwandeln können.
Bei der Sprachsynthese ist die Qualität der erzeugten Sprache von der Anzahl der Bytes, die in einem Sprachsynthesemuster (speech synthesis template), das die synthetisierte Sprache kennzeichnet, verwendet werden, stark abhängig. Eine Sprachsynthese guter Qualität kann eine große Menge von Daten für das Sprachsynthesemuster erfordern. Zusätzlich ist eine signifikante Menge von Rechenleistung erforderlich, um das Sprachsynthesemuster zu erzeugen. Solche Anforderungen sind mit Mobiltelefonen schwierig zu erfüllen. Darüber hinaus ist das Erzeugen des Sprachsynthesemusters eine Zeit in Anspruch nehmende Aufgabe, die für den Sprecher, dessen Sprache zu synthetisieren ist, vorzunehmen ist. Somit wird eine Vorrichtung gewöhnlicherweise nur ein Sprachsynthesemuster oder maximal einige wenige Sprachsynthesemuster des Sprechers enthalten, um synthetisierte Sprache zu erzeugen.
Die japanische Veröffentlichung 11-219278 beschreibt ein System, in welchem Benutzer eine virtuelle Anwesenheit in einem dreidimensionalen virtuellen Raum haben können. Wenn ein Benutzer wünscht, zu einem anderen Benutzer zu sprechen, wird die Sprache des Benutzers erkannt, in eine zeichenbasierte Nachricht umgewandelt, und dann wird die zeichenbasierte Nachricht übertragen. Beim Empfang wird die zeichenbasierte Nachricht in Sprache synthetisiert, und die synthetisierte Sprache wird dem anderen Benutzer abgespielt. Die Sprachsynthese wird durch das Anwenden einer Ton- und Lautstärkesteuerung, um eine virtuelle Distanz zwischen dem Sprecher und dem Hörer im virtuellen Raum zu simulieren, verbessert.
Die EP-A-0901000 bezieht sich auf eine Nachrichtenverarbeitungsvorrichtung, die konstruiert ist, um Textdaten zu erhalten und Textdaten unter Verwendung einer Sprachsynthetisiereinheit laut zu lesen. Die Vorrichtung speichert eine Vielzahl von Sprachtönen und weist einen Sprachton einer Nachricht und einen anderen Sprachton einer anderen Nachricht zu. Die jeweiligen Nachrichten können in den jeweiligen zugewiesenen Sprachtönen gelesen werden. Die Typen der Töne, die verwendet werden können, sind eine hohe männliche Stimme, eine tiefe männliche Stimme, eine hohe weibliche Stimme, eine tiefe weibliche Stimme und eine Kinderstimme. Andere Stimmen sind mögliche, wie eine Roboterstimme. In dem Fall, dass die Anzahl der Sender der Textnachrichten die Anzahl der Sprachtöne übersteigt, werden die Sprachtöne "wieder verwendet", beispielsweise werden fünf Sprachtöne den ersten fünf Textnachrichten zugewiesen und dann wieder für den Rest der Textnachrichten verwendet.
Gemäß einem ersten Aspekt der Erfindung, wie sie in den Ansprüchen 1-31 beansprucht ist, wird eine Kommunikationsvorrichtung vorgesehen, die umfasst:
einen Speicher für das Speichern eines Sprachsynthesemusters für das Synthetisieren von Sprache;
eine Nachrichtenhandhabungseinrichtung für das Senden einer Textnachricht zusammen mit einer Kennung, die die Quelle der Textnachricht identifiziert, an einen Empfänger der Textnachricht; und eine
Sprachsynthesemusterhandhabungseinrichtung für das Senden einer Kopie des Sprachsynthesemusters, so dass sie vom Empfänger der Textnachricht zugänglich ist.
Vorzugsweise kommuniziert die Kommunikationsvorrichtung mit einem Kommunikationsnetz. Sie kann mit anderen Kommunikationsvorrichtungen, wie dem Empfänger, über das Kommunikationsnetz kommunizieren.
Vorzugsweise umfasst die Kommunikationsvorrichtung einen Nachrichtenerzeugungseinrichtung für das Erzeugen der Textnachricht.
Vorzugsweise wird das Sprachsynthesemuster an den Empfänger der Textnachricht gesandt.
Vorzugsweise ist das Sprachsynthesemuster für einen bestimmten Benutzer der Kommunikationsvorrichtung spezifisch, um synthetisierte Sprache zu liefern, die wie die Sprache des bestimmten Benutzers klingt.
Vorzugsweise ist die Sprachsynthesemusterhandhabungseinrichtung ausgebildet, um die Kopie des Sprachsynthesemusters an den Empfänger der Textnachricht auf Anforderung zu senden. Dies kann als Folge einer Anforderung durch den Empfänger oder einer Anforderung durch das Netz erfolgen.
Vorzugsweise speichert die Kommunikationsvorrichtung eine Aufzeichnung der Sprachsynthesemuster, die gesendet wurden, und die Empfangsvorrichtungen, an die sie gesendet wurden. Die Kommunikationsvorrichtung kann eine Prüfeinrichtung umfassen, die beim Senden der Textnachricht prüft, ob das Sprachsynthesemuster schon an den Empfänger gesandt oder von ihm empfangen wurde. Wenn das Sprachsynthesemuster schon an den Empfänger gesandt oder von ihm empfangen wurde, kann die Sprachsynthesemusterhandhabungseinrichtung ausgelegt sein, das Sprachsynthesemuster zu senden. Dies kann automatisch beim Senden der Textnachricht geschehen.
Vorzugsweise weist die Kommunikationsvorrichtung einen Anforderungsempfänger für das Empfangen einer Sprachsynthesemustersendeanforderung auf, und die Sprachsynthesemusterhandhabungseinrichtung ist ausgebildet, um die Kopie des Sprachsynthesemusters an den Empfänger der Textnachricht in Erwiderung auf die Sprachsynthesemustersendeanforderung zu senden. Die Anforderung kann von einem Empfänger oder vom Kommunikationsnetz gesandt werden. Vorzugsweise ist der Empfänger ausgebildet, aus der Anforderung ein Ziel für das angeforderte Sprachsynthesemuster zu erkennen, und die Sprachsynthesemusterhandhabungseinrichtung ist ausgebildet, um das Sprachsynthesemuster an das erkannte Ziel zu senden.
Vorzugsweise ist die Kommunikationsvorrichtung eine mobile Vorrichtung. Alternativ ist die Kommunikationsvorrichtung ein Festnetz. Sie kann ein Mobiltelefon, ein PDA (persönlicher digitaler Assistent) oder ein mobiler, tragbarer Computer, wie ein Laptop-Computer oder ein Netzendgerät sein.
Gemäß einem zweiten Aspekt der Erfindung wird eine Kommunikationsvorrichtung vorgesehen, die umfasst:
einen Speicher für das Speichern eines Sprachsynthesemusters für das Synthetisieren von Sprache;
einen Nachrichtenempfänger für das Empfangen einer Textnachricht zusammen mit einer Kennung, die die Quelle der Textnachricht identifiziert; und
ein Sprachsynthesemusterempfänger für das Empfangen einer Kopie des Sprachsynthesemusters, das der Quelle der Textnachricht entspricht, für das künstliche Lesen der Textnachricht unter Verwendung der Kopie des empfangenen Sprachsynthesemuster.
Gemäß einem dritten Aspekt der Erfindung wird ein Kommunikationssystem geliefert, das eine Kommunikationsvorrichtung und ein Netz umfasst, wobei das Kommunikationssystem umfasst:
einen Speicher für das Speichern eines Sprachsynthesemusters für das Synthetisieren von Sprache;
eine Nachrichtenhandhabungseinrichtung für das Senden einer Textnachricht zusammen mit einer Kennung, die die Quelle der Textnachricht identifiziert, an den Empfänger der Textnachricht; und
eine Sprachsynthesemusterhandhabungseinrichtung für das Senden einer Kopie eines Sprachsynthesemusters an den Empfänger der Textnachricht.
Vorzugsweise umfasst das Netz eine Datenbank für das Speichern einer Vielzahl von Sprachsynthesemustern. Die Datenbank kann Kennungen speichern, die dem Sprachsynthesemuster entsprechen. Die Sprachsynthesemuster können von Kommunikationsvorrichtungen empfangen worden sein. Vorzugsweise umfasst das Netz eine Sprachsynthesemusterhandhabungseinrichtung für das Senden der Kopie des Sprachsynthesemusters an die Kommunikationsvorrichtung. Dies kann in Erwiderung auf eine Anforderung nach dem Sprachsynthesemuster erfolgen, oder es kann auf die Initiative des Netzes oder eines Servers erfolgen.
Gemäß einem vierten Aspekt der Erfindung wird ein Sprachsynthesemusterserver für das Speichern einer Vielzahl von Sprachsynthesemustern in einem Kommunikationsnetz bereitgestellt, wobei der Server umfasst:
einen Speicher für das Speichern von Sprachsynthesemustern für das Synthetisieren von Sprache;
einen Speicher für das Speichern von Kennungen, die die Quelle der Sprachsynthesemuster identifizieren; und
eine Sprachsynthesemusterhandhabungseinrichtung für das Senden einer Kopie eines Sprachsynthesemusters an eine Kommunikationsvorrichtung.
Vorzugsweise umfasst der Server eine Datenbank für das Speichern der Vielzahl von Sprachsynthesemustern. Die Sprachsynthesemuster können von Kommunikationsvorrichtungen empfangen worden sein. Das Senden der Kopie des Sprachsynthesemusters kann in Erwiderung auf eine Anforderung für das Sprachsynthesemuster oder auf Initiative des Netzes oder eines Servers erfolgen.
Vorzugsweise ist die Kommunikationsvorrichtung der Empfänger der Textnachricht, die von einer Partei empfangen wurde, die die Quelle eines speziellen Sprachsynthesemusters ist.
Gemäß einem fünften Aspekt der Erfindung wird ein Verfahren für das Umwandeln einer Textnachricht in synthetisierte Sprache vorgesehen, wobei das Verfahren folgende Schritte umfasst:
Speichern eines Sprachsynthesemusters für das Synthetisieren von Sprache;
Senden einer Textnachricht zusammen mit einer Kennung, die die Quelle der Textnachricht identifiziert, an einen Empfänger der Textnachricht; und
Senden einer Kopie des Sprachsynthesemusters an den Empfänger der Textnachricht.
Gemäß einem sechsten Aspekt der Erfindung wird ein Verfahren zum Umwandeln einer Textnachricht in synthetisierte Sprache vorgesehen, wobei das Verfahren folgende Schritte umfasst:
Speichern eines Sprachsynthesemusters für das Synthetisieren von Sprache;
Empfangen einer Textnachricht zusammen mit einer Kennung, die die Quelle der Textnachricht identifiziert;
Empfangen einer Kopie des Sprachsynthesemusters, das der Quelle der Textnachricht entspricht; und
Künstliches Lesen der Textnachricht unter Verwendung der Kopie des empfangenen Sprachsynthesemusters.
Gemäß einem siebten Aspekt der Erfindung wird ein Verfahren für das Handhaben einer Vielzahl von Sprachsynthesemustern vorgesehen, wobei das Verfahren die folgenden Schritte umfasst:
Empfangen einer Textnachricht zusammen mit einer Kennung, die die Quelle der Textnachricht einem Empfänger der Textnachricht identifiziert;
Empfangen eines Sprachsynthesemusters für das Synthetisieren von Sprache; und
Senden einer Kopie des Sprachsynthesemusters an den Empfänger der Textnachricht.
Vorzugsweise umfasst das Verfahren den Schritt des Speicherns des Sprachsynthesemusters. Das Sprachsynthesemuster kann im Netz gespeichert werden. Es kann in einem Server gespeichert werden. Es kann in einem Server gemäß dem dritten Aspekt der Erfindung gespeichert werden.
Vorzugsweise umfasst das Verfahren den Schritt des Speicherns von Kennungen, die den Sprachsynthesemustern entsprechen. Vorzugsweise können die Sprachsynthesemuster von Kommunikationsvorrichtungen empfangen worden sein. Das Senden von Kopien der Sprachsynthesemuster kann in Erwiderung auf eine Nachfrage nach ihnen durch Kommunikationsvorrichtungen oder ein Netz erfolgen.
Gemäß einem achten Aspekt der Erfindung wird ein Verfahren für das Handhaben einer Vielzahl von Sprachsynthesemustern vorgesehen, wobei das Verfahren die folgenden Schritte umfasst:
Speichern einer Vielzahl von Sprachsynthesemustern für das Synthetisieren von Sprache;
Speichern von Kennungen, die die Quellen der Sprachsynthesemuster identifizieren;
Empfangen einer Kennung; und
Senden einer Kopie eines Sprachsynthesemusters, das der Kennung entspricht, an den Empfänger einer Textnachricht.
Gemäß einem neunten Aspekt der Erfindung wird ein Verfahren für das Umwandeln einer Textnachricht in synthetisierte Sprache vorgesehen, wobei es folgende Schritte umfasst:
Verknüpfen eines ersten Sprachsynthesemusters für das Synthetisieren von Sprache, das einen ersten Satz von Spracheigenschaften aufweist, mit Textnachrichten, die von eine ersten spezifizierten Quelle stammen;
Verknüpfen eines zweiten Sprachsynthesemusters für das Synthetisieren von Sprache, das einen zweiten Satz von Spracheigenschaften aufweist, mit Textnachrichten, die von einer zweiten spezifizierten Quelle stammen, wobei der erste Satz von Spracheigenschaften vom zweiten Satz von Spracheigenschaften unterschieden werden kann;
Empfangen einer Textnachricht;
Prüfen der Quelle, von wo die Textnachricht stammt; und Synthetisieren von Sprache gemäß dem ersten Sprachsynthesemuster oder dem zweiten Sprachsynthesemuster in Abhängigkeit von der Quelle, von der die Textnachricht stammt.
Vorzugsweise identifizierten die spezifizierten Quellen bestimmte Individuen. Alternativ identifizieren die Spezifizierten Quellen Gruppen von Individuen. In seiner grundsätzlichsten Form können die Gruppen männliche und weibliche Sender von Textnachrichten sein.
Vorzugsweise ist die Sprache, die aus dem zweiten Satz von Spracheigenschaften synthetisiert wurde, von der Sprache, die aus dem ersten Satz von Spracheigenschaften synthetisiert wurde, durch einen menschlichen Zuhörer, der der synthetisierten Sprache zuhört, unterscheidbar.
Vorzugsweise wird das erste und/oder das zweite Sprachsynthesemuster von einem Netz zu einer mobilen Kommunikationsvorrichtung übertragen. Vorzugsweise speichert die mobile Kommunikationsvorrichtung mindestens ein Sprachsynthesemuster, das an sie übertragen wird.
Bei der Funkkommunikation ist die Kanalbandbreite begrenzt und so ist es nicht praktikabel, Sprachsynthesemuster mit elektronischen Textnachrichten zu übertragen. Da jedoch Empfänger oft elektronische Textnachrichten wieder und wieder von denselben Leuten empfangen, kann es für eine empfangende Kommunikationsvorrichtung (die nachfolgend als eine "Empfängervorrichtung" bezeichnet wird) wünschenswert sein, Zugang zu Sprachsynthesemustern zu haben (und diese vorzugsweise enthalten), die für das Synthetisieren der Sprache von Benutzern verwendet werden, die regelmäßig Textnachrichten senden. Auf diese Weise ist es nicht immer notwendig, Sprachsynthesemuster für gewisse Sprecher zu senden, da es sein kann, dass sie schon in einer Vorrichtung gespeichert sind. Weiterhin kann es sein, dass es nur notwendig ist, Sprachsynthesemuster zu senden, wenn sie wirklich benötigt werden, das heißt, wenn sie nicht schon gehalten werden. Dies ist möglich, wenn das Liefersystem, wie beispielsweise ein Telekommunikationsnetz, Fälle berücksichtigt, bei denen sich eine Kopie des Sprachsynthesemusters schon in der Empfängervorrichtung befindet oder innerhalb des Netzes zugänglich ist, und in diesen Fällen das Sprachsynthesemuster nicht sendet. Dies kann in der Mehrzahl der Fälle gelten.
In einem anderen Verfahren gemäß der Erfindung wird mindestens ein Sprachsynthesemuster im Netz gespeichert, und eine Sprachsynthese durch dieses Sprachsynthesemuster wird im Netz ausgeführt, und die sich ergebende synthetisierte Sprache (oder ein Kode, um eine solche synthetisierte Sprache zu ermöglichen) wird an die Kommunikationsvorrichtung übertragen. Auf diese Weise ist es nicht notwendig, dass an eine Empfängervorrichtung Sprachsynthesemuster gesandt und dort gespeichert werden.
Gemäß einem zehnten Aspekt der Erfindung wird eine Kommurikationsvorrichtung für das Umwandeln einer empfangenen Textnachricht in synthetisierte Sprache geliefert, wobei sie einen Speicher für das Speichern eines ersten Sprachsynthesemusters für das Synthetisieren von Sprache, die einen ersten Satz von Spracheigenschaften aufweist, und eines zweiten Sprachsynthesemusters für das Synthetisieren von Sprache, die einen zweiten Satz von Spracheigenschaften aufweist, umfasst, wobei das erste Sprachsynthesemuster mit einer ersten spezifizierten Quelle verknüpft ist, und wobei das zweite Sprachsynthesemuster mit einer zweiten spezifizierten Quelle verknüpft ist, wobei der erste Satz von Spracheigenschaften vom zweiten Satz von Spracheigenschaften unterscheidbar ist, eine Identifikationseinheit für das Prüfen der Quelle, von der die empfangende Textnachricht herkommt, und Sprachsynthesemittel für das Synthetisieren von Sprache gemäß dem ersten Sprachsynthesemuster oder dem zweitem Sprachsynthesemuster in Abhängigkeit von der Quelle, von der die empfangene Textnachricht herkommt.
Vorzugsweise wird das identifizierte Sprachsynthesemuster verwendet, um synthetisierte Sprache gemäß der Textnachricht zu erzeugen.
Vorzugsweise ist die Kommunikationsvorrichtung eine mobile Kommunikationsvorrichtung. Alternativ basiert die Kommunikationsvorrichtung auf einem Netz. In einer Ausführungsform, bei der sich die Erfindung auf ein drahtloses Kommunikationssystem bezieht, bedeutet dies, dass die Kommunikationsvorrichtung sich auf der Netzseite einer Funkschnittstelle befindet, über die die Kommunikationsvorrichtung und ein Kommunikationsnetz kommunizieren.
Gemäß einem elften Aspekt der Erfindung wird ein Kommunikationssystem vorgesehen, das ein Netz und eine Kommunikationsvorrichtung gemäß dem zehnten Aspekt der Erfindung umfasst.
Gemäß einem zwölften Aspekt der Erfindung wird ein Computerprogrammprodukt vorgesehen, das Computerprogrammkodemittel für das Ausführen irgend eines der Verfahren der Aspekte fünf bis neun auf einem Computer umfasst.
Die Erfindung erkennt, dass es in der Zukunft wünschenswert sein kann, Textnachrichten in elektronischer Form zu handhaben und den Inhalt solcher Textnachrichten in synthetisierter Sprache statt in Textform zu präsentieren. Es kann insbesondere wünschenswert sein, Sprache zu synthetisieren, die ein Sprachsynthesemuster verwendet, das gemäß der Sprache eines Benutzer, der die Textnachricht sendet, hergestellt wird, typischerweise durch die Verwendung einer sendenden Kommunikationsvorrichtung (die nachfolgend als eine "Sendevorrichtung" bezeichnet wird), so dass die synthetisierte Sprache wie die Stimme des Benutzers, der die Textnachricht sendet, klingt.
Andere Aspekte der Erfindung sind Computerprogramme, die lesbaren Computerkode umfassen, für das Ausführen der Schritte jedes der Verfahren gemäß den Aspekten der Erfindung. Jedes der so definierten Computerprogramme kann auf einem Datenträger, wie einer Diskette, einer CD oder in Hardware gespeichert werden.
Die Erfindung wird nur beispielhaft unter Bezug auf die begleitenden Zeichnungen beschrieben:
1 zeigt eine Ausführungsform eines Kommunikationssystems gemäß der Erfindung;
2 zeigt ein Flussdiagramm eines ersten Verfahrens der Erfindung;
3 zeigt ein Flussdiagramm eines zweiten Verfahrens der Erfindung;
4 zeigt ein Flussdiagramm eines dritten Verfahrens der Erfindung;
5 zeigt ein Flussdiagramm eines vierten Verfahrens der Erfindung;
6 zeigt die Synchronisation von Sprachsynthesemustern; und
7 zeigt eine andere Ausführungsform eines Kommunikationssystems gemäß der Erfindung.
Eine Ausführungsform eines Kommunikationssystems gemäß der Erfindung ist in 1 gezeigt. Das System umfasst drei Haupteinheiten: ein mobiles Telekommunikationsnetz 130, eine Sendevorrichtung 110 und eine Empfängervorrichtung 120. Die Sendevorrichtung und die Empfängervorrichtung sind mit dem mobilen Telekommunikationsnetz 130 verbunden. Es sind identische Vorrichtungen und es können mobile Kommunikationsvorrichtungen, wie Mobiltelefone sein. Jede Vorrichtung umfasst eine zentrale Verarbeitungseinheit 124, die einen ersten Speicher 111, einen zweiten Speicher 112 und einen dritten Speicher 113 steuert, und die weiter einen Funkfrequenzblock 115 steuert, der mit einer Antenne 116 verbunden ist. Die Speicher 111, 112 und 113 sind vorzugsweise so ausgebildet, dass sie ihre Inhalte behalten, wenn die Leistung der Vorrichtung abgeschaltet wird. In der bevorzugten Ausführungsform sind die Speicher in den Vorrichtungen Halbleiterspeicher, wie Flash-RAM-Speicher, die keine beweglichen Teile aufweisen. Die Sendevorrichtung 110 und die Empfängervorrichtung 120 kommunizieren mit dem mobilen Telekommunikationsnetz 130 über Funkkanäle.
Das mobile Telekommunikationsnetz 130 umfasst eine Datenbank 132, die eine Vielzahl von Datensätzen 133, 134, 135 und 136 für das Speichern von Sprachsynthesemustern für eine Vielzahl von Netzbenutzern umfasst. Die Datenbank wird durch eine Verarbeitungseinheit 131 gesteuert, die Zugang zu jedem der Datensätze 133, 134, 135 und 136 besitzt. Die Datenbank ist vorzugsweise auf einem Massenspeicher, wie einer Festplatte oder einem Satz von Festplatten, gespeichert. In der Kombination sind die Datenbank 132 und die Verarbeitungseinheit 131 Teil eines Sprachsynthesemusterservers 137.
Es wird nun die Funktion des Kommunikationssystems beschrieben. Wenn ein Benutzer einer Empfängervorrichtung eine Textnachricht empfängt, wird für die Textnachricht eine Auswahl präsentiert, dass sie entweder visuell zur Anzeige kommt oder hörbar gelesen wird, so dass der Benutzer den Inhalt der Textnachricht hören kann. Natürlich kann der Benutzer wählen, sowohl eine visuelle Anzeige als auch eine hörbare Präsentation zu erhalten, obwohl gewöhnlicherweise nur eine Form der Präsentation benötigt wird. Ein Standardverfahren der visuellen Anzeige wird bevorzugt. Wenn der Benutzer die hörbare Präsentation wählt, prüft die Empfängervorrichtung die Identität des Senders der Textnachricht und verwendet dann ein Sprachsynthesemuster, das mit dem Sender verknüpft ist, um den Inhalt der Textnachricht in einer hörbaren Form zu liefern, die der Sprache des Senders entspricht. Wenn sich das Sprachsynthesemuster nicht in der Empfängervorrichtung befindet, erhält die Empfängervorrichtung es entweder vom Netz oder von der sendenden Vorrichtung über das Netz. Auf diese Weise kann der Benutzer den Textnachrichten in Sprachen lauschen, die den Sendern der Textnachrichten entsprechen. Ein Vorteil davon ist, dass der Benutzer zwischen Textnachrichten unterscheiden kann, in Abhängigkeit von der Stimmen, mit denen sie gelesen werden, oder er sogar den Sender einer Textnachricht identifizieren kann, in Abhängigkeit von der Stimme, in der sie gelesen wird.
Wenn eine sendende Vorrichtung 110 zuerst eine Textnachricht an das Netz 130 sendet, muss das Netz ein Sprachsynthesemuster, das für diese Sendevorrichtung 110 passend ist, empfangen. Dies ist ein Sprachsynthesemuster, um eine Sprache zu erzeugen, die wie der Benutzer oder einer der Benutzer der Sendevorrichtung klingt. Das Sprachsynthesemuster wird somit (i) mit der Textnachricht, (ii) zu einem späteren Zeitpunkt, der von der Sendevorrichtung 110 bestimmt wird, oder (iii) als Folge des Netzes 130, das dies anfordert (zu einer Zeit, zu der die Textnachricht vom Netz 130 empfangen wird, oder zu einem späteren Zeitpunkt) gesandt. Die Sprachsynthesemuster werden (i) durch das Netz gespeichert, (ii) durch die Empfängervorrichtungen gespeichert oder (iii) durch das Netz und die Empfängervorrichtungen gespeichert. Die Umstände, unter denen die Sprachsynthesemuster gesendet werden, hängen davon ab, welches der folgenden Verfahren der Erfindung verwendet wird. Es ist wichtig, zu verstehen, dass die folgenden Verfahren sich auf Situationen beziehen, bei denen einige Sprachsynthesemuster schon durch die Sendevorrichtungen 110 gesendet, vom Netz 130 empfangen und dann gespeichert wurden.
Es wird nun ein erstes Verfahren zur Handhabung von Sprachsynthesemustern beschrieben. Die Sendevorrichtung 110 unterhält eine Liste von Empfängervorrichtungen 120, an die ihr Sprachsynthesemuster gesandt worden ist. Tatsächlich kann die Sendevorrichtung ein primäres Sprachsynthesemuster und ein sekundäres oder verknüpftes Sprachsynthesemuster aufweisen. Wenn die Sendevorrichtung 110 eine neue Textnachricht an eine spezielle Empfängervorrichtung 120 sendet, so prüft sie, ob die Liste zeigt, dass die Empfängervorrichtung 120 schon das Sprachsynthesemuster empfangen hat. Wenn das Sprachsynthesemuster schon gesandt wurde, so wird nur die Textnachricht gesandt. Wenn das Sprachsynthesemuster noch nicht gesendet wurde, so wird eine Kopie des Sprachsynthesemusters an die Textnachricht angehängt und mit ihr gesandt. Wenn die Empfängervorrichtung 120 das Sprachsynthesemuster, das an die Textnachricht angefügt ist, empfängt, speichert die Empfängervorrichtung 120 dieses in einem Sprachsynthesemusterspeicher. Der Sprachsynthesemusterspeicher kann von jeder geeigneten Art sein, wie ein Massenspeicher, ein Flash-ROM, ein RAM oder eine Platte/Diskette. Wenn die Empfängervorrichtung 120 ein Sprachsynthesemuster zu haben scheint, aber dies in Wirklichkeit nicht der Fall ist, so kann die Empfängervorrichtung spezifisch anfordern, dass es gesandt wird. Die Art, wie ein Sprachsynthesemuster angefordert werden kann, wird nachfolgend beschrieben.
Das erste Verfahren ist in 2 gezeigt.
In einem zweiten Verfahren zur Handhabung von Sprachsynthesemustern sendet die Sendevorrichtung 110 keine Sprachsynthesemuster mit einer Textnachricht beim anfänglichen Senden der Textnachricht. Beim Empfangen einer Textnachricht, die eine passende Kennung der Sendevorrichtung 110 einschließt, prüft die Empfängervorrichtung 120, um zu sehen, ob ein passendes Sprachsynthesemuster für diese Sendevorrichtung 110 schon in ihrem Speicher gespeichert worden ist. Wenn ein solches Sprachsynthesemuster nicht gespeichert wurde, fordert die Empfängervorrichtung 120, dass eine Kopie des Sprachsynthesemusters gesendet wird. Ein Umstand, bei dem das Sprachsynthesemuster nicht länger gespeichert ist, ist der, wenn die Sprachsynthesemuster in einem Sprachsynthesemusterspeicher (eine Art von Cache-Speicher) gespeichert sind. Wenn neue Sprachsynthesemuster im Speicher gespeichert werden, werden alte Sprachsynthesemuster, die schon im Speicher gespeichert sind, gelöscht, um Platz für die neuen zu machen. Alternativ können die am wenigsten verwendeten Sprachsynthesemuster statt die ältesten Muster gelöscht werden. Eine oder mehrere alte oder wenig verwendete Sprachsynthesemuster können zu einer Zeit gelöscht werden. Alternativ oder zusätzlich können Sprachsynthesemuster mit ihnen verbunden eine Lebensdauer aufweisen, und sie können gelöscht werden, wenn die Lebensdauer abläuft. Dieses Sprachsynthesemusterverwaltungssystem kann auf das erste oder jedes der nachfolgenden Verfahren angewandt werden.
In diesem Verfahren wird ein Protokoll geliefert, um es zu ermöglichen, dass eine Sendevorrichtung 110 für die Empfängervorrichtung 120 identifiziert wird und um es der Empfängervorrichtung 120 zu ermöglichen, das Sprachsynthesemuster der Sendevorrichtung anzufordern und es von der Empfangsvorrichtung herab zu laden.
Das zweite Verfahren ist in 3 gezeigt.
In einem dritten Verfahren für das Handhaben von Sprachsynthesemustern ist die Funktion ähnlich dem zweiten Verfahren. Sprachsynthesemuster werden jedoch statt nur in den Sende- und Empfängervorrichtungen gespeichert zu werden, auf dem Sprachsynthesemusterserver 137 gespeichert. Sprachsynthesemuster werden vom Sprachsyntheseserver von einer Empfängervorrichtung 120 angefordert statt dass sie von einer Sendevorrichtung 110 angefordert werden. Um die Datenbank im Sprachsynthesemusterserver aufrecht zu halten, gibt es mehrere Optionen. Das Netz 130 kann ein Sprachsynthesemuster in Bezug auf die erste Textnachricht, die von einer Sendevorrichtung 110 gesandt wird, anfordern. Alternativ kann der Sprachsynthesemusterserver 137 das Sprachsynthesemuster (auf Anforderung) anfordern, so dass, wenn das Sprachsynthesemuster das erste Mal von einer Empfangsvorrichtung 120 angefordert wird, der Sprachsynthesemusterserver 137 weiter das passende Sprachsynthesemuster von der Sendevorrichtung 110 anfordert, die eine geeignete Kopie sendet. Der Sprachsynthesemusterserver 137 empfängt die Kopie, speichert seine eigene Kopie in seinem Speicher für eine zukünftige Verwendung und sendet dann eine Kopie an die Empfängervorrichtung 120. Auf diese Weise muss die Sendevorrichtung 110 das Sprachsynthesemuster nicht mehr als einmal übertragen. Weiterhin kann das Synthesemuster, wenn es im Sprachsynthesemusterserver 137 gespeichert wurde, in einem oder mehreren verdrahteten oder mobilen Netzen, beispielsweise dem Internet, übertragen werden.
Das Netz 130 kann Anforderungen an Sendevorrichtungen 110 nach Sprachsynthesemustern abfangen und solche Muster, wenn es sie schon hat, liefern. Wenn es sie noch nicht hat, kann es ermöglichen, dass die Anforderungen an die Sendevorrichtungen 110 weiterlaufen.
Das dritte Verfahren ist in 4 gezeigt.
In einem vierten Verfahren zur Handhabung von Sprachsynthesemustern müssen die Sprachsynthesemuster überhaupt nicht an die Empfängervorrichtungen 120 übertragen werden. In diesem Verfahren werden Sprachsynthesemuster an das Netz 130 von den Sendevorrichtungen 110 übertragen und dann im Netz 130 gespeichert. Bei der Anforderung, dass eine Textnachricht in Form synthetisierter Sprache präsentiert werden soll, wird die notwendige Sprachsynthese im Netz 130 ausgeführt, und die synthetisierte Sprache wird vom Netz an den Empfänger in geeignet kodierter Form übertragen. Die Sprachsynthesemuster können an das Netz 130 beim Übertragen einer Textnachricht übertragen werden, oder auf die Initiative der Sendevorrichtung 110 oder des Netzes 130, wie das vorangehend beschrieben wurde.
Das vierte Verfahren ist in 5 gezeigt.
In ihren ersten und zweiten Verfahren kann die Erfindung durch Software implementiert werden, die durch die Sende- und Empfängervorrichtungen ausgeführt wird, die eine Sprachsyntheseanwendung in der Sendevorrichtung 110 steuert. Diese Anwendung verwaltet ein eigenes Sprachsynthesemuster der Kommunikationsvorrichtung und Sprachsynthesemuster, die von anderen Kommunikationsvorrichtungen empfangen und gespeichert wurden. Die Empfängervorrichtung 120 umfasst eine entsprechende Sprachsyntheseanwendung. Im dritten Verfahren weist der Sprachsynthesemusterserver 137 die passende Hardware im Netz 130 auf, um die Sprachsynthesemuster zu puffern. Dies kann entweder im Netz 130 oder innerhalb eines Servers, der mit einem festen Telekommunikationsnetz oder mit einem Kommunikationsnetz, wie dem Internet verbunden ist, erfolgen. Im vierten Verfahren befinden sich die gesamten Funktionen, die die Sprachsynthesemuster und die Sprachsynthese betreffen, im Netz. Die Kommunikationsvorrichtungen müssen nur die Fähigkeit haben, Textnachrichten zu senden und zu empfangen und eine synthetisierte Präsentation von Textnachrichten anzufordern.
Das dritte Verfahren wird gegenüber den ersten und zweiten Verfahren bevorzugt, da es die Menge der Daten, die übertragen werden müssen, minimiert. Andererseits erfordern die ersten und zweiten Verfahren nicht, dass Sprachsynthesemuster im Netz 130 gespeichert werden, und sie können von Leuten bevorzugt werden, die es bevorzugen, dass ihre Sprachsynthesemuster der Öffentlichkeit nicht zugänglich sind. Es ist jedoch in diesen Fällen möglich, einen Verschlüsselungsschutz zu bieten, wie das nachfolgend beschrieben wird. Die ersten und zweiten Verfahren benötigen keine andere Unterstützung vom Netz 130 als das Weitergeben der Sprachzsynthesemuster. Das vierte Verfahren ermöglicht das Empfangen gesprochener Nachrichten, sogar mit Vorrichtungen, die keine Sprachsynthesemuster empfangen können.
Bei solchen Verfahren, bei denen die Sprachsynthesemuster an die Kommunikationsvorrichtungen übertragen werden, sollte verständlich sein, dass dies nicht zu der Zeit erfolgen muss, zu der die Textnachricht übertragen wird oder dem Benutzer der Empfängervorrichtung 120 präsentiert wird. Zu Beginn könnte eine Textnachricht unter Verwendung eines Standardsprachsynthesemusters, vielleicht: das Sprachsynthesemuster des Benutzers der Empfängervorrichtung 120, ausgelesen werden, und ein neues Sprachsynthesemuster könnte zu einer passenderen Zeit, beispielsweise einer verkehrsärmeren Zeit, empfangen werden, um Bandbreite zu sparen. Die Empfängervorrichtung 120 kann automatisch das neue Sprachsynthesemuster zu einer passenden Zeit, beispielsweise wenn die Empfängervorrichtung 120 nicht verwendet wird, abrufen. Alternativ kann die Empfängervorrichtung 120 eine Lieferung zu verkehrsarmer Zeit vom Netz 130 anfordern, so dass das Netz 130 das angeforderte Sprachsynthesemuster bei eigener Gelegenheit sendet. Das Sprachsynthesemuster kann beim Senden segmentiert und beim Empfang wieder zusammengefügt werden.
In allen vorangehenden Ausführungsformen kann eine Verteilung von Sprachsynthesemustern als Ergebnis eines Synchronisationsvorgangs erfolgen. Die Vorrichtungen 110 und 120 können sich zeitweise nicht in Verbindung mit dem Netz 130 befinden, beispielsweise können sie abgeschaltet oder in einen Offline-Betriebsmodus versetzt werden. Wenn die Kommunikation wieder errichtet wird, so kann es wünschenswert sein, Daten, die in den Vorrichtungen vorgehalten werden, mit Daten, die im Netz 130 vorgehalten werden, zu synchronisieren.
Wenn die Synchronisation gestartet wird, beispielsweise wenn Kalenderereignisse synchronisiert werden, so können zur gleichen Zeit Vorrichtungen, die mit dem Netz 130 verbunden sind, vom Sprachsynthesemusterserver 137 neue Muster anfordern. Dies kann geschehen, wenn bemerkt wird, dass irgendwelche der Vorrichtungen Nachrichten vorhalten, die beispielsweise gerade von einer Sendevorrichtung oder Sendevorrichtungen empfangen wurden, für die ein Muster nicht vorgehalten wird. Eine solche Synchronisation kann unter Verwendung einer Synchronisationsauszeichnungssprache (Synchronisation Marku-up Language, SyncML) erfolgen, wie das Fachleute verstehen werden. Die Sprachsynthesemuster können aus der "Bibliothek" der Sprachsynthesemuster des dritten Aspekts der Erfindung genommen werden.
Die Muster können aus jeder Synchronisationsquelle, die dem Benutzer verfügbar ist, herabgeladen werden, beispielsweise unter Verwendung einer lokalen Verbindung (wie festverdrahtet, Funkfrequenz niedriger Leistung, Infrarot, Bluetooth, WLAN) mit dem Benutzer-PC. Auf diese Weise werden teuere und zeitverbrauchende Herabladevorgänge über Funk vermieden.
6 zeigt eine Synchronisation von Sprachsynthesemustern gemäß der Erfindung. Eine Empfängervorrichtung empfängt Textnachrichten, wie E-Mails, über Funk. Nachfolgend wird die Vorrichtung in einen Schreibtisch gestöpselt, der eine drahtgebundene Verbindung zum PC des Benutzers aufweist. Als Teil einer normalen Datensynchronisation, beispielsweise dem Aktualisieren von Kalenderdaten aus einem Bürokalender, empfängt die Empfängervorrichtung solche Sprachsynthesemuster, die sie benötigt, um die neu empfangenen Textnachrichten in Sprache zu synthetisieren.
Wenn die Empfängervorrichtung eine Synchronisation von einem Synchronisationsserver anfordert, so sendet sie in der Anforderung Daten, die solche Sprachsynthesemuster betreffen, die sie benötigt. Die benötigten Sprachsynthesemuster werden durch das Vergleichen der neu empfangenen E-Mails, die in der Empfängervorrichtung enthalten sind, mit den Sprachsynthesemustern, die von der Empfängervorrichtung vorgehalten werden, bestimmt. Der Synchronisationsserver verarbeitet die Anforderung von der Empfängervorrichtung und liefert die Sprachsynthesemuster entweder aus seinem eigenen Speicher oder einem externen Server.
Zusätzlich zum Hinzufügen von Sprachsynthesemustern kann die Synchronisation das Entfernen von einem oder mehreren Mustern umfassen, um einigen Speicher der Vorrichtung, die synchronisiert wird, frei zu machen. Die Bestimmung, welche Sprachsynthesemuster benötigt werden, wird durch die Empfängervorrichtung im Verfahren der Bestimmung des Synchronisationsdatensatzes ausgeführt. Die Empfängervorrichtung kann intelligent über den zu synchronisierenden Datensatz auf der Basis der Relevanz der zu synchronisierenden Daten entscheiden. Die Relevanz eines speziellen Sprachsynthesemusters würde beispielsweise durch die Anzahl der E-Mails, die von der Person empfangen wurden, deren Sprache das Sprachsynthesemuster darstellt, bestimmt werden. 7 zeigt ein Kommunikationssystem für das Handhaben von Sprachsynthesemustern. Es liefert einen Weg für das Erwerben von Sprachsynthesemustern und ihre Speicherung auf einem Sprachsynthesemusterserver.
6 hat mit 1 gemeinsame Merkmale, und es wurden entsprechende Bezugszahlen für die Merkmale verwandt, die beiden Systemen gemeinsam sind. Die Sprachsynthesemuster werden im Sprachsynthesemusterserver 137 gespeichert. Statt dass sie nur von der Sendevorrichtung 110 empfangen werden, werden sie von Erzeugungseinheiten 160 für Sprachsynthesemuster über ein Netz 158, beispielsweise ein Intranet oder das Internet, erhalten.
Die Erzeugungseinheiten 160 für die Sprachsynthesemuster sind Netzendgeräte, die mit einer Erzeugungssoftware für Sprachsynthesemuster ausgerüstet sind. Diese Einheiten können Personalcomputer umfassen. Eine einzelne Einheit 160 umfasst eine Audioaufnahmeausrüstung 160 für eine Audioaufnahme. Die Audioaufnahmeausrüstung besitzt ein Mikrofon und einen zugehörigen Analog-Digital-Wandler für das Digitalisieren der aufgenommenen Sprache. Digitalisierte aufgenommene Sprache wird auf einem Festplattenlaufwerk 162 gespeichert. Die Erzeugungssoftware 165 für Sprachsynthesemuster erzeugt ein Sprachsynthesemuster durch das Analysieren der digitalisierten aufgenommenen Sprache, die auf dem Festplattenlaufwerk 162 gespeichert ist. Die Software 165 kann auch auf dem Festplattenlaufwerk 162 gespeichert sein.
Die Einheit 160 umfasst auch einen Netzadapter 163, um eine Verbindung der Einheit 160 mit dem Netz zu ermöglichen, und eine Benutzerschnittstelle 164. Die Benutzerschnittstelle 164 erlaubt einem Benutzer, Zugang zur Software 165 und ermöglicht es ihm, diese zu betreiben.
Es wird nun die Funktion des Kommunikationssystems beschrieben. Typischerweise ist das Netzendgerät 160 ein Personalcomputer des Benutzers. Wenn ein Benutzer wünscht, sein Sprachsynthesemuster allgemein zugänglich zu machen (so dass es von Empfängern von Textnachrichten von ihm erhalten werden kann), aktiviert der Benutzer die Software 165 und folgt den verschiedenen erforderlichen Sprech- und Lehrübungen. Diese umfassen gewöhnlicherweise die Wiederholung von Tönen, Worten und Sätzen. Wenn ein Sprachsynthesemuster erzeugt worden ist, so kann der Benutzer dieses zum Sprachsynthesemusterserver 137 senden. Dieser Server befindet sich typischerweise unter der Steuerung des Betreibers des Netzes 130.
Alternativ wird das Netzendgerät 160 von einem Dienstanbieter geliefert und befindet sich unter dessen Steuerung. In diesem Fall kann der Benutzer ein Sprachsynthesemuster erzeugen, wenn es passend oder notwendig ist. Eine passende Zeit, um ein Sprachsynthesemuster zu erzeugen, ist beispielsweise die Errichtung einer neuen Verbindung zum Netz 130, beispielsweise beim Kauf eines Mobiltelefons.
Wenn der Server 137 Sprachsynthesemuster enthält, so können sie von Empfänger von Textnachrichten erhalten werden, die ein entsprechendes Sprachsynthesemuster anfordern, so dass die Textnachricht ausgelesen werden kann. Jedes Mal, wenn der Server 137 verwendet wird, um ein Sprachsynthesemuster zu liefern, kann eine Gebühr bei der Partei, die das Sprachsynthesemuster anfordert, erhoben werden.
Es wird erkennbar, dass ein gemeinsamer Zweck aller Verfahren darin besteht, die Sprachsynthesemuster nur dann zu senden, wenn dies notwendig ist, beispielsweise auf die Initiative des Netzes 130 hin oder in Erwiderung auf eine Anforderung von einer Kommunikationsvorrichtung.
Es wird nun ein passender Weg zur Erzeugung von Sprachsynthesemustern beschrieben. Dies umfasst, dass die spezifischen Eigenschaften der zu synthetisierten Sprache den Sprachsynthesemustern beigebracht werden, so dass sie wiedergegeben werden kann.
In einer Ausführungsform erzeugen die Kommunikationsvorrichtungen Textnachrichten durch eine Spracherkennung. Um Speicherplatz zu sparen, weist eine Kommunikationsvorrichtung ein kombiniertes Spracherkennungs/Synthese-Anwendungsprogramm auf. Dieses Anwendungsprogramm kann die Sprache erkennen und sie in Text umwandeln. Obwohl eine Spracherkennung schon aus dem Stand der Technik bekannt ist (die die Verwendung von entweder vom Sprecher abhängigen oder vom Sprecher unabhängigen Spracherkennungsmustern erfordert), schlägt die Erfindung vor, dass die schon existierende Spracherkennungsfunktion zusätzlich für das Umwandeln von Text in Sprache verwendet wird. Auf diese Weise würde unter Verwendung von schon existierenden Spracherkennungsmustern der Benutzer einer Kommunikationsvorrichtung keine Zeit benötigen, um die Vorrichtung zu lehren, seine Sprache als eine individuelle und getrennte Aktivität zu erkennen und zu synthetisieren, sondern ein solches Lehren kann für eine Spracherkennung und für eine Sprachsynthese kombiniert werden.
In Situationen, bei denen, beispielsweise statt Tippen, eine Spracherkennung verwendet wird, um die Textnachrichten zu produzieren, wenn die Sendevorrichtung 110 lernt, die Sprache des Senders zu verstehen, wird, um das Sprachsynthesemuster relativ schnell zu erzeugen, zumindest der erste Text, den ein Leser lesen muss, dem Sender in einer Weise präsentiert, in der gewisse Worte, die eine größere Wahrscheinlichkeit aufweisen, dass sie inkorrekt sind, verstärkt werden, und es wird eine Bestätigung oder Korrektur dieser Worte gefordert. Eine solche Bestätigung oder Korrektur ist in das Lernverfahren eingefügt, das beim Erzeugen des Sprachsynthesemusters verwendet wird, so dass dieses effektiver erzeugt werden kann.
Es sollte verständlich sein, dass die Sprachsynthesemuster nicht notwendigerweise solche sein müssen, die zu den Benutzern der Sendevorrichtung 110 gehören. Es ist nur notwendig, dass sie zwischen Benutzern unterscheiden, wenn man ihnen zuhört. Sie können durch den Benutzer der Empfängervorrichtung 120 gewählt werden und können "Scherz"-Sprachsynthesemuster sein, beispielsweise solche, um die Sprache von Zeichentrickfiguren zu synthetisieren. Alternativ können zwei Sprachsynthesemuster vorhanden sein, eines für einen männlichen Sprecher und eines für einen weiblichen Sprecher. Eine Geschlechtskennzeichnung, die mit einer Textnachricht gesandt wird, kann gewährleisten, dass die Textnachricht von einer synthetisierten Sprache gesprochen wird, die das korrekte Geschlecht hat. Ein Weg, dies zu tun, besteht darin, den Vornamen eines Benutzer, der die Sendevorrichtung verwendet, zu prüfen und dies zu verwenden, um das Geschlecht zu bestimmen. Andere Unterscheidungsmöglichkeiten könnten verwendet werden, wie beispielsweise um Sprachsynthesemuster zu haben, die junge und alte Stimmen darstellen.
Da die Speicherung eines Sprachsynthesemusters eines Sprechers es möglicherweise erlaubt, dass betrügerische Nachrichten präsentiert werden, unter Verwendung der "Stimme" von irgend jemand anderem, kann es vorteilhaft sein, eine Sorte einer digitalen Unterschrift in die Sprachsynthesemuster einzufügen (vielleicht als eingebettete Signatur), so dass nur der Benutzer, der die Quelle des Sprachsynthesemusters darstellt, es legitim verwenden kann. In einer Ausführungsform basiert dies auf einem Verschlüsselungssystem mit zwei Schlüsseln, in welchem das Sprachsynthesemuster einen Schlüssel erzeugt, und neue Textnachrichten mit einem zweiten Schlüssel geliefert werden. Es wird ein Verschlüsselungsalgorithmus von der Empfängervorrichtung verwendet, um zu prüfen, dass die Schlüssel zum Inhalt der Textnachricht passen und um somit die Quelle der Textnachricht zu authentifizieren. Diese Sicherheitsaspekte sind kein solches Problem in Verfahren, wie dem vierten Verfahren, bei denen die Sprachsynthesemuster nicht an die Kommunikationsvorrichtungen übertragen werden.
Wenn eine Textnachricht von einer Anzahl von Leuten kommt, könnte eine Anzahl von Sprachsynthesemustern gesandt werden, so dass verschiedene Teile der Textnachricht unter Verwendung unterschiedlicher Stimmen in Abhängigkeit von den Quellen der verschiednen Teile des Textes ausgelesen werden können. In diesem Fall können Quellenkennungen in den Beginn eines Teils einer neuen Quelle in der Textnachricht eingebettet werden. Dieser Fall kann sich bei Textnachrichten ergeben, die von einer Anzahl von Empfängern empfangen wurden, von denen alle etwas Text beigetragen haben und dann weiter gesendet werden. Eine solche Textnachricht kann eine E-Mail sein, die ein oder mehrmals empfangen und weitergegeben oder beantwortet wurde.
Die Erfindung kann auf drahtgebundenen Kommunikationswegen als auch auf drahtlosen verwendet werden, so dass die Erfindung beispielsweise in Fällen verwendet werden kann, bei denen eine oder beide Parteien mit einem Intranet oder dem Internet verbunden sind. In diesem Fall würden die Sendevorrichtung 110 und die Empfängervorrichtung 120 keine mobilen Kommunikationsvorrichtungen sein, sondern sie würden feste Kommunikationsvorrichtungen, wie PCs (Personalcomputer) sein.
Die Sprachsynthesemuster von Angestellten eines Unternehmens, beispielsweise alle 1000 Angestellten einer Firma, könnten in die Speicher von Kommunikationsvorrichtungen, die von den Angestellten verwendet werden, vorprogrammiert werden, um ein unnötiges Übertragen der Sprachsynthesemuster zu vermeiden. In gleicher Weise können die Sprachsynthesemuster in einem von der Firma betriebenen Server gespeichert werden, von dem sie an die Kommunikationsvorrichtungen geliefert werden.
Die Erfindung betrifft einen Weg zur Synthetisierung von Sprache mit der Stimme eines Benutzers. Sie betrifft auch einen Weg für das Vorsehen verschiedener synthetisierter Stimmen für verschiedene Benutzer, die Textnachrichten senden. Sie betrifft die Handhabung von Sprachsynthesemustern, so dass sie für die Verwendung durch eine Kommunikationsvorrichtung verfügbar gemacht werden, entweder indem sie von einer Vorrichtung zu einer anderen Vorrichtung übertragen werden oder indem sie von einem Netz zu einer Vorrichtung übertragen werden.
Mit der Erfindung wird es möglich, Textnachrichten zu senden, die geringe Bandbreite benötigen, und sie in einer Weise sprechen zu lassen, die es ermöglicht, ihre Quellen zu identifizieren. Sie liefert einen Weg zur Erzeugung synthetisierter Sprache, die persönlich ist oder zumindest zwischen verschiedenen Quellen unterscheidbar. Die Erfindung ermöglicht es, dass solche "gesprochenen Textnachrichten" so einfach wie eine E-Mail im Moment gesendet werden können. Sie liefert auch einen Weg, um ein Vorsehen von personalisierten Sprachsynthesemustern zu ermöglichen, während sie bei ihrem Transfer nur geringe Bandbreite benötigen. Dies ist insbesondere bei einem Verfahren der Erfindung der Fall, bei dem Sprachsynthesemuster nur einmal gesandt werden. Ein Vorteil der Erfindung ist der, dass die Textnachrichten dennoch als einfacher Text gespeichert werden, was bedeutet, dass ihre Speicherung im Vergleich zum Speichern der tatsächlichen Sprache wenig Speicherplatz benötigt. Weiterhin ist es relativ einfach, Textnachrichten mit Schlüsselworten zu suchen.
Sprachsynthesemuster können auch für andere Zwecke verwendet werden. In einer Ausführungsform werden sie verwendet, um Sprachnachrichten für Anrufbeantworter zu erzeugen, beispielsweise können eine Anzahl von Sprachsynthesemustern verfügbar sein, die die Sprache von Leuten synthetisieren, deren Stimmen der Bevölkerung allgemein bekannt sind. Diese Leute können Persönlichkeiten des Fernsehens, Schauspieler, Sportler, Unterhalter und dergleichen sein. Solche Sprachsynthesemuster können in einer Bibliothek von Sprachsynthesemustern auf Netzbasis vorgehalten werden. Die Sprachsynthesemuster werden funktionell mit einem geeigneten Prozessor verbunden, der Sprache gemäß irgend welchen Sprachsynthesemustern, die ausgewählt werden können, erzeugen kann. Die Bibliothek und der Prozessor sind passenderweise in einem auf dem Netz basierenden Server gemeinsam angeordnet. Wenn ein Teilnehmer eine Antwortnachricht auf seiner Sprach-Mailbox haben will, sendet der Teilnehmer eine Nachricht an den Server, die den Text einschließt, der dazu dient, die Basis der Antwortnachricht zu bilden und zeigt die Sprache an, in welcher die Antwortnachricht gesprochen werden soll, und die Sprach-Mailbox, auf die die Antwortnachricht angewandt werden soll. Der Prozessor verwendet ein entsprechendes Sprachsynthesemuster, um die synthetisierte Antwortnachricht zu erzeugen, und die Nachricht wird dann zu einem Speicher übertragen, der mit der Sprach-Mailbox verknüpft ist. Wenn ein Anruf erfolgt, der zu einer Aktivierung der Antwortnachricht der Sprach-Mailbox führt, wird auf den Speicher zugegriffen und die synthetisierte Antwortnachricht wird dem Anrufer vorgespielt. In einer anderen verfeinerten Ausführungsform ist die Funktion wie vorher beschrieben, aber der Teilnehmer/die Teilnehmerin sendet die Nachricht nicht direkt an den Server, sondern über seinen oder ihren Betreiber des eigenen Telekommunikationsnetzes. Der Betreiber kann den Teilnehmer authentifizieren und mit einer Gebühr für den Dienst belasten, womit die Notwendigkeit für getrennte Authentifizierungs- und getrennte Gebührenbelastungssysteme für ein Eintreiben bei Benutzern (Teilnehmern) des Dienstes vermieden wird.
Spezielle Implementierungen und Ausführungsformen der Erfindung sind beschrieben worden. Für einen Fachmann ist es klar, dass die Erfindung nicht auf die Details der oben präsentierten Ausführungsformen beschränkt ist, sondern dass sie in anderen Ausführungsformen unter Verwendung äquivalenter Mittel implementiert werden kann, ohne von den Eigenschaften der Erfindung abzuweichen. Der Umfang der Erfindung wird nur durch die angefügten Patentansprüche eingeschränkt.

Claims

Kommunikationsvorrichtung, umfassend – einen Speicher zum Speichern von mehreren Sprachsynthese-Templates zum Synthetisieren von Sprache, wobei die Templates jeweilige Sätze von Sprachmerkmalen umfassen, die gemäß der Stimmen der jeweiligen bestimmten Individuen erstellt werden; – einen Nachrichten-Handhaber zum Empfangen einer Textnachricht von einem Sender zusammen mit einer Kennung, die mindestens ein Sprachsynthese-Template identifiziert, das zur Konvertierung der Textnachricht in synthetisierte Sprache verwendet werden soll; – eine Sprachsynthetisiereinheit zum Konvertieren der Textnachricht in synthetisierte Sprache unter Verwendung des mindestens einen identifizierten Sprachsynthese-Templates; und – eine Ausgabe, um die synthetisierte Sprache in einer akustischen Form bereitzustellen, die der Stimme des Senders entspricht.
Kommunikationsvorrichtung gemäß Anspruch 1, wobei die Kennung die Quelle der Textnachricht identifiziert.
Kommunikationsvorrichtung gemäß Anspruch 1 oder Anspruch 2, umfassend einen Sprachsynthese-Template-Handhaber zum Empfangen einer Kopie des mindestens einen identifizierten Sprachsynthese-Templates.
Kommunikationsvorrichtung gemäß einem der vorangegangenen Ansprüche, umfassend einen Sprachsynthese-Template-Handhaber, der eingerichtet ist, ein Sprachsynthese-Template zu einem der folgenden zu senden: eine Kommunikationsvorrichtung, ein Kommunikationsnetzwerk und ein Server.
Kommunikationsvorrichtung gemäß Anspruch 4, wobei der Sprachsynthese-Template-Handhaber eingerichtet ist, das Sprachsynthese-Template zu senden, wenn es von einem der folgenden angefragt wird: eine Kommunikationsvorrichtung, ein Kommunikationsnetzwerk und ein Server.
Kommunikationsvorrichtung gemäß Anspruch 4 oder Anspruch 5, wobei der Sprachsynthese-Template-Handhaber imstande ist, ein Sprachsynthese-Template zu senden, das auf einen bestimmten Benutzer der Kommunikationsvorrichtung zugeschnitten ist.
Kommunikationsvorrichtung gemäß einem der Ansprüche 4, 5 und 6, umfassend eine Übermittlungseinheit, um die Textnachricht und eine Kopie des Sprachsynthese-Templates an einem Empfänger der Textnachricht zu übermitteln.
Kommunikationsvorrichtung gemäß einem der vorangegangenen Ansprüche, umfassend einen Sprachhandhaber zum Maschinenlesen der Textnachricht als synthetisierte Sprache unter Verwendung von mindestens einem identifizierten Sprachsynthese-Template.
Kommunikationsvorrichtung gemäß einem der vorangegangenen Ansprüche, umfassend eine Übermittlungseinheit zum Übermitteln der synthetisierten Sprache über eine Datenkommunikationsverbindung.
Kommunikationsvorrichtung gemäß einem der vorangegangenen Ansprüche, umfassend eine Synchronisiereinheit um Synchronisierinformationen zwischen der Kommunikationsvorrichtung und einem Kommunikationsnetzwerk zu übermitteln, um Daten, die in dem Speicher gehalten werden, mit Daten, die in dem Kommunikationsnetzwerk gehalten werden, zu synchronisieren.
Kommunikationsvorrichtung gemäß einem der vorangegangenen Ansprüche, umfassend eine Nachrichtenerzeugungseinheit zum Erzeugen einer Textnachricht.
Kommunikationsvorrichtung gemäß einem der vorangegangenen Ansprüche, die eine Mobilvorrichtung ist.
Kommunikationsvorrichtung gemäß einem der Ansprüche 1 bis 11, die eine Basis innerhalb eines Kommunikationsnetzwerkes ist.
Kommunikationsvorrichtung gemäß Anspruch 13, umfassend einen Server.
Kommunikationsvorrichtung gemäß einem der vorangegangenen Ansprüche, umfassend eine Datenbank zum Speichern von mehreren Sprachsynthese-Templates.
Kommunikationsvorrichtung gemäß Anspruch 15, wobei die Datenbank eingerichtet ist, um Kennungen zu speichern, die jeweils einem Sprachsynthese-Template und einer Quelle entsprechen.
Kommunikationsvorrichtung gemäß einem der vorangegangenen Ansprüche, die imstande ist, Daten über eine drahtlose Datenkommunikationsverbindung zu übermitteln.
Kommunikationssystem, umfassend eine Kommunikationsvorrichtung und ein Kommunikationsnetzwerk, wobei das Kommunikationssystem umfasst: – einen Speicher zum Speichern von mehreren Sprachsynthese-Templates zum Synthetisieren von Sprache, wobei die Templates jeweilige Sätze von Sprachmerkmalen umfassen, die gemäß der Stimmen der jeweiligen bestimmten Individuen erstellt werden; – einen Nachrichten-Handhaber zum Empfangen einer Textnachricht von einem Sender zusammen mit einer Kennung, die mindestens ein Sprachsynthese-Template identifiziert, das zur Konvertierung der Textnachricht in synthetisierte Sprache verwendet werden soll; – eine Sprachsynthetisiereinheit zum Konvertieren der Textnachricht in synthetisierte Sprache unter Verwendung der mindestens einen identifizierten Sprachsynthese-Templates; und – eine Ausgabe, um die synthetisierte Sprache in einer akustischen Form bereit zu stellen, die der Stimme des Senders entspricht.
Kommunikationssystem gemäß Anspruch 18, umfassend entsprechende Synchronisiereinheiten in der Kommunikationsvorrichtung und dem Kommunikationsnetzwerk, um zu ermöglichen, dass Daten, die in dem Kommunikationsnetzwerk gespeichert sind, mit Daten, die in der Kommunikationsvorrichtung gespeichert sind, synchronisiert werden.
Kommunikationsvorrichtung gemäß Anspruch 18 oder Anspruch 19, umfassend einen Sprachsynthese-Template-Handhaber zum Empfangen einer Kopie des mindestens einen identifizierten Sprachsynthese-Templates.
Kommunikationssystem gemäß einem der Ansprüche 18 bis 20, die imstande ist Daten über eine drahtlose Datenkommunikationsverbindung zwischen dem Kommunikationsnetzwerk und der Kommunikationsvorrichtung zu übermitteln.
Verfahren zum Konvertieren einer Textnachricht in synthetisierte Sprache, wobei das Verfahren die Schritte umfasst: – Speichern von mehreren Sprachsynthese-Templates zum Synthetisieren von Sprache, wobei die Templates jeweilige Sätze von Sprachmerkmalen umfassen, die gemäß der Stimmen der jeweiligen bestimmten Individuen erstellt werden; – Konvertieren einer Textnachricht in synthetisierte Sprache unter Verwendung des mindestens einen identifizierten Sprachsynthese-Templates, wobei die Textnachricht von einem Sender zusammen mit einer Kennung empfangen wurde, die mindestens ein Sprachsynthese-Template identifiziert, das zur Konvertierung der Textnachricht in synthetisierte Sprache verwendet werden soll und – Erzeugen der synthetisierten Sprache in einer Form, die der Stimme des Senders entspricht.
Verfahren gemäß Ansprüche 22, wobei die Kennung die Quelle der Textnachricht identifiziert.
Verfahren gemäß Anspruch 22 oder Anspruch 23, umfassend den Schritt des Empfangens einer Kopie des identifizierten Sprachsynthese-Templates.
Verfahren gemäß einem der Ansprüche 22 bis 24, umfassend den Schritt des Maschinenlesens der Textnachricht als synthetisierte Sprache unter Verwendung des identifizierten Sprachsynthese-Templates.
Verfahren gemäß einem der Ansprüche 22 bis 25, umfassend den Schritt des Übermittelns der synthetisierten Sprache über eine Datenkommunikationsverbindung.
Verfahren gemäß einem der Ansprüche 22 bis 26, umfassend den Schritt des Sendens einer Textnachricht und einer Kopie des Sprachsynthese-Templates an einen Empfänger der Textnachricht.
Verfahren gemäß einem der Ansprüche 22 bis 27, umfassend den Schritt des Übermittelns von Synchronisierinformationen zwischen der Kommunikationsvorrichtung und einem Kommunikationsnetzwerk, um Daten, die in der Kommunikationsvorrichtung gehalten werden, mit Daten die in dem Kommunikationsnetzwerk gehalten werden, zu synchronisieren.
Verfahren gemäß einem der Ansprüche 22 bis 28, umfassend den Schritt des Übermittelns von Daten über eine drahtlose Datenkommunikationsverbindung.
Computerprogrammprodukt zum Konvertieren einer Textnachricht in synthetisierte Sprache, wenn das Computerprogrammprodukt auf einem Computer ausgeführt wird, wobei das Computerprogrammprodukt umfasst: – computerausführbaren Code, um zu bedingen, dass der Computer mehrere Sprachsynthese-Templates zum Synthetisieren von Sprache speichert, wobei die Templates jeweilige Sätze von Sprachmerkmalen umfassen, die gemäß der Stimmen der jeweiligen bestimmten Individuen erstellt werden; – computerausführbaren Code, um zu bedingen, dass der Computer eine Textnachricht von einem Sender zusammen mit einer Kennung empfängt, die identifiziert, welche der mehreren Sprachsynthese-Templates zur Konvertierung der Textnachricht in synthetisierte Sprache verwendet werden soll; – computerausführbaren Code, um zu bedingen, dass der Computer die Textnachricht in synthetisierte Sprache unter Verwendung einer Ausgewählten der identifizierten Sprachsynthese-Templates konvertiert; und – computerausführbaren Code, um zu bedingen, dass die synthetisierte Sprache in ein Signal ausgegeben wird, das in einer akustischen Form gespielt werden kann, die der Stimme des Senders entspricht.
Computerprogrammprodukt gemäß Anspruch 30, das auf einem computerlesbaren Medium gespeichert wird.