DE69816221T2 - Sprachschnellheitsveränderungsverfahren und vorrichtung - Google Patents

Sprachschnellheitsveränderungsverfahren und vorrichtung Download PDF

Info

Publication number
DE69816221T2
DE69816221T2 DE69816221T DE69816221T DE69816221T2 DE 69816221 T2 DE69816221 T2 DE 69816221T2 DE 69816221 T DE69816221 T DE 69816221T DE 69816221 T DE69816221 T DE 69816221T DE 69816221 T2 DE69816221 T2 DE 69816221T2
Authority
DE
Germany
Prior art keywords
block
data
speech
connection
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69816221T
Other languages
English (en)
Other versions
DE69816221D1 (de
Inventor
Tohru Setagaya-ku TAKAGI
Nobumasa Setagaya-ku SEIYAMA
Atsushi Setagaya-ku IMAI
Akio Setagaya-ku ANDO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Publication of DE69816221D1 publication Critical patent/DE69816221D1/de
Application granted granted Critical
Publication of DE69816221T2 publication Critical patent/DE69816221T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Toys (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft ein Verfahren für die Umwandlung von Sprachgeschwindigkeit und eine Vorrichtung zur Durchführung des Verfahrens, das in verschiedenen Videogeräten, Audiogeräten, medizinischen Geräten usw. auch bei Fernsehapparaten, bei Radios, Bandrekordern, Videobandrekordern, Videoplattenspielern usw. anwendbar ist. Im besonderen betrifft sie ein Sprachgeschwindigkeits-Umwandlungsvertahren und eine Vorrichtung für die Durchführung des Verfahrens, womit es möglich ist, geschwindigkeitsgewandelte Sprache bereitzustellen, deren Sprechgeschwindigkeit an das Hörvermögen eines Hörers durch Verarbeiten der Sprache eines Sprechers angepasst ist.
  • STAND DER TECHNIK
  • Als allgemeines Beispiel sei der Fall angeführt, bei dem eine Person (ein Hörer) der Rede einer anderen Person (eines Sprechers) zuhört. Wenn das Hörvermögen, z. B. ist beim Hörer die kritische Geschwindigkeit für die Spracherkennung (maximale Sprechgeschwindigkeit, mit der eine Rede genau verfolgt werden kann) auf Grund des Alters oder einer Störung vermindert, dann ist es oft schwer für den Hörer, die Rede bei normaler Geschwindigkeit oder beim schnellen Sprechen zu verfolgen. In einem solchen Fall kann der Hörer normalerweise die Hörleistung verbessern, indem er eine sogenannte Hörhilfe benutzt.
  • Zwar können konventionelle Hörhilfen, welche von Personen mit vermindertem Hörvermögen oder mit Hörstörungen verwendet werden, einfach die Fortpflanzungsbedingungen im Außenohr oder im Mittelohr des Hörorgans auf Grund der Verbesserung des Frequenzspektrums, der Lautverstärkung usw. verbessern. Deshalb hat es das Problem gegeben, dass die Verminderung der Spracherfassungsfähigkeit, die hauptsächlich mit einer Verschlechterung des Gehörzentrums verbunden ist, nicht kompensiert werden kann.
  • Zur Verbesserung des genannten Problems wurde vor kurzem eine von der Sprachgeschwindigkeit gesteuerte Vorrichtung zur Hörhilfe erdacht, die das Hören durch Verarbeiten der Sprache des Sprechers unterstützen kann, derart dass die Sprachgeschwindigkeit dem Hörvermögen des Hörers nahezu in Echtzeit angepaßt sein kann. Siehe zum Beispiel EP-A-427953 und EP-A-608833.
  • Entsprechend dieser von der Sprachgeschwindigkeit gesteuerten Vorrichtung zur Hörhilfe kann die Sprechgeschwindigkeit des Redners geändert (verlangsamt) werden, um die Verminderung des Hörvermögens des Hörers zu kompensieren, wobei ein Expansionsprozess zur zeitlichen Dehnung der Sprache des Redners ausgeführt wird, dann die Sprache, die in dem Expansionsprozess gewonnen wurde, in einem Ausgabe-Puffer-Speicher sequentiell gespeichert wird, und dann die gespeicherte Sprache ausgegeben wird.
  • Jedoch hat es bei der erwähnten von der Sprachgeschwindigkeit gesteuerten Vorrichtung zur Hörhilfe des Standes der Technik im Folgenden beschriebene Probleme gegeben.
  • Um nur eins aufzuzeigen: die von der Sprachgeschwindigkeit gesteuerte Vorrichtung zur Hörhilfe aus dem Stand der Technik dehnt die Sprachdateneingabe – wie oben beschrieben durch den Expansionsprozess, speichert dann sequentiell die vom Expansionsprozess erhaltenen Sprachdaten in den Ausgabe-Puffer-Speicher, und gibt dann die gespeicherten Sprachdaten aus. Die Sprechgeschwindigkeit kann daher solange nicht in der Originalgeschwindigkeit wieder hergestellt werden, falls beispielsweise der Hörer wünscht, die Sprechgeschwindigkeit stärker zu verlangsamen oder im Moment des Zuhörens die Sprechgeschwindigkeit in Originalgeschwindigkeit wieder herzustellen, bis alle Sprachdaten, die im Ausgabe-Zwischenspeicher gespeichert sind, ausgegeben worden sind.
  • Deshalb ist es ein Problem gewesen, dass eine beträchtlich lange Verzögerung verursacht wird, um rechtzeitig während des Zuhörens die vorhandene Sprechgeschwindigkeit in der Originalgeschwindigkeit wieder herzustellen.
  • Außerdem kann eine von der Sprachgeschwindigkeit gesteuerte Vorrichtung zur Hörhilfe des Standes der Technik nicht nur von dem zuvor erwähnten Hörer verwendet werden, der vermindertes Hörvermögen hat, aber auch von einem Hörer mit normalem Hörvermögen, der den Wunsch hat, einer Fremdsprache zuzuhören, um – beispielsweise wie auf dem Gebiet der Anmeldung – die Sprechgeschwindigkeit des Sprechers zu ändern (zu verlangsamen), um sein Hörvermögen zu kompensieren. In diesem Fall ist es jedoch ein Problem gewesen, dass im Moment des Zuhörens – ähnlich wie zuvor – eine Zeitverzögerung beim Ändern der Sprechgeschwindigkeit verursacht wird.
  • Die vorliegende Erfindung wurde zur Verbesserung der oben genannten Umstände gemacht. Es ist die Aufgabe der vorliegenden Erfindung, ein Sprachgeschwindigkeits-Umwandlungsverfahren und eine Vorrichtung zu ihrer Durchführung zu schaffen, welche in der Lage sind, die Sprechgeschwindigkeit der Sprachausgabe umgehend infolge einer Betätigung durch den Hörer zu ändern und um somit die Annehmlichkeit ihrer Verwendung für den Hörer außerordentlich zu erhöhen.
  • BESCHREIBUNG DER ERFINDUNG
  • Um die oben genannte Aufgabe zu erreichen, umfasst das in Anspruch 1 umschriebene Verfahren zur Umwandlung der Sprachgeschwindigkeit folgende Schritte: Anwenden eines Analyseprozesses auf Eingangs-Sprachdaten auf Basis von Attributen; Teilen der Eingangs-Sprachdaten in Block-Einheiten, wobei der Block eine Zeitdauer hat, auf Basis von Informationen, die mit dem Analyseprozess gewonnen worden sind; Speichern der geteilten Sprachdaten als Block-Sprachdaten; Erzeugen von Verbindungsdaten für jeden Block, die zwischen benachbarten Block-Sprachdaten ersetzt oder eingesetzt werden sollen, um eine zeitliche Verlängerung der Sprachdaten zu erreichen, und anschließendes Speichern der Verbindungsdaten; Erzeugen von Block-Verbindungsreihenfolge, um in Reaktion auf eine Betätigung von einem Hörer Ausgabe-Sprachdaten zu erzeugen, die jeder beliebigen Sprachgeschwindigkeit entsprechen; und aufeinanderfolgendes Verbinden der Block-Sprachdaten, die bereits in Blockeinheiten aufgeteilt wurden und dann gespeichert worden sind, sowie der Verbindungsdaten entsprechend der Block-Verbindungsreihenfolge, um so Ausgabe-Sprachdaten zu erzeugen.
  • Somit kann die Sprechgeschwindigkeit der Sprachausgabe sofort nach einer Betätigung durch den Hörer geändert werden, und auf diese Weise kann die Annehmlichkeit ihrer Verwendung für den Hörer außerordentlich verbessert werden.
  • In dem Verfahren zur Umwandlung der Sprachgeschwindigkeit aus Anspruch 1 der Erfindung werden die Verbindungsdaten gemäß Anspruch 2 erzeugt, indem ein Fenster auf Sprachdaten, die sich an einem Anfangsabschnitt eines betreffenden Blocks befinden und Sprachdaten, die sich an einem Anfangsabschnitt eines folgenden Blocks befinden, jeweils Block für Block unter Verwendung von zwei Fenstern, von denen jedes eine vorgegebene Linie in einem vorgegebenen Zeitintervall hat, angewendet wird, und anschließend der Anfangsabschnitt des folgenden Blocks überlappend zu dem Anfangsabschnitt des betreffenden Blocks addiert wird.
  • Um die oben genannte Aufgabe zu erreichen, umfasst die Vorrichtung zur Umwandlung der Sprachgeschwindigkeit gemäß Anspruch 3: einen Analyse-Prozessor, der einen Analyseprozess auf Eingangs-Sprachdaten auf Basis von Attributen anwendet; einen Block-Datenteiler, der die Eingangs-Sprachdaten in Block-Einheiten teilt, wobei der Block eine Zeitdauer hat, die entsprechend Analyseergebnissen bestimmt wird, die mit dem Analyse-Prozessor gewonnen werden; einen Blockdaten-Speicherabschnitt, der von dem Block-Datenteiler geteilte Sprachdaten als Block-Sprachdaten speichert; einen Verbindungsdaten-Erzeuger, der Verbindungsdaten, die zwischen benachbarten Block-Sprachdaten ersetzt oder eingesetzt werden können, unter Verwendung der Block-Sprachdaten erzeugt, die mit dem Block-Datenteiler gewonnen werden; einen Verbindungsdaten-Speicherabschnitt, der die Verbindungsdaten speichert, die von dem Verbindungsdaten-Erzeuger erzeugt werden; einen Verbindungsreihenfolge-Erzeuger, der Block-Verbindungsreihenfolge der Block-Sprachdaten und der Verbindungsdaten auf Basis einer Bedingung erzeugt, die einer eingestellten Sprachgeschwindigkeit entspricht; und eine Sprachdaten-Verbindungseinrichtung, die die Block-Sprachdaten, die bereits in dem Blockdaten- Speicherabschnitt gespeichert worden sind, und die Verbindungsdaten, die in dem Verbindungsdaten-Speicherabschnitt gespeichert worden sind, auf Basis der Block-Verbindungsreihenfolge, die mit dem Block-Verbindungsreihenfolge-Erzeuger ermittelt wurde, der Reihe nach verbindet, um so eine Reihe von Ausgabe-Sprachdaten zu erzeugen.
  • In der Vorrichtung zur Umwandlung der Sprachgeschwindigkeit aus Anspruch 3 der Erfindung erzeugt der Verbindungsdaten-Erzeuger gemäß Anspruch 4 die Verbindungsdaten, indem er ein Fenster anwendet auf Sprachdaten, die sich an einem Anfangsabschnitt eines betreffenden Blockes befinden, und Sprachdaten, die sich an einem Anfangsabschnitt eines folgenden Blockes befinden, jeweils Block für Block unter Verwendung von zwei Fenstern, von denen jedes eine vorgegebene Linie in einem vorgegebenen Zeitintervall hat, und anschließend den Anfangsabschnitt des folgenden Blockes überlappend zu dem Anfangsabschnitt des betreffenden Blockes addiert.
  • In der Vorrichtung zur Umwandlung der Sprachgeschwindigkeit aus Anspruch 3 der Erfindung umfaßt der Verbindungsreihenfolge-Erzeuger gemäß Anspruch 5 einen beschreibbaren Speicher zum Speichern zeitlicher Erweiterungsvergrößerungen entsprechender Attribute, und einen Verbindungsreihenfolge-Entscheidungsprozessor, der die zeitlichen Erweiterungsvergrößerungen entsprechender Attribute, die in dem beschreibbaren Speicher gespeichert sind, in einem vorgegebenen Zeitintervall liest und die Block-Verbindungsreihenfolge der Block-Sprachdaten und der Verbindungsdaten erzeugt zu jedem Zeitpunkt auf Basis der Erweiterungsvergrößerungen, von Blocklängen, die von dem Blockdaten-Speicherabschnitt ausgegeben werden und fertig verbundenen Informationen, die von der Sprachdaten-Verbindungseinrichtung ausgegeben werden.
  • Dementsprechend kann die Sprachgeschwindigkeit der Sprachausgabe geändert werden, um augenblicklich einer Betätigung des Hörers zu folgen, und auf diese Weise kann die Annehmlichkeit ihrer Verwendung auf der Seite des Hörers außerordentlich verbessert werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die 1 ist ein Blockdiagramm, das ein Beispiel für ein Sprachgeschwindigkeits-Umwandlungsverfahren entsprechend der vorliegenden Erfindung und eine Ausführungsform einer Sprachgeschwindigkeits-Umwandlungsvorrichtung zeigt;
  • die 2 ist eine schematische Ansicht, die ein Beispiel für Schritte der Erzeugung von Verbindungsdaten in einem in 1 gezeigten Verbindungsdatengenerator zeigt, und
  • die 3 zeigt eine schematische Ansicht eines Beispiels für Schritte der Erzeugung von Verbindungsreihenfolge in einem in 1 gezeigten Verbindungsreihenfolge-Erzeuger.
  • BESTER MODUS FÜR DAS AUSFÜHREN DER ERFINDUNG
  • Die 1 ist ein Blockdiagramm, das eine Ausführungsform einer Sprachgeschwindigkeits-Umwandlungsvorrichtung entsprechend der vorliegenden Erfindung zeigt.
  • Eine in dieser Figur gezeigte Sprachgeschwindigkeits-Umwandlungsvorrichtung 1 umfasst einen A/D-Wandler 2 für das Umwandeln eines Eingabesprachsignals in digitale Sprachdaten, einen Analyseprozessor 3 für das Analysieren von Attributen der Sprachdaten, einen Blockdatenteiler 4 für das Teilen der Sprachdaten in Blockdaten, um Block-Sprachdaten zu generieren, einen Blockdatenspeicher 5 für das Speichern der Block-Sprachdaten, einen Verbindungsdaten-Erzeuger 6 für das Generieren von Verbindungsdaten, die notwendig sind, um die Block-Sprachdaten zu verbinden, einen Verbindungsdatenspeicher 7 für das Speichern der Verbindungsdaten, einen Verbindungsreihenfolge-Erzeuger 8 für das Generieren der Verbindungsreihenfolge der Block-Sprachdaten und der Verbindungsdaten, eine Sprachdaten-Verbindungseinrichtung 9 zum Generieren einer Serie von Sprachdaten durch Verbinden der Block-Sprachdaten und der Verbindungsdaten basierend auf der Verbindungsreihenfolge, und einen D/A-Wandler 10 für das Umwandeln einer Serie von Sprachdaten in Sprachsignale.
  • Dann wendet die Sprachgeschwindigkeits-Umwandlungsvorrichtung 1 einen Analyseprozess auf die Sprachdaten an, die vom Sprecher basierend auf den Attributen eingegeben worden sind, teilt dann die Sprachdaten in eine Blockeinheit, die eine vorherbestimmte Zeitdauer entsprechend analysierter Information vom Analyseprozess abgeleitet hat, und speichert dann Blockdaten. Um die Erweiterung der Sprachdaten rechtzeitig zu erreichen, generiert auch die Sprachgeschwindigkeits-Umwandlungsvorrichtung 1 die zu ersetzenden oder einzufügenden Sprachdaten zwischen den benachbarten Block-Sprachdaten für jeden Block und speichert dann die Sprachdaten. Dann generiert die Sprachgeschwindigkeits-Umwandlungsvorrichtung 1 die Blockverbindungsreihenfolge, um die Ausgabesprachdaten zu generieren, die jeder Sprechgeschwindigkeit als Antwort auf die Betätigung des Hörers entsprechen, und verbindet dann sequentiell die Sprachdaten (Block-Sprachdaten), die schon in Blockeinheit geteilt und gespeichert worden sind, und die zu ersetzenden/einzufügenden Sprachdaten (Verbindungsdaten), die schon gemäß der Verbindungsreihenfolge gespeichert worden sind, um die Ausgabesprachdaten zu generieren. Als Ergebnis kann die Sprechgeschwindigkeit der Spracheausgabe sofort als Reaktion auf eine Betätigung des Hörers folgen.
  • Der A/D-Wandler 2 umfasst eine A/D-Wandlerschaltung zum analog/digital-wandeln in digitale Sprachdaten durch Sampeln des Eingabesprachsignals mit einer vorherbestimmten Samplingrate (z. B. 32 kHz) und einen FIFO-Speicher zum Empfangen und zur Speicherung der Ausgabe der A/D-Wandlerschaltung, um sie dann nach FIFO-Art auszugeben. Der A/D-Wandler 2 empfängt das Sprachsignal, das in ein Eingabeterminal auf der Sprecherseite eingegeben worden ist, z. B. das Sprachsignal, das von einem analogen Schallausgabeterminal eines Videogeräts, eines Audiogeräts usw. etwa einem Mikrophon, einem Fernseher, einem Radio usw. ausgegeben wurde; wandelt dann das Sprachsignal in digitale Sprachdaten analog/digital um und liefert dann die resultierenden Sprachdaten an den Analyseprozessor 3 und den Blockdatenteiler 4, während die Sprachdaten zwischengespeichert werden.
  • Der Analyseprozessor 3 führt sequentiell aus: einen Eingabeprozess für den Empfang der Sprachdaten, die vom A/D-Wandler 2 ausgegeben werden; einen Dezimierungs (Verdünnungs-)-Prozess für das Reduzieren eines Großteils des nachfolgenden Prozesses durch Verminderung der Samplingrate der erhaltenen Sprachdaten auf 4 kHz; einen Attributanalyseprozess für das Analysieren von Attributen der ausgegebenen Sprachdaten aus dem A/D-Wandler 2 und der durch den oben genannten Dezimierungsprozess erhaltenen Sprachdaten, um die Sprachdaten in Sprachschall, in sprachfreien Schall und in Ruhe einzuteilen; und einen Blocklängenentscheidungsprozess für die Detektion von Periodizität von Sprachschall, von sprachfreiem Schall und Ruhe durch das Ausführen einer Autokorrelationsanalyse, und dann Entscheiden von Blocklängen, die benötigt werden, um die Sprachdaten basierend auf detektierte Ergebnisse zu teilen (Blocklängen, die benötigt werden, um Nachteile zu vermeiden, wie Änderung in der Tonhöhe - z. B. leise Stimme – entsprechend der Wiederholung der Blockeinheit).
  • Der Analyseprozessor 3 liefert dann resultierende Trenninformation (Blocklängen des Sprachschalls, des sprachfreien Schalls und der Ruhe) zum Blockdatenteiler 4.
  • In diesem Fall wird im oben genannten Attributanalyseprozess eine Quadratsumme der Sprachdaten, die vom A/D-Wandler 2 ausgegeben werden, durch Verwenden eines Fensters mit Breite von etwa 30 ms berechnet, und auch die Intensität P der Sprachdaten werden in einem Intervall von etwa 5 ms berechnet. Auch werden die Intensität P und ein zuvor gesetzter Schwellenwert Pmin mit einander verglichen und als Ergebnis wird ein Datenbereich, welcher die Bedingung „P < Pmin" erfüllt, als stilles Intervall definiert, und ebenfalls wird ein Datenbereich, welcher „Pmin ⩽ P" erfüllt, als Intervall für Sprachschall und ein Intervall für sprachfreien Schall definiert. Dann werden Nulldurchgangs-Analysen der vom A/D-Wandler 2 ausgegebenen Sprachdaten und Autokorrelationsanalysen, der vom oben erwähnten Dezimierungsprozess erhaltenen Sprachdaten usw. durchgeführt.
  • Auf Grundlage dieser Analyseergebnisse und der Intensitätswerte P wird entschieden, ob der Datenbereich der Sprachdaten, der "Pmin ⩽ P" erfüllt, zum Sprachintervall mit Vibration der Stimmbänder (Sprachschall-Intervall) oder zum Sprachintervall ohne Vibration der Stimmbänder (sprachfreies Intervall) gehört. In diesem Fall können Attribute wie Lärm oder Hintergrundgeräusch, wie etwa Musik als Attribute der Sprachdaten betrachtet werden, die vom A/D-Wandler 2 ausgegeben werden. Da es jedoch im Allgemeinen schwer ist, die Sprachsignale genau von Signalen aus Lärm und aus Hintergrundgeräusch automatisch zu diskriminieren, werden Lärm und Hintergrundgeräusch entweder als Sprachschall, als sprachfreier Schall oder als Ruhe klassifiziert.
  • Auch wendet der Blocklängenentscheidungs-Prozess Autokorrelationsanalysen unterschiedlich kurze/lange Fensterbreiten in einem weiten Bereich von 1,25 ms bis 28,0 ms auf die Sprachdaten an, die durch den Attributanalyseprozess als Sprachschall-Intervalle festgelegt worden sind, in denen Töne von Sprachschall verteilt sind. Detektiert dann, so präzise wie möglich, die Perioden der Töne (Töne, die Abschnitte der Schwingungen von Stimmbändern sind). Legt dann Blocklängen basierend auf Detektionsergebnissen fest, wie etwa entsprechende Ton-Abschnitte, die zugehörigen Blocklängen entsprechen. Inzwischen stellt der oben erwähnte Blocklängenentscheidungs-Prozess während seiner Anwendung Periodizität von weniger als 10 ms der Sprachdaten in dem Intervall fest, die als sprachfreies Intervall oder als Intervall der Ruhe festgelegt worden waren, und entscheidet dann über die Blocklängen basierend auf detektierten Ergebnissen. Als ein Ergebnis werden jeweilige Blocklängen des Sprachschalls, des sprachfreien Schalls und der Ruhe als Trenninformation an den Blockdatenteiler 4 übermittelt.
  • Der Blockdatenteiler 4 unterteilt die vom A/D-Wandler 2 ausgegebenen Sprachdaten basierend auf den Blocklängen des Sprachschalls, des sprachfreien Schalls und der Ruhe, die vom Analyseprozessor 3 ausgegebenen Trenninformation gekennzeichnet worden sind. Dann liefert der Blockdatenteiler 4 die von dem Trennprozeß erhaltenen Sprachdaten (Block-Sprachdaten) in Blockeinheiten und in Blocklängen der Sprachdaten zu sowohl dem Blockdatenspeicher 5 als auch dem Verbindungs-Datengenerator 6.
  • Der Blockdatenspeicher 5 ist mit einem Ringpuffer ausgerüstet. Der Blockdatenspeicher 5 empfängt die vom Blockdatenteiler 4 ausgegebenen Block-Sprachdaten (Sprachdaten in Blockeinheit) und die Blocklängen der Sprachdaten; speichert sie dann vorläufig im Ringpuffer; liest dann passend jeweilige vorläufig gespeicherte Blocklänge aus, und liefert dann dem Verbindungsreihenfolge-Erzeuger 8 die Blocklängen. Der Blockdatenspeicher 5 liest auch passend die Block-Sprachdaten, die vorläufig gespeichert worden sind, und liefert dann solche Block-Sprachdaten zur Sprachdaten-Verbindungseinrichtung 9.
  • Dann empfängt der Verbindungsdatengenerator 6 die vom Blockdatenteiler 4 ausgegebenen Block-Sprachdaten; wendet dann ein Fenster auf jeden Block zu den Sprachdaten an, die sich in einem Anfangsabschnitt eines betreffenden Blocks und der Sprachdaten befinden – durch Verwenden eines Fensters A und eines Fensters B, die linear in einem Zeitintervall d (ms) (wie in 2 gezeigt) geändert werden. Addiert dann überlappend den Anfangsabschnitt des nachfolgenden Blocks zum Anfangsabschnitt des betreffenden Blocks, um die Verbindungsdaten des Zeitintervalls d (ms) zu generieren, und liefert dann diese Verbindungsdaten an den Verbindungsdatenspeicher 7. Ein Wert zwischen 0,5 (ms) und dem kürzesten der beiden Blocklängen des betreffenden Blocks und des nachfolgenden Blocks kann als das Zeitintervall d gewählt werden; aber der kürzere der beiden Blocklängen benötigt eine kleinere Kapazität des Puffers im Verbindungsdatenspeicher 7.
  • Der Verbindungsdatenspeicher 7 hat einen Ringpuffer und erhält die Verbindungsdaten, die vom Verbindungsdatengenerator 6 ausgegeben werden; speichert dann vorläufig die Verbindungsdaten im Ringpuffer; liest dann passend die vorläufig gespeicherten Verbindungsdaten und liefert dann die Verbindungsdaten an die Sprachdaten-Verbindungseinrichtung 9.
  • Der Verbindungsreihenfolge-Erzeuger 8 umfaßt einen beschreibbaren Speicher für das rechtzeitige Speichern der Erweiterungsvergrößerungen von jeweiligen Attributen, welche durch Betätigen eines digitalen Einstellmittels, wie digitaler Lautstärkeregler, durch den Hörer eingestellt werden; und einen Verbindungsreihenfolge-Entscheidungsprozessor für das rechtzeitige Lesen der Erweiterungsvergrößerungen von jeweiligen im beschreibbaren Speicher gespeicherten Attributen zu einem vorherbestimmten, zuvor festgesetzten Zeitintervall, z. B. in einem Intervall von etwa 100 ms. Der Verbindungsreihenfolge-Entscheidungsprozessor generiert die Verbindungsreihenfolge (erforderliche Verbindungsreihenfolge zur Implementierung der gewünschten und vom Hörer eingestellten Sprechgeschwindigkeit) der Sprachdaten in Blockeinheiten und die Verbindungsdaten in Blockeinheiten zu jedem Zeitpunkt basierend auf diesen Erweiterungsvergrößerungen, und generiert jeweilige Blocklängen, die aus dem Blockdaten-Speicherabschnitt 5 ausgegeben wurden, und fertig verbundener Information, die aus der Sprachdaten-Verbindungseinrichtung 9 ausgegeben wurden.
  • In der Situation, in der Sprachsignale eingeben werden, in denen Intervalle mit Sprachschall, mit sprachfreiem Schall und mit Ruhe sequentiell abwechselnd erscheinen, und das Wechseln der Attribute der Block-Sprachdaten aus der fertig verbundenen Information detektiert wird, die – wie in 3 gezeigt – vom Sprachdaten-Verbindungseinrichtung 9 ausgegeben werden, oder wenn detektiert wird, dass die Erweiterungsvergrößerungen der Block-Sprachdaten, die aus dem beschreibbaren Speicher gelesen wurden, sich geändert haben, selbst wenn die Block-Sprachdaten, die dasselbe Attribut haben, immer noch verbunden sind, wird entschieden, dass eine Anfangsbedingung zur Erzeugung der Verbindungsreihenfolge fertiggestellt ist. Der Zeitpunkt in diesem Moment wird als Zeit T0 definiert.
  • Dann werden diejenigen der vom Verbindungsdatenspeicher 7 ausgegebenen Verbindungsdaten, welchen dem endgültig verbundenen Block entsprechen, ersetzt/eingefügt zu einem Zeitpunkt, der folgende Bedingung erfüllt
    L/2 < RSi – So. [1]
  • Hierbei ist „S;" eine Gesamtsumme aller Blocklängen der Block-Sprachdaten von einer Startzeit T0, die schon vom Blockdatenspeicher 5 an die Sprachdaten-Verbindungseinrichtung 9 ausgeben wird, bevor die Sprechgeschwindigkeit geändert wurde. „So" ist eine Gesamtsumme aller Blocklängen der Block-Sprachdaten von der Startzeit T0, die schon verbunden worden sind. „r" (mit r ⩾ 1,0) ist eine Abschluss-Erweiterungsvergrößerung, und "L" ist die Blocklänge der Block-Sprachdaten, die zuletzt verbunden worden sind. Dann wird ein Teil des zuletzt verbundenen Blocks, der hinter einem Teil des bei Erzeugung der Verbindungsdaten verwendeten Blöcke angewendet wurde, mehrmalig wiederverbunden. Danach wird die Verbindungsreihenfolge, die anzeigt, dass die verbleibenden Blöcke sequentiell verbunden sind, erzeugt, und an die Sprachdaten-Verbindungseinrichtung 9 übermittelt.
  • Dementsprechend werden, wie in dem in 3 gezeigten Beispiel, wenn die durch GI. [1] gegebene Bedingung zu dem Zeitpunkt, in dem der Block (1) an den Block (8) sequentiell verbunden wurde, erfüllbar ist, die dem Block (8) entsprechenden Verbindungsdaten hinter dem Block (8) ersetzt/eingefügt. Dann wird ein Teil, der sich hinter dem Teil des zur Erzeugung der Verbindungsdaten verwendeten Blocks (8) befindet, mehrmalig verbunden. In dem in 3 gezeigten Beispiel wurde der Block (4) schon einmal wiederholt verbunden.
  • Die Sprachdaten-Verbindungseinrichtung 9 liefert verbundenen Inhalt, wie etwa solche Block-Sprachdaten, die schon verbunden worden sind, als bereits fertig-verbundene Information an den Verbindungsreihenfolge-Erzeuger B. Zur selben Zeit – basierend auf der vom Verbindungsreihenfolge-Erzeuger 8 ausgegebenen Verbindungsreihenfolge, verbindet die Sprachdaten-Verbindungseinrichtung 9 die Block-Sprachdaten, die aus dem Blockdatenspeicher 5 ausgegeben wurden und die Verbindungsdaten, die aus dem Verbindungsdatenspeicher 7 ausgegeben wurden, um auf diese Weise eine Serie von Sprachdaten zu generieren. Dann liefert die Sprachdaten-Verbindungseinrichtung 9 dem D/A-Wandler 10 eine Serie von resultierenden Sprachdaten, während diese zwischengespeichert werden.
  • Der D/A-Wandler 10 umfaßt einen Speicher für das Speichern der Sprachdaten, um die Sprachdaten nach FIFO-Art auszugeben, und eine D/A-Wandlerschaltung für das Lesen der Sprachdaten aus dem Speicher mit einer vorbestimmten Samplingrate (z. B. 32 kHz), um dann die Sprachdaten in Sprachsignale analog/digital zu wandeln. Der D/A-Wandler 10 empfängt eine Serie von Sprachdaten, die von der Sprachdaten-Verbindungseinrichtung 9 ausgegeben wurden, wandelt dann die Sprachdaten digital/analog in Sprachsignale und gibt dann resultierende Sprachsignale über ein Ausgabeterminal aus.
  • Auf diese Weise kann mit der vorliegenden Ausführungsform die Sprachausgabe erzeugt werden auf der Basis von sprachgeschwindigkeitsumwandlunggesteuerter Information, die auf beliebiger Sprechgeschwindigkeit als Reaktion auf eine Betätigung des Hörers beruht, während die Reihenfolge der zuvor gespeicherten Block-Sprachdaten und der Verbindungsdaten kontrolliert wird. Deshalb kann Sprache unmittelbar mit der gewünschten Sprechgeschwindigkeit ausgegeben werden, sogar wenn der Hörer die Sprechgeschwindigkeit durch manuelle Betätigung ändert. Somit wird es möglich, dass der Hörer die Zeit verzögerung nicht merkt, wenn die Sprechgeschwindigkeit momentan geändert wird.
  • Im Ergebnis kann nur durch Anwendung der Sprachgeschwindigkeits-Umwandlungsvorrichtung 1 gemäß der vorliegenden Erfindung in verschiedenen Videogeräten, Audiogeräten, medizinischen Geräten usw. wie beim Fernsehapparat, beim Radio, beim Bandrekorder, Videobandrekorder, Videoplattenspieler usw. die Sprechgeschwindigkeit der Sprachausgabe unmittelbar als Antwort auf die Betätigung des Hörers geändert werden, wobei die Sprechgeschwindigkeit dem Hörvermögen des Hörers durch die Bearbeitung der Rede eines Sprechers angepaßt ist.
  • In der oben genannten Ausführungsform sind die Fenster im Verbindungsdatengenerator 6 auf die Anfangsabschnitte von jeweiligen Block-Sprachdaten durch Verwenden des A-Fensters und des B-Fensters angewendet worden, die, wie in 2 gezeigt, linear veränderlich sind. Jedoch können die Fenster auch auf Anfangsabschnitte von jeweiligen Block-Sprachdaten durch Verwenden von Fenstern angewendet werden, die jeweils Kosinuskurvenform haben. Außerdem kann das Fenster nicht nur angewendet werden auf den Anfangsabschnitt der jeweiligen Block-Sprachdaten, sondern auch auf die volle Blocklänge, wenn die Zwischenspeicherkapazität des Verbindungsdatenspeichers 7 genug groß ist.
  • Weiterhin wurden in der oben genannten Ausführungsform, wie in 3 gezeigt, die Verbindungsdaten für die Block-Sprachdaten (4),(8) und für die letzte Hälfte der Block-Sprachdaten (4),(8) im Verbindungsreihenfolge-Erzeuger 8 nur einmal wiederholt. Wenn jedoch die Erweiterungsvergrößerung „r" die Bedingung „r > 2" erfüllt, können aber auch dieselben Block-Sprachdaten zwei- oder mehrmals wiederholt werden.
  • INDUSTRIELLE ANWENDUNG
  • Wie oben beschrieben kann gemäß der vorliegenden Erfindung die Sprachgeschwindigkeit der Ausgabe-Sprache geändert werden, um unmittelbar einer Betätigung des Hörers zu folgen. Die Annehmlichkeit ihrer Verwendung kann auf diese Weise für den Hörer außerordentlich verbessert werden.

Claims (5)

  1. Sprachgeschwindigkeits-Umwandlungsvertahren, das die folgenden Schritte umfasst: Anwenden eines Analyseprozesses auf Eingangs-Sprachdaten auf Basis von Attributen; Teilen der Eingangs-Sprachdaten in Block-Einheiten, auf Basis von Informationen, die mit dem Analyseprozess gewonnen werden, wobei der Block eine Zeitdauer hat; Speichern der geteilten Sprachdaten als Block-Sprachdaten; Erzeugen von Verbindungsdaten, die zwischen benachbarten Block-Sprachdaten ersetzt oder eingesetzt werden sollen, für jeden Block, um eine zeitliche Verlängerung der Sprachdaten zu erreichen, und anschließendes Speichern der Verbindungsdaten; Erzeugen von Block-Verbindungsreihenfolge, um Ausgabe-Sprachdaten, die jeder beliebigen Sprachgeschwindigkeit entsprechen, in Reaktion auf eine Betätigung von einem Hörer zu erzeugen; und aufeinanderfolgendes Verbinden der Block-Sprachdaten, die bereits in Block-Einheiten aufgeteilt worden und dann gespeichert worden sind, sowie der Verbindungsdaten entsprechend der Block-Verbindungsreihenfolge, um so Ausgabe-Sprachdaten zu erzeugen.
  2. Sprachgeschwindigkeits-Umwandlungsverfahren nach Anspruch 1, wobei die Verbindungsdaten erzeugt werden, indem ein Fenster auf Sprachdaten, die sich an einem Anfangsabschnitt eines betreffenden Blocks befinden, und Sprachdaten, die sich an einem Anfangsabschnitt eines folgenden Blocks befinden, jeweils Block für Block unter Verwendung von zwei Fenstern, von denen jedes eine vorgegebene Linie in einem vorgegebenen Zeitintervall hat, angewendet wird, anschließend der Anfangsabschnitt des folgenden Blocks überlappend zu dem Anfangsabschnitt des betreffenden Blocks addiert wird.
  3. Sprachgeschwindigkeits-Umwandlungsvorrichtung (1) die, umfasst: einen Analyse-Prozessor (3), der einen Analyseprozess auf Eingangs-Sprachdaten auf Basis von Attributen anwendet; einen Block-Datenteiler (4), der die Eingangs-Sprechdaten in Block-Einheiten teilt, wobei der Block eine Zeitdauer hat, die entsprechend Analyseergebnissen bestimmt wird, die mit dem Analyse-Prozessor (3) gewonnen werden; einen Blockdaten-Speicherabschnitt (5), der von dem Block-Datenteiler (4) geteilte Sprachdaten als Block-Sprachdaten speichert; einen Verbindungsdaten-Erzeuger (6), der Verbindungsdaten, die zwischen benachbarten Block-Sprachdaten ersetzt oder eingesetzt werden können, unter Verwendung der Block-Sprachdaten erzeugt, die mit dem Block-Datenteiler (4) gewonnen werden; ein Verbindungsdaten-Speicherabschnitt (7), der die Verbindungsdaten speichert, die von dem Verbindungsdaten-Erzeuger (6) erzeugt werden; einen Verbindungsreihenfolge-Erzeuger (8), der Block-Verbindungsreihenfolge der Block-Sprachdaten und der Verbindungsdaten auf Basis einer Bedingung erzeugt, die einer eingestellten Sprachgeschwindigkeit entspricht; und eine Sprachdaten-Verbindungseinrichtung (9), die die Block-Sprachdaten, die bereits in dem Blockdaten-Speicherabschnitt (5) gespeichert worden sind, und die Verbindungsdaten, die in dem Verbindungsdaten-; Speicherabschnitt (7) gespeichert worden sind, auf Basis der Block-Verbindungsreihenfolge, die mit dem Block- Verbindungsreihenfolge-Erzeuger (8) ermittelt wurde, der Reihe nach verbindet, um so eine Reihe von Ausgabe-Sprachdaten zu erzeugen.
  4. Sprachgeschwindigkeits-Umwandlungsvorrichtung nach Anspruch 3, wobei der Verbindungsdaten-Erzeuger die Verbindungsdaten erzeugt, indem er ein Fenster auf Sprachdaten, die sich an einem Anfangsabschnitt eines betreffenden Blockes befinden, und Sprachdaten, die sich an einem Anfangsabschnitt eines folgenden Blockes befinden, jeweils Block für Block unter Verwendung von zwei Fenstern, von denen jedes eine vorgegebene Linie in einem vorgegebenen Zeitintervall hat, anwendet, anschließend den Anfangsabschnitt des folgenden Blockes überlappend zu dem Anfangsabschnitt des betreffenden Blockes addiert.
  5. Sprachgeschwindigkeits-Umwandlungsvorrichtung nach Anspruch 3, wobei der Verbindungsreihenfolge-Erzeuger enthält: einen beschreibbaren Speicher zum Speichern zeitlicher Erweiterungsvergrößerungen entsprechender Attribute, und einen Verbindungsreihenfolge-Entscheidungsprozessor, der die zeitlichen Erweiterungsvergrößerungen entsprechender Attribute, die in dem beschreibbaren Speicher gespeichert sind, in einem vorgegebenen Zeitintervall liest und die Block-Verbindungsreihenfolge der Block-Sprachdaten und der Verbindungsdaten zu jedem Zeitpunkt auf Basis der Erweiterungsvergrößerungen, von Blocklängen, die von dem Blockdaten-Speicherabschnitt ausgegeben werden, und fertig verbundenen Informationen, die von der Sprachdaten-Verbindungseinrichtung ausgegeben werden, erzeugt.
DE69816221T 1997-03-14 1998-03-13 Sprachschnellheitsveränderungsverfahren und vorrichtung Expired - Lifetime DE69816221T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9061015A JP2955247B2 (ja) 1997-03-14 1997-03-14 話速変換方法およびその装置
JP6101597 1997-03-14
PCT/JP1998/001063 WO1998041976A1 (fr) 1997-03-14 1998-03-13 Procede et dispositif permettant de modifier la vitesse des sons vocaux

Publications (2)

Publication Number Publication Date
DE69816221D1 DE69816221D1 (de) 2003-08-14
DE69816221T2 true DE69816221T2 (de) 2004-02-05

Family

ID=13159086

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69816221T Expired - Lifetime DE69816221T2 (de) 1997-03-14 1998-03-13 Sprachschnellheitsveränderungsverfahren und vorrichtung

Country Status (10)

Country Link
US (1) US6205420B1 (de)
EP (1) EP0910065B1 (de)
JP (1) JP2955247B2 (de)
KR (1) KR100283421B1 (de)
CN (1) CN1101581C (de)
CA (1) CA2253749C (de)
DE (1) DE69816221T2 (de)
DK (1) DK0910065T3 (de)
NO (1) NO316414B1 (de)
WO (1) WO1998041976A1 (de)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671292B1 (en) * 1999-06-25 2003-12-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for adaptive voice buffering
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
AU2001267764A1 (en) * 2000-08-09 2002-02-18 Thomson Licensing S.A. Method and system for enabling audio speed conversion
MXPA03001200A (es) * 2000-08-10 2003-06-30 Thomson Licensing Sa Sistema y metodo para habilitar la conversion de velocidad de audio.
US6993246B1 (en) 2000-09-15 2006-01-31 Hewlett-Packard Development Company, L.P. Method and system for correlating data streams
WO2002050798A2 (en) * 2000-12-18 2002-06-27 Digispeech Marketing Ltd. Spoken language teaching system based on language unit segmentation
KR100445342B1 (ko) * 2001-12-06 2004-08-25 박규식 듀얼 에스오엘에이 알고리듬을 이용한 음성속도변환방법및 시스템
US7149412B2 (en) * 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
GB0228245D0 (en) * 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
US20060187770A1 (en) * 2005-02-23 2006-08-24 Broadcom Corporation Method and system for playing audio at a decelerated rate using multiresolution analysis technique keeping pitch constant
US7643820B2 (en) * 2006-04-07 2010-01-05 Motorola, Inc. Method and device for restricted access contact information datum
TWI312500B (en) 2006-12-08 2009-07-21 Micro Star Int Co Ltd Method of varying speech speed
WO2008108239A1 (ja) * 2007-02-27 2008-09-12 Nec Corporation 音声認識システム、方法およびプログラム
JP4390289B2 (ja) 2007-03-16 2009-12-24 国立大学法人電気通信大学 再生装置
JP5093648B2 (ja) 2007-05-07 2012-12-12 国立大学法人電気通信大学 再生装置
US8447609B2 (en) * 2008-12-31 2013-05-21 Intel Corporation Adjustment of temporal acoustical characteristics
CN101989252B (zh) * 2009-07-30 2012-10-03 华晶科技股份有限公司 连续数据的数值分析方法及***
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US9036844B1 (en) 2013-11-10 2015-05-19 Avraham Suhami Hearing devices based on the plasticity of the brain
WO2015111772A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015111771A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015115677A1 (ko) * 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
JP6912303B2 (ja) * 2017-07-20 2021-08-04 東京瓦斯株式会社 情報処理装置、情報処理方法、及びプログラム
CN113611325B (zh) * 2021-04-26 2023-07-04 珠海市杰理科技股份有限公司 基于清浊音实现的语音信号变速方法、装置和音频设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3785189T2 (de) * 1987-04-22 1993-10-07 Ibm Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit.
JP2612868B2 (ja) 1987-10-06 1997-05-21 日本放送協会 音声の発声速度変換方法
JP2890530B2 (ja) 1989-10-06 1999-05-17 松下電器産業株式会社 音声速度変換装置
EP0427953B1 (de) * 1989-10-06 1996-01-17 Matsushita Electric Industrial Co., Ltd. Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
DE69228211T2 (de) 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JPH06202691A (ja) 1993-01-07 1994-07-22 Nippon Telegr & Teleph Corp <Ntt> 音声情報再生速度制御方法
EP0608833B1 (de) * 1993-01-25 2001-10-17 Matsushita Electric Industrial Co., Ltd. Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen
JP3147562B2 (ja) 1993-01-25 2001-03-19 松下電器産業株式会社 音声速度変換方法
JP3373933B2 (ja) 1993-11-17 2003-02-04 三洋電機株式会社 話速変換装置
JP3457393B2 (ja) 1994-09-14 2003-10-14 日本放送協会 話速変換方法
JP3123397B2 (ja) 1995-07-14 2001-01-09 トヨタ自動車株式会社 車両用舵角比可変操舵装置
JPH09152889A (ja) 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 話速変換装置
US6009386A (en) * 1997-11-28 1999-12-28 Nortel Networks Corporation Speech playback speed change using wavelet coding, preferably sub-band coding

Also Published As

Publication number Publication date
CA2253749A1 (en) 1998-09-24
CN1101581C (zh) 2003-02-12
CN1219264A (zh) 1999-06-09
NO316414B1 (no) 2004-01-19
NO985301L (no) 1998-12-16
JPH10257596A (ja) 1998-09-25
DK0910065T3 (da) 2003-10-27
CA2253749C (en) 2002-08-13
EP0910065B1 (de) 2003-07-09
NO985301D0 (no) 1998-11-13
US6205420B1 (en) 2001-03-20
DE69816221D1 (de) 2003-08-14
KR20000010930A (ko) 2000-02-25
WO1998041976A1 (fr) 1998-09-24
KR100283421B1 (ko) 2001-03-02
JP2955247B2 (ja) 1999-10-04
EP0910065A4 (de) 2000-02-23
EP0910065A1 (de) 1999-04-21

Similar Documents

Publication Publication Date Title
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE4227826C2 (de) Digitales Verarbeitungsgerät für akustische Signale
DE4328620C1 (de) Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE102019200954A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
WO2001020965A2 (de) Verfahren zur bestimmung einer momentanen akustischen umgebungssituation, anwendung des verfharens und ein hörgerät
DE4326746A1 (de) Lautstärkeregelgerät
EP1091349A2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
EP1247425B1 (de) Verfahren zum betrieb eines hörgerätes und ein hörgerät
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE102019200956A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE3733983A1 (de) Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen
DE60004403T2 (de) Vorrichtung und verfahren zur signalqualitätserfassung
DE2021126A1 (de) Spracherkennungsvorrichtung
DE69828849T2 (de) Signalverarbeitungsgerät und -verfahren sowie Informationsaufzeichnungsgerät
DE102007011436B4 (de) Vorrichtung und Verfahren zum Formen eines digitalen Audiosignals
DE2854601A1 (de) Ton-synthesizer und verfahren zur ton-aufbereitung
EP1170723B1 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
DE10196989T5 (de) Verbessertes Sprachumwandlungssystem und -vorrichtung
DE102004020326B4 (de) Wellenformeinstellsystem für eine Musikdatei
DE4102078C2 (de) Toneffektgerät zur Erzeugung von Nachhalleffekten
EP1348315B1 (de) Verfahren zum betrieb eines hörgeräts und hörgerät dafür

Legal Events

Date Code Title Description
8364 No opposition during term of opposition