EP1710788B1

EP1710788B1 - Verfahren und Vorrichtung zur Sprachkonversion

Info

Publication number: EP1710788B1
Application number: EP05102714A
Authority: EP
Inventors: Rolf Vetter; Jérôme Cornuz; Philippe Vuadens; Josep Sola I Caros; Philippe Renevey
Original assignee: Centre Suisse dElectronique et Microtechnique SA CSEM
Current assignee: Centre Suisse dElectronique et Microtechnique SA CSEM
Priority date: 2005-04-07
Filing date: 2005-04-07
Publication date: 2009-07-15
Anticipated expiration: 2025-04-07
Also published as: DE602005015419D1; EP1710788A1

Claims

Tragbare Vorrichtung zur Wiederherstellung einer beeinträchtigten Sprechweise, dadurch gekennzeichnet, dass sie folgendes umfasst:
- ein System zum Erfassen dieser beeinträchtigten Sprechweise (30), das ein elektrisches Signal hervorbringt, das diese darstellt, wobei das Signal aus einem Mikrofon kommt,

- einen Prozessor (36) für dieses Signal, der programmiert ist, um eine Entnahme und eine Trennung der ursprünglichen Erregung und der Ausspracheparameter vorzunehmen, wobei die ursprüngliche Erregung im Wesentlichen periodisch ist und ein Grundmuster aufweist, die Wiederherstellung der ursprünglichen Erregung vorzunehmen ausgehend von Parametern, die sich aus der beeinträchtigten Sprechweise ergeben und welche die momentane mittlere Leistung und die momentane mittlere Grundfrequenz der ursprünglichen Erregung umfassen, und von vorherbestimmten Elementen, die sich aus einer gesunden Sprechweise ergeben, die Informationen über die Variabilität der Grundfrequenz, die Form des Musters und seine Variabilität umfassen, und die Rekonstruktion der Sprache vorzunehmen ausgehend von den Ausspracheparametern und der wiederhergestellten ursprünglichen Erregung, um ein Signal hervorzubringen, das die rekonstruierte Sprechweise darstellt, und

- ein Lautsprechersystem (42), das das von dem Prozessor gelieferte Signal in ein akustisches Signal umsetzt.
Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass der Prozessor (36) ferner programmiert ist, um die Wahrscheinlichkeit eines stimmhaften Tons, parallel zur Entnahme der Erregung und den Ausspracheparametern und der Wiederherstellung der ursprünglichen Erregung zu schätzen, und um die ursprüngliche wiederhergestellte Erregung und die ursprüngliche Erregung ausgehend von der Wahrscheinlichkeit eines stimmhaften Tons zu mischen.
Vorrichtung nach einem der Ansprüche 1 und 2, dadurch gekennzeichnet, dass zum Durchführen der Wiederherstellung der ursprünglichen Erregung der Prozessor (36) programmiert ist zum:
- Berechnen der momentanen mittleren Leistung und der momentanen mittleren Grundfrequenz der ursprünglichen Erregung,

- Verlagern der momentanen mittleren Grundfrequenz und Einführen einer Variabilität der Grundfrequenz, die sich aus einer gesunden Sprechweise ergibt, und

- Rekonstruieren einer harmonischen Erregung, die das Muster, das sich aus einer gesunden Sprechweise ergibt, und die dafür charakteristische Variabilität, die berechnete momentane mittlere Leistung, die verlagerte momentane mittlere Grundfrequenz und die Variabilität der Grundfrequenz, die sich aus einer gesunden Sprechweise ergibt, aufweist.
Vorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass sie ferner folgendes umfasst:
- ein erstes Verstärkungsmodul (32) am Ausgang des Spracherfassungssystems (30),

- ein Modul zum Umsetzen des Analogsignals in ein Digitalsignal (34) zwischen dem ersten Verstärkungsmodul (32) und dem Signalprozessor (36),

- ein Modul zum Umsetzen des Digitalsignals in ein Analogsignal (38) am Ausgang des Signalprozessors (36), und

- ein zweites Verstärkungsmodul (40) zwischen dem Modul zum Umsetzen des Digitalsignals in ein Analogsignal (38) und dem Lautsprechersystem (42).
Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass es ferner ein Modul umfasst zum Kompensieren einer beeinträchtigten Sprechweise.
Verfahren zur Wiederherstellung einer beeinträchtigten Sprechweise durch die Verarbeitung eines elektrischen Signals, das aus einem Mikrofon kommt und die Sprechweise darstellt, dadurch gekennzeichnet, dass es die folgenden Hauptschritte umfasst:
- Entnehmen und Trennen (16) der ursprünglichen Erregung und der Ausspracheparameter, wobei die ursprüngliche Erregung im Wesentlichen periodisch ist und ein Grundmuster aufweist,

- Wiederherstellen (18) der ursprünglichen Erregung ausgehend von Parametern, die sich aus der beeinträchtigten Sprechweise ergeben und die momentane mittlere Grundfrequenz und die momentane mittlere Leistung der ursprünglichen Erregung umfassen, und von vorherbestimmten Elementen, die sich aus einer gesunden Sprechweise ergeben und Informationen über die Variabilität der Grundfrequenz, die Form des Musters und seine Variabilität umfassen, und

- Rekonstruieren der Sprechweise (24) ausgehend von den Ausspracheparametern und der wiederhergestellten ursprünglichen Erregung, um ein akustisches Signal hervorzubringen, das die rekonstruierte Sprechweise darstellt.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass es ferner folgendes umfasst:
- einen Schritt des Einschätzens der Wahrscheinlichkeit eines stimmhaften Tons (12), der parallel zu den Schritten des Entnehmens der Erregung und der Ausspracheparameter (16) und des Wiederherstellens der ursprünglichen Erregung (18) erfolgt, und

- einen Schritt des Mischens der wiederhergestellten ursprünglichen Erregung und der ursprünglichen Erregung (20) ausgehend von der Wahrscheinlichkeit eines stimmhaften Tons.
Verfahren nach einem der Ansprüche 6 und 7, dadurch gekennzeichnet, dass der Schritt des Wiederherstellens der ursprünglichen Erregung folgende Vorgänge umfasst:
- Berechnen der momentanen mittleren Leistung und der momentanen mittleren Grundfrequenz der ursprünglichen Erregung (18a),

- Verlagern der momentanen mittleren Grundfrequenz und Einführen einer Variabilität der Grundfrequenz, die sich aus einer gesunden Sprechweise (18c) ergibt, und

- Rekonstruieren einer harmonischen Erregung (18d), die das Muster, das sich aus einer gesunden Sprechweise ergibt, und die dafür charakteristische Variabilität, die berechnete momentane mittlere Leistung, die verlagerte momentane mittlere Grundfrequenz und die Variabilität der Grundfrequenz, die sich aus einer gesunden Sprechweise ergibt, aufweist.