EP1062487B1

EP1062487B1 - Microphone device for speech recognition in variable spatial conditions

Info

Publication number: EP1062487B1
Application number: EP99914401A
Authority: EP
Inventors: Ralf Kern; Karl-Heinz Pflaum
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1998-03-18
Filing date: 1999-02-03
Publication date: 2003-06-11
Anticipated expiration: 2019-02-03
Also published as: EP1062487A1; ATE242873T1; DE59905927D1; WO1999048086A1; US7043427B1; ES2201695T3; DE19811879C1

Abstract

An apparatus and a method for speech recognition are provided, by which, whereby the speech is optionally input via a microphone ( 14 ) close to the speaker or a microphone ( 20 ) remote from the speaker. A correction unit ( 15 ) is connected into the transmission channel ( 12 ) with microphone ( 14 ) close to the speaker, the correction unit modifying the electrical speech signal in such a way that it contains room transmission characteristics.

Description

Die Erfindung betrifft eine Einrichtung zur Spracherkennung, bei der die Sprache wahlweise mittels eines sprechernahen Mikrofons in elektrische Signale gewandelt und über einen ersten Übertragungskanal einem Erkennungssystem oder mittels eines sprecherfernen Mikrofons in elektrische Signale gewandelt und über einen zweiten Übertragungskanal dem Erkennungssystem zugeführt wird, und bei der das Erkennungssystem die mittels des jeweiligen Mikrofons aufgenommenen Sprachelemente mit zuvor in einer Trainingsphase gelernten Sprachelementen vergleicht und bei Übereinstimmung ein Erkennungssignal erzeugt. Ferner betrifft die Erfindung ein Verfahren zum Erkennen von Sprache.The invention relates to a device for speech recognition, where the language can be selected using a near-speaker Microphones converted into electrical signals and over one first transmission channel a detection system or by means of of a microphone far from the speaker converted into electrical signals and the detection system via a second transmission channel is fed, and in which the detection system speech elements recorded by the respective microphone with language elements previously learned in a training phase compares and generates a recognition signal if they match. The invention further relates to a method for recognition of language.

Bei der Erkennung von Sprache oder von Sprachelementen (Siehe Q. Lin et al: Robust distant-talking speech recognition, 1996 IEEE International Conference on acoustics, p. 21-24, Vol. 1 und US-A-5 267 323) besteht häufig die Schwierigkeit, daß die über ein Mikrofon eingegebenen Sprachelemente von variierenden raumakustischen Größen überlagert sind. Das Übertragungsverhalten des Raumes kann somit die Erkennungsrate des Erkennungssystems erheblich beeinflussen. Die bisher realisierten Einrichtungen und Verfahren zur Spracherkennung berücksichtigen die Änderung der Übertragungsfunktion des Raumes nicht. Im allgemeinen wird bei den bisherigen Einrichtungen und Verfahren davon ausgegangen, daß die Übertragungsfunktion bei der Übertragung von Sprache einer Person bis zur digitalen Aufzeichnung sowohl bei der Trainingsphase als auch bei der späteren Nutzung zur Spracherkennung, insbesondere bei sprecherabhängiger Spracherkennung, gleich bleibt. Bei der Erkennung von Sprache, beispielsweise über ein Telefon, ist eine solche Annahme jedoch praxisfremd, denn heutige Telefonsysteme haben die Möglichkeit der Umschaltung zwischen einem sprechernahen Telefon, bei dem das Mikrofon des Telefonhörers nahe dem Mund des Sprechers gehalten wird, und einem sprecherfernen Mikrofon, bei dem in einem Freisprechzustand das Mikrofon Stimmen in einem vergrößerten Abstand aufnimmt. Der typische Abstand für ein sprechernahes Mikrofon liegt im Bereich von 0 bis 30 cm, d.h. es wird überwiegend der Direktschall in elektrische Signale gewandelt. Beim sprecherfernen Mikrofon ist der Abstand größer und es vermischen Schallelemente infolge von Echoeffekten, Wandreflexionen und Direktschall. Wenn nun während der Trainingsphase das sprechernahe Mikrofon verwendet und im späteren Gebrauch das sprecherferne Mikrofon eingesetzt wird, so sinkt die Erkennungsrate bereits aufgrund der unterschiedlichen Raumübertragungsfunktionen infolge der unterschiedlichen Übertragungsstrecken.When recognizing speech or speech elements (see Q. Lin et al: Robust distant-talking speech recognition, 1996 IEEE International Conference on acoustics, p. 21-24, Vol. 1 and US-A-5 267 323) often the difficulty of having a microphone entered speech elements of varying room acoustic Sizes are overlaid. The transmission behavior of the room The detection rate of the detection system can thus be considerable influence. The facilities and processes implemented so far for speech recognition take into account the change in Transfer function of the room is not. In general with the previous facilities and processes, that the transfer function in the transfer of A person's speech up to digital recording both in the training phase as well as in later use for Speech recognition, especially with speaker-dependent speech recognition, stays the same. When recognizing speech, for example over a phone, however, is such an assumption not practical, because today's telephone systems have the possibility switching between a telephone close to the speaker, where the microphone of the handset is near the mouth of the Speaker is held, and a microphone remote from the speaker, in which in a hands-free state the microphone voices in takes up a greater distance. The typical distance for a microphone close to the speaker is in the range of 0 to 30 cm, i.e. it is mainly the direct sound in electrical signals changed. With the microphone far from the speaker, the distance is larger and mix sound elements due to echo effects, Wall reflections and direct sound. If now during used the microphone close to the speaker during the training phase and in the microphone away from the speaker is used later, the detection rate already drops due to the different Space transfer functions due to the different Transmission links.

Es ist Aufgabe der Erfindung, eine Einrichtung und ein Verfahren zur Spracherkennung anzugeben, das unabhängig vom Abstand des Sprechers zu einem Mikrofon mit hoher Zuverlässigkeit arbeitet.It is an object of the invention, a device and a method for speech recognition, regardless of the distance the speaker to a microphone with high reliability is working.

Diese Aufgabe wird für eine Einrichtung durch die Merkmale des Anspruchs 1 und für ein Verfahren durch die Merkmale des Anspruchs 9 gelöst. Vorteilhafte Weiterbildungen sind in den abhängigen Ansprüchen angegeben.This task is for an establishment by the features of claim 1 and for a method by the features of Claim 9 solved. Advantageous further developments are in the dependent claims specified.

Gemäß der Erfindung wird in den ersten Übertragungskanal eine Korrektureinheit geschaltet, die das elektrische Signal so abändert, daß es Raumübertragungseigenschaften enthält. Es wird also die Sprache, welche über ein sprechernahes Mikrofon eingegeben wird, im elektrischen Signal so abgeändert, daß es die Eigenschaften hat, wie die Sprache, welche über das sprecherferne Mikrofon eingegeben worden ist. Durch die Korrektureinheit werden also die raumakustischen Einflüsse für eine relativ große Sprachubertragungsstrecke nachgebildet. Beispielsweise werden durch die Korrektureinheit Schallreflexionen an nahen Objekten und oder das Nachhallen in Räumen nachgebildet.According to the invention in the first transmission channel Correction unit switched so the electrical signal modified that it contains space transfer properties. It becomes the language, which is via a microphone close to the speaker is entered, modified in the electrical signal so that it has the properties, like the language, which is beyond the speaker Microphone has been entered. By the correction unit are the room acoustic influences for one replicated relatively large voice transmission link. For example are reflected by the correction unit replicated on nearby objects and or reverberation in rooms.

Ein Ausführungsbeispiel der Erfindung wird im folgenden anhand der Zeichnung erläutert. Darin zeigt:

Figur 1: eine Einrichtung zur Spracherkennung, wobei die Sprache über ein Telefon eingegeben wird, und
Figur 2: eine Einrichtung nach Figur 1 mit adaptiven Filtern.

An embodiment of the invention is explained below with reference to the drawing. It shows:

Figure 1: a device for speech recognition, the speech being entered via a telephone, and
Figure 2: a device according to Figure 1 with adaptive filters.

Figur 1 zeigt eine Einrichtung zur Spracherkennung, bei der die Sprache durch eine Person 10 mittels eines Telefons eingegeben wird. Im oberen, ersten Übertragungskanal 12 wird die Sprache durch ein sprechernahes Mikrofon 14, beispielsweise mit dem Handsprechapparat, eingegeben. Die Sprache wird durch das Mikrofon 14 in ein elektrisches Signal gewandelt und durch einen Verstärker 16 vorverstärkt. Eine Korrektureinheit 15 ändert das elektrische Signal derart ab, daß es Übertragungeigenschaften eines Raumes mit einer Übertragungsstrecke größer als der Nahbereich hat. Beispielsweise bildet diese Korrektureinheit 15 das Nachhallen in Räumen und/oder die Schalireflexionen an nahen Objekten innerhalb der Sprachübertragungsstrecke nach. Derartige Schallreflexionen können beispielsweise von einer Tischplatte, von einem Bildschirm oder von anderen Gegenständen herrühren. Das Nachhallen in Räumen rührt dagegen von Reflexionen an relativ weit entfernten Objekten, wie beispielsweise von den Wänden des Raumes. Das durch die Korrektureinheit 15 geänderte elektrische Signal durchläuft ein Kompensationsfilter 18, das zur Kompensation variierender Mikrofon- und Verstärker-Frequenzgähge dient. Das elektrische Signal wird dann einem Datenverarbeitungssystem 17 zugeführt, welches die weitere digitale Verarbeitung zur Spracherkennung vornimmt.Figure 1 shows a device for speech recognition in which the speech is entered by a person 10 using a telephone becomes. In the upper, first transmission channel 12 Speech through a microphone 14 near the speaker, for example with the handset. The language is through the microphone 14 converted into an electrical signal and pre-amplified by an amplifier 16. A correction unit 15 changes the electrical signal so that it has transmission properties of a room with a transmission link larger than the close range. For example, this forms Correction unit 15 the reverberation in rooms and / or the Shell reflections on nearby objects within the voice transmission path to. Such sound reflections can, for example from a table top, from a screen or come from other objects. The reverberation in rooms stems from reflections on relatively distant objects, such as from the walls of the room. The electrical signal changed by the correction unit 15 passes through a compensation filter 18, which is used for compensation varying microphone and amplifier frequency response is used. The electrical signal is then sent to a data processing system 17 fed, which the further digital processing for speech recognition.

Im unteren Bildteil der Figur 1 ist die Eingabe von Spracheiementen über eine Freisprechanlage dargestellt. Die Sprache der Person 10 wird durch eine spezielle Raumübertragungsfunktion RÜF verändert, d.h. die vom Sprecher 10 am Mikrofon 20 ankommenden Sprachelemente sind beispielsweise durch Schallreflexionen an nahen Objekten und durch das Nachhallen in Räumen und gegebenenfalls durch Fremdgeräusche überlagert. Das elektrische Signal des sprecherfernen Mikrofons 20 wird durch einen Vorverstärker 22 vorverstärkt und gelangt zu einem Kompensationsfilter 24 zur Kompensation variierender Mikrofon- und Verstärkerfrequenzgänge. Das so gefilterte elektrische Signal wird der Datenverarbeitungsanlage 17 zur Spracherkennung zugeführt.In the lower part of the figure 1 is the input of speech elements represented via a hands-free system. The language the person 10 is through a special space transfer function RÜF changed, i.e. that of the speaker 10 on the microphone 20 incoming speech elements are, for example, due to sound reflections on nearby objects and by reverberating in Rooms and possibly superimposed by external noise. The electrical signal of the microphone 20 remote from the speaker is pre-amplified by a preamplifier 22 and arrives at a Compensation filter 24 for compensation of varying microphone and amplifier frequency responses. The filtered electrical Signal is the data processing system 17 for Speech recognition fed.

Beim Betrieb der in Figur 1 gezeigten Einrichtung werden während einer Trainingsphase Sprachproben in der Datenverarbeitungsanlage 17 abgespeichert. Beispielsweise kann mithilfe solcher Sprachproben ein persönliches Telefonbuch aufgebaut werden. Hierzu wird während der Trainingsphase der Name eines Teilnehmers mindestens zweimal gesprochen und mit der zum Namen gehörenden Telefonnummer in einem persönlichen Telefonbuch abgelegt. Nach Ablauf der Trainingsphase wird in der Nutzungsphase der Name erneut eingegeben, wobei die Datenverarbeitungsanlage 17 mithilfe von Erkennungsmethoden, beispielsweise der Spektralanalyse oder der LPC-Ceptralanalyse, versucht, diesen Namen aufgrund der zuvor abgespeicherten Namen wiederzuerkennen und bei positivem Resultat die unter diesem Namen gespeicherte Telefonnummer auszugeben und die Telefonverbindung aufzubauen. Nachdem im Übertragungskanal 12 die Korrektureinheit 14 ein elektrisches Sprachsignal erzeugt, welches dieselben Raumeigenschaften hat wie das Sprachsignal des zweiten Übertragungskanals 19, spielt es für die Spracherkennung keine Rolle, ob während der Trainingsphase oder während der Wiedererkennungsphase dasselbe Mikrofon 14 bzw. 20 verwendet wird. Durch die Korrektureinheit 15 ist es also möglich, das Telefon sowohl mit dem Handapparat als auch im Zustand Freisprechen zu benutzen.When operating the device shown in Figure 1 during a training phase speech samples in the data processing system 17 saved. For example, using of such speech samples a personal phone book was built become. For this purpose, the name of a Participant speaks at least twice and with the to Name-associated phone number in a personal phone book stored. After the training phase is over, Usage phase the name entered again, the data processing system 17 using detection methods, for example spectral analysis or LPC ceptral analysis, tried this name based on the previously saved Recognize names and, if the result is positive, see below output the phone number stored under this name and the Establish telephone connection. After in transmission channel 12 the correction unit 14 generates an electrical speech signal, which has the same spatial characteristics as that Speech signal of the second transmission channel 19, it plays for the speech recognition doesn't matter whether during the training phase or the same microphone during the recognition phase 14 or 20 is used. By the correction unit 15 So it is possible to use both the handset and the phone can also be used in handsfree mode.

Figur 2 zeigt eine Variante der Einrichtung nach Figur 1. Im Unterschied zur Einrichtung nach Figur 1 ist die Korrektureinheit 15 als adaptives Filter ausgebildet, d.h. die Filterparameter werden abhängig von den aufgenommenen Audiosignalen variiert. Auf diese Weise kann die Erkennungsrate erhöht werden. Auch die Kompensationsfilter 18 bzw. 24 in den beiden Übertragungskanälen 12 bzw. 19 sind als adaptive Filter ausgebildet; ihre Filterparameter werden abhängig von den aufgenommenen Audiosignalen eingestellt.Figure 2 shows a variant of the device of Figure 1. Im The difference to the device according to FIG. 1 is the correction unit 15 designed as an adaptive filter, i.e. the filter parameters become dependent on the recorded audio signals varied. The detection rate can be increased in this way. The compensation filters 18 and 24 in the two Transmission channels 12 and 19 are designed as adaptive filters; their filter parameters are dependent on the recorded ones Audio signals set.

Claims

Speech recognition device,
in which the speech is either converted into electrical signals by means of a microphone (14) near to the speaker and is fed to a recognition system (17) via a first transmission channel (12)
or is converted into electrical signals by means of a microphone (20) remote from the speaker and is fed to the recognition system (17) via a second transmission channel (19),
and in which the recognition system (17) compares the speech elements recorded by means of the respective microphone (14, 20) with speech elements which have been previously learnt in a training phase, and generates a recognition signal when they correspond, characterized in that a correction unit (15) is connected into the first transmission channel (12), said correction unit (15) changing the electrical signal in such a way that it has spatial transmission properties such as occur when recording is carried out with a microphone remote from the speaker.
Device according to Claim 1, characterized in that the correction unit (15) simulates sound reflections at near objects.
Device according to Claim 1 or 2, characterized in that the correction unit (15) simulates reverberation in spaces.
Device according to one of the preceding claims, characterized in that the correction unit (15) is embodied as a steady-state filter or as an adaptive filter.
Device according to Claim 4, characterized in that the filter parameters are set at the adaptive filter (15) as a function of the recorded audio signals.
Device according to one of the preceding claims, characterized in that the first transmission channel (12) and the second transmission channel (19) each contain a pre-amplifier (16, 22) for the microphone (14, 20).
Device according to one of the preceding claims, characterized in that each transmission channel (12, 19) contains a compensation filter (18, 24) for compensating varying microphone and amplifier frequency responses.
Device according to one of the preceding claims, characterized in that the recognition system (17) applies spectral analysis or LPC-ceptral analysis as the speech recognition method.
Method for recognizing speech,
in which the speech is either converted into electrical signals by means of a microphone (14) near to the speaker and is fed to a recognition system (17) via a first transmission channel (12)
or is converted into electrical signals by means of a microphone (20) remote from the speaker and is fed to the recognition system (17) via a second transmission channel (19),
and in which the speech elements recorded by means of the respective microphone (14, 20) are compared in the recognition system (17) with speech elements which have been previously learnt in a training phase, and a recognition signal is generated when they correspond, characterized in that a correction unit (15) is connected into the first transmission channel (12), with the electrical signal being changed in such a way that it has spatial transmission properties such as occur when recording is carried out with a microphone remote from the speaker.
Method according to Claim 9, characterized in that sound reflections at near objects are simulated by means of the correction unit (15).
Method according to Claim 9 or 10, characterized in that reverberation in spaces is simulated by means of the correction unit (15).