DE102020134752A1

DE102020134752A1 - METHOD OF EVALUATING THE QUALITY OF READING A TEXT, COMPUTER PROGRAM PRODUCT, COMPUTER READABLE MEDIA AND EVALUATION DEVICE

Info

Publication number: DE102020134752A1
Application number: DE102020134752.9A
Authority: DE
Inventors: Daniel Iglesias; Andreas Haag
Original assignee: Digi Sapiens Digital Learning GmbH
Current assignee: Digi Sapiens Digital Learning GmbH
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-06-23
Anticipated expiration: 2040-12-23
Also published as: DE102020134752B4

Abstract

Es wird ein Verfahren zum Bewerten der Qualität des Vorlesens eines Texts (10) durch einen Menschen vorgeschlagen, wobei das Verfahren folgende Schritte umfasst: Eingeben des Texts (10) in eine Bewertungsvorrichtung (5); Eingeben eines Referenzvorlesens (15) des Texts in die Bewertungsvorrichtung (5) und/oder Erzeugen eines Referenzvorlesens des Texts durch die Bewertungsvorrichtung (5); Durchführen einer automatischen Spracherkennung des von einem Menschen vorgelesenen Texts (20) durch die Bewertungsvorrichtung (5); Bestimmen der aktuellen Vorleseposition des vorlesenden Menschen in dem Text (10); Vergleichen des vorgelesenen Texts (20) an der aktuellen Vorleseposition mit dem Text des Referenzvorlesens (15) an der aktuellen Vorleseposition; Bestimmen mehrerer Qualitätswerte des Vorlesens des vorgelesenen Texts (20) auf Basis eines Vergleichs von Teilen des vorgelesenen Texts (20) mit Teilen des Referenzvorlesens (15) mittels eines maschinellen Lernsystems; Bewerten der Qualität des Vorlesens des vorgelesenen Texts (20) auf Grundlage der mehreren bestimmten Qualitätswerte; und Ausgeben der Bewertung der Qualität des VorlesensA method is proposed for evaluating the quality of the reading of a text (10) by a human, the method comprising the following steps: inputting the text (10) into an evaluation device (5); inputting a reference reading (15) of the text into the evaluation device (5) and/or generating a reference reading of the text by the evaluation device (5); the evaluation device (5) performing automatic speech recognition of the text (20) read aloud by a human; determining the current reading position of the reading human in the text (10); comparing the text (20) read aloud at the current reading position to the text of the reference reading (15) at the current reading position; determining a plurality of reading quality scores of the read-aloud text (20) based on a comparison of portions of the read-aloud text (20) to portions of the reference reading (15) using a machine learning system; assessing the quality of reading the read text (20) based on the plurality of determined quality values; and outputting the rating of the quality of the reading

Description

Die Erfindung betrifft ein Verfahren zum Bewerten der Qualität des Vorlesens eines Texts, ein Computerprogrammprodukt, ein computerlesbares Medium und eine Bewertungsvorrichtung.The invention relates to a method for evaluating the quality of reading a text, a computer program product, a computer-readable medium and an evaluation device.

Stand der TechnikState of the art

Eine Vielzahl von Verfahren zum Bewerten des Vorlesens eines Texts, der von einem Menschen vorgelesen wird, ist bekannt. Bei den bekannten Verfahren wird die Artikulation der einzelnen Wörter analysiert und die Aussprache des Texts nur anhand der Artikulation der einzelnen Wörter bewertet.A variety of methods for assessing the reading aloud of a text read aloud by a human are known. In the known methods, the articulation of the individual words is analyzed and the pronunciation of the text is evaluated only on the basis of the articulation of the individual words.

Nachteilig hieran ist, dass die Qualität des Vorlesens nur anhand der Artikulation bewertet wird, jedoch eine korrekte Artikulation der einzelnen Wörter nur wenig über die Qualität des Vorlesens insgesamt aussagt.The disadvantage here is that the quality of the reading is only evaluated on the basis of the articulation, but correct articulation of the individual words says little about the overall quality of the reading.

Offenbarung der ErfindungDisclosure of Invention

Der Erfindung liegt die Aufgabe zu Grunde, ein Verfahren zum Bewerten der Qualität des Vorlesens eines Texts bzw. eine Bewertungsvorrichtung aufzuzeigen, das bzw. bei der technisch einfach eine Qualität des Vorlesens umfassend bewertet wird.The invention is based on the object of demonstrating a method for evaluating the quality of the reading aloud of a text or an evaluation device which comprehensively evaluates the quality of the reading aloud in a technically simple manner.

Diese Aufgabe wird ein Verfahren gemäß Anspruch 1 bzw. eine Bewertungsvorrichtung gemäß Anspruch 17 gelöst.This object is achieved with a method according to claim 1 or an evaluation device according to claim 17 .

Insbesondere wird die Aufgabe durch ein Verfahren zum Bewerten der Qualität des Vorlesens eines Texts durch einen Menschen gelöst, wobei das Verfahren folgende Schritte umfasst: Eingeben des Texts in eine Bewertungsvorrichtung; Eingeben eines Referenzvorlesens des Texts in die Bewertungsvorrichtung und/oder Erzeugen eines Referenzvorlesens des Texts durch die Bewertungsvorrichtung; Durchführen einer automatischen Spracherkennung des von einem Menschen vorgelesenen Texts durch die Bewertungsvorrichtung; Bestimmen der aktuellen Vorleseposition des vorlesenden Menschen in dem Text; Vergleichen des vorgelesenen Texts an der aktuellen Vorleseposition mit dem Text des Referenzvorlesens an der aktuellen Vorleseposition; Bestimmen mehrerer Qualitätswerte des Vorlesens des vorgelesenen Texts auf Basis eines Vergleichs von Teilen des vorgelesenen Texts mit Teilen des Referenzvorlesens mittels eines maschinellen Lernsystems; Bewerten der Qualität des Vorlesens des vorgelesenen Texts auf Grundlage der mehreren bestimmten Qualitätswerte; und Ausgeben der Bewertung der Qualität des Vorlesens.In particular, the object is achieved by a method for evaluating the quality of the reading of a text by a human, the method comprising the following steps: entering the text into an evaluation device; inputting a reference reading of the text into the evaluation device and/or generating a reference reading of the text by the evaluation device; performing, by the assessment device, automatic speech recognition of the text read aloud by a human; determining the current reading position of the reading human in the text; comparing the text read aloud at the current reading position to the text of the reference reading at the current reading position; determining a plurality of read aloud quality scores of the read aloud text based on a comparison of portions of the read aloud text to portions of the reference reading using a machine learning system; assessing the quality of reading the read text based on the plurality of determined quality values; and outputting the rating of the quality of the reading.

Ein Vorteil hiervon ist, dass die Qualität des Vorlesens umfassend bewertet wird. Die Qualität des Vorlesens wird nicht nur auf Grundlage eines Aspekts des Vorlesens bewertet, der unter Umständen nichts über die Qualität des Vorlesens insgesamt aussagt, sondern die Qualität des Vorlesens wird auf Grundlage eines umfassenden Bilds des Vorlesens bewertet. Hierdurch kann ein unter Umständen im Vergleich zum Referenzvorlesen nicht vollständig zutreffender Aspekt des Vorlesens bzw. ein einzelner niedriger Qualitätswert durch einen anderen Aspekt des Vorlesens bzw. einen anderen Qualitätswert ausgeglichen werden. Folglich kann ein besonders zuverlässiger bzw. valider Qualitätswert des Vorlesens, das von dem Menschen durchgeführt wird, bestimmt und ausgegeben werden. Der Mensch kann ein Kind, insbesondere während des Erwerbs der Lesefähigkeit, sein. Denkbar ist auch, dass der Mensch ein Erwachsener ist, insbesondere eine Person, die eine Fremdsprache lernt. Die aktuelle Vorleseposition kann bestimmt werden, indem der aktuell vorgelesene Teil des Texts analysiert wird und dieser mit der vorhandenen oder generierten Aussprache des Texts verglichen wird. Auf diese Weise kann festgestellt werden, wo im Text der Mensch gerade einen Teil des Texts vorliest. Ein Vorteil des Erzeugens des Referenzvorlesens ist, dass Zeit und Aufwand gespart werden. Das Erzeugen durch Sprachsynthese kann schnell und technisch einfach durchgeführt werden. Somit ist sichergestellt, dass für jeden Text ein Referenzvorlesen vorhanden ist.An advantage of this is that the quality of the reading is comprehensively evaluated. The quality of reading is not only assessed on the basis of one aspect of reading, which may not say anything about the quality of reading overall, but the quality of reading is assessed on the basis of a comprehensive picture of reading. In this way, an aspect of reading aloud that may not be completely accurate compared to the reference reading or an individual low quality value can be compensated for by another aspect of reading aloud or another quality value. Consequently, a particularly reliable or valid quality value of the reading performed by the human can be determined and output. The human can be a child, especially during the acquisition of reading skills. It is also conceivable that the person is an adult, in particular a person who is learning a foreign language. The current reading position can be determined by analyzing the part of the text currently being read and comparing it to the existing or generated pronunciation of the text. In this way it can be determined where in the text the person is reading part of the text. An advantage of creating the reference narration is that it saves time and effort. Generating by speech synthesis can be carried out quickly and technically easily. This ensures that a reference reading is available for each text.

Insbesondere wird die Aufgabe auch durch ein Bewertungsvorrichtung zum Bewerten der Qualität des Vorlesens eines Menschen gelöst, wobei die Bewertungsvorrichtung eine Spracherkennungsvorrichtung zum Durchführen einer automatischen Spracherkennung des von einem Menschen vorgelesenen Texts, eine Vorlesepositionsbestimmungsvorrichtung zum Bestimmen der aktuellen Vorleseposition des vorlesenden Menschen in dem Text, und eine Sprachanalysevorrichtung zum - Vergleichen des vorgelesenen Texts an der aktuellen Vorleseposition mit dem Text des Referenzvorlesens an der aktuellen Vorleseposition, - Bestimmen mehrerer Qualitätswerte des Vorlesens des vorgelesenen Texts auf Basis eines Vergleichs von Teilen des vorgelesenen Texts mit Teilen des Referenzvorlesens mittels eines maschinellen Lernsystems, - Bewerten der Qualität des Vorlesens des vorgelesenen Texts auf Grundlage der mehreren bestimmten Qualitätswerte, und - Ausgeben der Bewertung der Qualität des Vorlesens umfasst.In particular, the object is also achieved by an evaluation device for evaluating the quality of the reading aloud by a human, the evaluation device having a speech recognition device for performing automatic speech recognition of the text read aloud by a human, a reading position determination device for determining the current reading position of the reading human in the text, and a speech analysis device for - comparing the text read out at the current reading position with the text of the reference reading at the current reading position, - determining several quality values of the reading out of the text read out on the basis of a comparison of parts of the text read out with parts of the reference reading by means of a machine learning system, evaluating the quality of reading the text read out based on the plurality of determined quality values, and - outputting the evaluation of the quality of reading out.

Vorteilhaft hieran ist, dass die Bewertungsvorrichtung die Qualität des Vorlesens insgesamt bzw. umfassend bewerten kann. Bei der Bewertungsvorrichtung wird somit die Qualität des Vorlesens nicht nur auf Grundlage eines Aspekts des Vorlesens bewertet, der unter Umständen nichts über die Qualität des Vorlesens insgesamt aussagt, sondern die Bewertungsvorrichtung bewertet die Qualität des Vorlesens auf Grundlage eines umfassenden Bilds des Vorlesens. Bei der Bewertungsvorrichtung kann ein unter Umständen im Vergleich zum Referenzvorlesen nicht vollständig zutreffender Aspekt des Vorlesens bzw. ein einzelner niedriger Qualitätswert durch einen anderen Aspekt des Vorlesens bzw. einen anderen Qualitätswert ausgeglichen werden. Somit kann die Bewertungsvorrichtung einen besonders zuverlässigen bzw. validen Qualitätswert des Vorlesens, das von dem Menschen durchgeführt wird, bestimmen und ausgeben. Der Mensch kann ein Kind, insbesondere während des Erwerbs der Lesefähigkeit, sein. Denkbar ist auch, dass der Mensch ein Erwachsener ist, insbesondere eine Person, die eine Fremdsprache lernt. Die Bewertungsvorrichtung kann die aktuelle Vorleseposition bestimmen, indem der aktuell vorgelesene Teil des Texts analysiert wird und dieser mit der vorhandenen oder generierten Aussprache des Texts verglichen wird. Auf diese Weise kann festgestellt werden, wo im Text der Mensch gerade einen Teil des Texts vorliest.The advantage of this is that the evaluation device can evaluate the quality of the reading as a whole or comprehensively. Thus, in the evaluation device, the quality of the reading is not only based on one aspect of the Vor read, which may say nothing about the overall quality of the reading, but the rating device rates the quality of the reading based on a comprehensive picture of the reading. In the evaluation device, an aspect of the reading that may not be completely correct in comparison to the reference reading or an individual low quality value can be compensated for by another aspect of the reading or another quality value. The evaluation device can thus determine and output a particularly reliable or valid quality value of the reading performed by the human. The human can be a child, especially during the acquisition of reading skills. It is also conceivable that the person is an adult, in particular a person who is learning a foreign language. The evaluation device can determine the current reading position by analyzing the part of the text currently being read and comparing it with the existing or generated pronunciation of the text. In this way it can be determined where in the text the person is reading part of the text.

Die Aufgabe wird insbesondere auch durch ein Computerprogrammprodukt gelöst, das von einem Prozessor eines Computers lesbare Instruktionen aufweist, die, wenn sie von dem Prozessor ausgeführt werden, den Prozessor veranlassen, das oben beschriebene Verfahren auszuführen. Die Aufgabe wird insbesondere ebenfalls durch ein computerlesbares Medium gelöst, auf dem das Computerprogrammprodukt gespeichert ist. The object is also achieved in particular by a computer program product which has instructions which can be read by a processor of a computer and which, when executed by the processor, cause the processor to execute the method described above. The object is also achieved in particular by a computer-readable medium on which the computer program product is stored.

Gemäß einer Ausführungsform des Verfahrens sind die verglichenen Teile des Texts Worte und/oder Sätze und/oder Absätze des Texts. Vorteilhaft hieran ist, dass die Qualität des Vorlesens besonders zutreffend bzw. valide beurteilt wird. Auch wenn einzelne Silben unter Umständen korrekt bzw. zutreffend ausgesprochen werden, bedeutet dies in der Regel nicht zwangsläufig, dass der Text insgesamt bzw. zutreffend vorgelesen wurde. Durch einen Vergleich auf Grundlage größerer zusammenhängender Elemente, wie Wörter, Sätze oder Absätze, wird eine zutreffendere Beurteilung der Qualität des Vorlesens erreicht.According to an embodiment of the method, the compared parts of the text are words and/or sentences and/or paragraphs of the text. The advantage of this is that the quality of reading aloud is judged to be particularly accurate and valid. Even if individual syllables may be pronounced correctly or appropriately, this does not necessarily mean that the text was read out as a whole or correctly. By comparing on the basis of larger coherent elements, such as words, sentences or paragraphs, a more accurate assessment of the quality of reading is achieved.

Gemäß einer Ausführungsform des Verfahrens umfasst das Verfahren ferner folgenden Schritt: Vergleichen der Prosodie eines Worts oder Satzes des vorgelesenen Texts mit der Prosodie eines Worts oder eines Satzes des Referenzvorlesens zum Bestimmen eines Prosodiewerts, der widerspiegelt, inwieweit das Wort oder der Satz mit der zutreffenden Prosodie vorgelesen wurde, mittels eines maschinellen Lernsystems, wobei der Prosodiewert einer der Qualitätswerte ist. Ein Vorteil hiervon ist, dass die Qualität des Vorlesens des Texts noch zutreffender beurteilt werden kann. Die Prosodie ist ein wesentlicher Bestandteil des Vorlesens eines Texts und bestimmt auch die Qualität des Vorlesens wesentlich mit. Insbesondere kann die Sprachmelodie und/oder die Satzmelodie verglichen und bewertet werden. Die Prosodie kann insbesondere die Veränderung der Melodie relativ zu einer Grundfrequenz bzw. Basisfrequenz umfassen oder sein. Die Prosodie kann die Gesamtheit der lautlichen Eigenschaften der Sprache umfassen, die nicht an den Laut bzw. ans Phonem als minimales Segment, sondern an umfassendere lautliche Einheiten gebunden sind.According to one embodiment of the method, the method further comprises the step of: comparing the prosody of a word or phrase of the text read aloud with the prosody of a word or phrase of the reference reading to determine a prosody score that reflects the extent to which the word or phrase matches the correct prosody was read aloud, using a machine learning system, with the prosody score being one of the quality scores. An advantage of this is that the quality of the reading of the text can be judged even more accurately. Prosody is an essential part of reading a text and also has a significant impact on the quality of the reading. In particular, the speech melody and/or the sentence melody can be compared and evaluated. The prosody can in particular include or be the change in the melody relative to a fundamental frequency or base frequency. Prosody can include all of the phonetic properties of speech that are not linked to the sound or to the phoneme as a minimal segment, but to more comprehensive phonetic units.

Gemäß einer Ausführungsform des Verfahrens umfasst das Verfahren ferner folgenden Schritt: Vergleichen der Betonung eines Worts oder Satzes des vorgelesenen Texts mit der Betonung eines Worts oder Satzes des Referenzvorlesens zum Bestimmen eines Betonungswerts, der widerspiegelt, inwieweit das Wort der der Satz mit der zutreffenden Betonung vorgelesen wurde, mittels eines maschinellen Lernsystems, wobei der Betonungswert einer der Qualitätswerte ist. Vorteilhaft hieran ist, dass ein Akzent des Menschen, der den Text vorliest, erfasst werden kann und bei der Bewertung der Qualität des Vorlesens mit einbezogen wird. Hierdurch kann insbesondere ein Abweichen durch lokale Dialekte von einer Standardaussprache des Texts erfasst werden. Folglich kann auch dieser Aspekt bei der Bewertung der Qualität des Vorlesens einbezogen werden, wodurch die Bewertung der Qualität verbessert wird.According to one embodiment of the method, the method further comprises the step of: comparing the stress of a word or phrase of the text read aloud with the stress of a word or phrase of the reference reading to determine a stress score that reflects the extent to which the word or phrase is read aloud with the correct emphasis using a machine learning system, with the emphasis value being one of the quality values. The advantage of this is that an accent of the person reading the text can be recorded and included in the assessment of the quality of the reading. In this way, in particular, a deviation from a standard pronunciation of the text due to local dialects can be detected. Consequently, this aspect can also be included in the evaluation of the quality of the reading, which improves the evaluation of the quality.

Gemäß einer Ausführungsform des Verfahrens umfasst das Verfahren ferner folgenden Schritt: Vergleichen der Artikulation eines Worts oder Satzes des vorgelesenen Texts mit der Artikulation eines Worts oder Satzes des Referenzvorlesens zum Bestimmen eines Artikulationswerts, der widerspiegelt, inwieweit das Wort oder der Satz mit der zutreffenden Artikulation vorgelesen wurde, mittels eines maschinellen Lernsystems, wobei der Artikulationswert einer der Qualitätswerte ist. Ein Vorteil hiervon ist, dass der Artikulationswert auf Wort- bzw. Satzbasis bestimmt wird. Denn auch wenn die Artikulation der meisten Silben eines Texts zutreffend ist, bedeutet dies nicht, dass die Worte oder Sätze des Texts mehrheitlich zutreffend ausgesprochen werden. Somit wird die Qualität des Vorlesens präziser bzw. zutreffender bewertet. Die Artikulation können insbesondere die Teile der lautlichen Eigenschaften der Sprache sein, die mittels Lippen, Zunge, Rachenraum und/oder Gaumensegel beeinflusst oder bestimmt werden.According to one embodiment of the method, the method further comprises the step of: comparing the pronunciation of a word or phrase of the text read aloud with the pronunciation of a word or phrase of the reference reading to determine an articulation value that reflects the extent to which the word or phrase is read aloud with the correct pronunciation using a machine learning system, with the articulation value being one of the quality values. An advantage of this is that the pronunciation value is determined on a word or sentence basis. Because even if the articulation of most syllables in a text is correct, this does not mean that the majority of the words or sentences in the text are pronounced correctly. In this way, the quality of the reading is evaluated more precisely and more accurately. In particular, the articulation can be the parts of the phonetic properties of speech that are influenced or determined by means of the lips, tongue, pharynx and/or soft palate.

Gemäß einer Ausführungsform des Verfahrens umfasst das Verfahren ferner folgenden Schritt: Vergleichen der Zahl und/oder der Länge der Pausen zwischen Worten und/oder Sätzen des vorgelesenen Texts mit der Zahl und/oder der Länge der Pausen zwischen Worten und/oder Sätzen des Referenzvorlesens zum Bestimmen eines Pausenwerts, der widerspiegelt, wie ähnlich der vorgelesene Text hinsichtlich der Pausen zu dem Referenzvorlesen ist, wobei der Pausenwert einer der Qualitätswerte ist. Vorteilhaft hieran ist, dass die Pausen bei der Bestimmung der Qualität des Vorlesens berücksichtigt werden. Auch ein fehlerfreier vorgelesener Text weist keine hohe Qualität des Vorlesens auf, wenn vor bestimmten Wörtern und/oder Sätzen oder vor einzelnen Wörtern und/oder Sätzen eine (zu) lange Pause gemacht wird. Bei diesem Verfahren wird dieser Aspekt ebenfalls berücksichtigt, so dass die bestimmte Qualität des Vorlesens ein noch umfassenderes Bild des Vorlesens widerspiegelt.According to one embodiment of the method, the method further comprises the following step: comparing the number and/or the length of the pauses between words and/or sentences of the one read Texts with the number and/or length of pauses between words and/or sentences of the reference reading to determine a pause value that reflects how similar the read text is to the reference reading in terms of pauses, the pause value being one of the quality values. The advantage here is that the breaks are taken into account when determining the quality of the reading. Even a text that has been read out without errors does not show a high quality of reading out loud if there is a (too) long pause before certain words and/or sentences or before individual words and/or sentences. This aspect is also taken into account in this procedure, so that the determined quality of the reading reflects an even more comprehensive picture of the reading.

Gemäß einer Ausführungsform des Verfahrens umfasst das Verfahren ferner folgenden Schritt: Bestimmen der Silben pro Zeiteinheit des vorgelesenen Texts im Verhältnis zu der Länge des vorgelesenen Texts abzüglich der Pausen des vorgelesenen Texts mittels eines maschinellen Lernsystems zum Bestimmen eines Flüssigkeitswerts, wobei der Flüssigkeitswert einer der Qualitätswerte ist. Vorteilhaft hieran ist, dass bei der Bewertung der Qualität mit berücksichtigt wird, ob der Text in einem normalen Tempo vorgelesene wurde, durch den Text gehastet wurde oder ob der Text in einem trägen Tempo vorgelesen wurde. Die beiden letzten Punkte sind als negativ bezüglich der Qualität des Vorlesens des Texts zu werten. Somit wird durch Einbeziehung des Pausenwerts bei der Bestimmung der Qualität des Vorlesens eine Bewertung der Qualität des Vorlesens erreicht, die der Bewertung der Qualität des Vorlesens durch einen Menschen sehr nahe kommt.According to one embodiment of the method, the method further comprises the following step: determining the syllables per unit of time of the text read in relation to the length of the text read aloud minus the pauses of the text read aloud by means of a machine learning system for determining a fluency value, the fluency value being one of the quality values . The advantage of this is that when evaluating the quality, it is also taken into account whether the text was read aloud at a normal pace, the text was rushed through, or whether the text was read aloud at a sluggish pace. The last two points are negative in terms of the quality of reading the text. Thus, by including the pause value in determining the quality of the reading, an assessment of the quality of the reading is achieved that closely approximates the assessment of the quality of the reading by a human.

Gemäß einer Ausführungsform des Verfahrens umfasst das Referenzvorlesen den von einem anderen Menschen vorgelesenen Text oder ist das Referenzvorlesen der von einem anderen Menschen vorgelesene Text. Vorteilhaft hieran ist, dass das Vorlesen des Menschen mit dem Vorlesen desselben Texts eines anderen Menschen verglichen wird. Hierdurch ist sichergestellt, dass an das Vorlesen keine unrealistischen Erwartungen einer Maschine bzw. einer Software angelegt werden, sondern dass die Qualität des Vorlesens durch Vergleich mit einem anderen Menschen bestimmt bzw. bewertet wird. Zudem ist sichergestellt, dass auch Worte und/oder Sätze, deren Artikulation und/oder Betonung und/oder Prosodie von dem üblichen bzw. rein nach der Schriftform erwarteten Standard abweichen, zutreffend verglichen werden.According to one embodiment of the method, the reference reading comprises the text read out by another person or the reference reading is the text read out by another person. The advantage here is that reading the human being is compared to reading the same text to another human being. This ensures that no unrealistic expectations of a machine or software are applied to the reading out loud, but that the quality of the reading out loud is determined or evaluated by comparison with another person. In addition, it is ensured that words and/or sentences whose articulation and/or intonation and/or prosody deviate from the usual standard or the standard expected purely from the written form are also correctly compared.

Gemäß einer Ausführungsform des Verfahrens wird bei einer Artikulation eines Worts oder Satzes des vorgelesenen Texts, die von der Artikulation des Worts oder des Satzes des Referenzvorlesens um mehr als einen ersten vorgegebenen Wert abweicht, und/oder bei einer Pause vor dem nächsten Wort oder Satzes des Texts, die um mehr als ein zweiter vorgegebener Wert länger als die Pause vor dem nächsten Wort in dem Referenzvorlesen ist und/oder die länger als ein dritter vorgegebener Wert ist, eine zutreffende Artikulation des Worts oder Satzes akustisch ausgegeben. Vorteilhaft hieran ist, dass dem Menschen beim Vorlesen des Texts Hilfe angeboten wird. Bei falsch oder sehr falsch bzw. unzutreffend ausgesprochenen Wörtern und/oder Sätzen kann dem Menschen Hilfe gegeben werden, indem das entsprechende Wort bzw. der entsprechende Satz ausgesprochen oder von dem Referenzvorlesen wiedergegeben wird. Insbesondere kann bei dem Menschen unbekannten Wörtern oder Sätzen, bei denen er mit dem weiteren Vorlesen zögert, Hilfe zur Artikulation gegeben werden. Das Zögern kann durch eine zu lange Pause erkannt werden. Das ausgegebene Wort bzw. der ausgegebene Satz kann durch Sprachsynthese erzeugt werden oder kann das entsprechende Wort des Referenzvorlesens sein. Der erste vorgegebene Wert kann z.B. eine Levenshtein-Distanz sein. Der zweite vorgegebene Wert kann z.B. ein Prozentwert der entsprechenden Pause im Referenzvorlesen sein. Beispielsweise kann ein Zögern festgestellt werden, wenn die Pause beim Vorlesen des Texts 20% länger als die entsprechende Pause im Referenzvorlesen ist. Der dritte vorgegebene Wert kann z.B. eine bestimmte Zeit sein, z.B. 2 Sekunden, 5 Sekunden oder 10 Sekunden.According to one embodiment of the method, if the articulation of a word or sentence of the text read out deviates from the articulation of the word or sentence of the reference reading by more than a first predetermined value, and/or if there is a pause before the next word or sentence of the Text that is longer than the pause before the next word in the reference reading by more than a second predetermined value and/or that is longer than a third predetermined value, an appropriate pronunciation of the word or phrase is audibly output. The advantage of this is that the person is offered help when reading the text. In the case of words and/or sentences pronounced incorrectly or very incorrectly or incorrectly, the person can be given help by the corresponding word or the corresponding sentence being pronounced or being reproduced by the reference reading. In particular, help can be given to the articulation of unfamiliar words or sentences that people hesitate to read further. Hesitation can be recognized by a pause that is too long. The word or phrase output may be generated by speech synthesis or may be the corresponding word of the reference reading. For example, the first predetermined value may be a Levenshtein distance. For example, the second predetermined value may be a percentage of the corresponding pause in the reference reading. For example, hesitation can be detected when the pause in reading the text is 20% longer than the corresponding pause in the reference reading. For example, the third predetermined value may be a specific time, such as 2 seconds, 5 seconds, or 10 seconds.

Gemäß einer Ausführungsform des Verfahrens wird nach einem, insbesondere durch die Struktur des Texts vorgegebenen, Abschnitts des Texts ein Bewerten der Qualität des bereits vorgelesenen Texts durchgeführt. Hierdurch wird nicht nur am Ende des Vorlesens die Qualität bewertet. Die Qualität kann auch während des Vorlesens somit ausgegeben werden. Auf diese Weise kann der Mensch sein Vorlesen bei einer zu schlechten Bewertung der Qualität des Vorlesens oder einzelner Aspekte des Vorlesens anpassen bzw. verbessern.According to one embodiment of the method, the quality of the text that has already been read is evaluated after a section of the text, which is predetermined in particular by the structure of the text. This not only evaluates the quality at the end of the reading. The quality can also be output during the reading. In this way, people can adapt or improve their reading if the quality of the reading or individual aspects of the reading are rated too poorly.

Gemäß einer Ausführungsform des Verfahrens wird das Bestimmen der aktuellen Vorleseposition mittels einer Fuzzy-Suche, insbesondere unter Benutzung einer Levenshtein-Distanz, durchgeführt. Vorteilhaft hieran ist, dass auch ein bei Überspringen von Wörtern, Sätzen oder Absätzen die Vorleseposition technisch einfach und schnell bestimmt werden kann. Es ist denkbar, dass bei einem Überspringen mehrerer Wörter, eines Satzes oder mehrere Sätze oder bei Überspringen mindestens eines Abschnitts des Texts beim Vorlesen der Qualität des Vorlesens ein Malus zugewiesen wird, d.h. die Bewertung der Qualität bzw. der Wert der Bewertung der Qualität des Vorlesens hierdurch negativ beeinflusst wird. Zudem kann der Mensch an irgendeiner Stelle des Texts anfangen vorzulesen und die Qualität des Vorlesens kann trotzdem zutreffend festgestellt bzw. bestimmt werden.According to one embodiment of the method, the current reading position is determined by means of a fuzzy search, in particular using a Levenshtein distance. The advantage here is that even when skipping words, sentences or paragraphs, the reading position can be determined technically easily and quickly. It is conceivable that if several words, a sentence or several sentences are skipped, or at least one section of the text is skipped when reading aloud, a penalty is assigned to the quality of reading, ie the rating of the quality or the value of the rating of the quality of reading is negatively affected by this. In addition, the human can start reading at any point in the text and the quality of the Vor reading can still be correctly determined or determined.

Gemäß einer Ausführungsform des Verfahrens werden der Betonungswert, der Prosodiewert und/oder der Artikulationswert für einzelne Segmente des Texts ausgegeben. Vorteilhaft hieran ist, dass der vorlesende Mensch bereits während des Vorlesens eine Rückmeldung bezüglich verschiedener Aspekte des Vorlesens erhalten kann bzw. erhält.According to one embodiment of the method, the emphasis value, the prosody value and/or the articulation value are output for individual segments of the text. The advantage of this is that the person reading aloud can or does already receive feedback regarding various aspects of the reading aloud during the reading aloud.

Gemäß einer Ausführungsform des Verfahrens umfasst das Verfahren ferner folgenden Schritt: Herausfiltern von Störgeräuschen und/oder akustischen Steuerungsbefehlen aus dem Vorlesen des Texts. Ein Vorteil hiervon ist, dass Störgeräusche bzw. Hintergrundgeräusche und/oder akustische Steuerbefehle die Bewertung der Qualität des Vorlesens im Wesentlichen nicht beeinflussen. Störgeräusche bzw. Hintergrundgeräusche können z.B. Gespräche von und/oder mit einer anderen Person, Straßenlärm etc. sein. Akustische Steuerbefehle können beispielsweise festgelegte verbale Äußerungen sein, die die Bewertungsvorrichtung steuern, die das Bewerten der Qualität des Vorlesens durchführt, z.B. Startbefehle, Stoppbefehl, Pausenbefehl etc.According to one embodiment of the method, the method also includes the following step: filtering out background noise and/or acoustic control commands from the reading of the text. One advantage of this is that background noise and/or acoustic control commands essentially do not affect the assessment of the quality of the reading. Noise or background noise can be, for example, conversations from and/or with another person, street noise, etc. Acoustic control commands can be, for example, fixed verbal utterances that control the evaluation device that evaluates the quality of the reading, e.g. start commands, stop commands, pause commands, etc.

Gemäß einer Ausführungsform des Verfahrens umfasst das Verfahren ferner folgende Schritte: Erzeugen von einer oder mehreren Quizfragen über den Inhalt des vorgelesenen Texts; Erfassen von von dem Menschen, der den Text vorgelesen hat, gegebenen Antworten auf die Quizfragen; Überprüfen, ob die Antworten auf die Quizfragen zutreffend sind, zum Bestimmen eines Leseverständiswerts; und Ausgeben des Leseverständiswerts. Ein Vorteil hiervon ist, dass zusätzlich zu der Bestimmung der Qualität des Vorlesens auch das Verständnis des vorgelesenen Texts, d.h. inwieweit der Mensch, der den Text vorliest, den Inhalt des Texts verstanden hat, bestimmt werden kann. Somit kann das Vorlesen des Texts noch umfassender bewertet werden. Je mehr der Quizfragen der Mensch zutreffend beantwortet, desto höher ist der Leseverständiswert. Das Vorlesen des Texts durch den Menschen kann insbesondere dann als besonders gut bewertet werden, wenn die Qualität des Vorlesens hoch ist und der Mensch viel des Inhalts des Texts oder den gesamten Inhalt des Texts verstanden hat, was mittels der Quizfragen und der Antworten hierauf bestimmt werden kann. Die Quizfragen und die zutreffenden, d.h. richtigen, Antworten auf die Quizfragen können beispielsweise mittels eines maschinellen Lernsystems erzeugt werden.According to one embodiment of the method, the method further comprises the following steps: generating one or more quiz questions about the content of the text read out; collecting answers to the quiz questions given by the human who read the text; checking whether the answers to the quiz questions are correct to determine a reading comprehension score; and outputting the reading comprehension score. An advantage of this is that, in addition to determining the quality of the reading, the comprehension of the text read out, i.e. to what extent the person reading the text understood the content of the text, can also be determined. In this way, the reading of the text can be evaluated even more comprehensively. The more of the quiz questions the person answers correctly, the higher the reading comprehension value. The reading of the text by the human being can be rated as particularly good when the quality of the reading is high and the human has understood much of the content of the text or the entire content of the text, which is determined using the quiz questions and the answers to them can. The quiz questions and the relevant, i.e. correct, answers to the quiz questions can be generated, for example, by means of a machine learning system.

Der vorgelesene Text kann insbesondere das gesprochene Wort bzw. der gesprochene Text während des Vorlesens sein.The text read out can in particular be the spoken word or the spoken text during the reading out.

Bevorzugte Ausführungsformen ergeben sich aus den Unteransprüchen. Nachfolgend wird die Erfindung anhand von Zeichnungen von Ausführungsbeispielen näher erläutert. Hierbei zeigen

1 eine schematische Ansicht der erfindungsgemäßen Bewertungsvorrichtung; und
2 eine schematische Ansicht des Ablaufs des erfindungsgemäßen Verfahrens.

Preferred embodiments emerge from the dependent claims. The invention is explained in more detail below with reference to drawings of exemplary embodiments. show here

1 a schematic view of the evaluation device according to the invention; and
2 a schematic view of the sequence of the method according to the invention.

Bei der nachfolgenden Beschreibung werden für gleiche und gleich wirkende Teile dieselben Bezugsziffern verwendet.In the following description, the same reference numerals are used for the same and identically functioning parts.

1 zeigt eine schematische Ansicht der Bewertungsvorrichtung 5. 2 zeigt eine schematische Ansicht des Ablaufs des Verfahrens zum Bewerten der Qualität des Vorlesens. 1 shows a schematic view of the evaluation device 5. 2 FIG. 12 shows a schematic view of the flow of the method for evaluating the quality of reading aloud.

Das erfindungsgemäße Verfahren dient zum Bewerten der Qualität eines Vorlesens eines Texts 10 durch einen Menschen. Nicht der Text bzw. der Inhalt des Texts wird bewertet, sondern wie der Mensch den Text vorgelesen hat wird bewertet. Der Mensch kann insbesondere ein junger Mensch oder ein Kind sein.The method according to the invention serves to evaluate the quality of a text 10 being read aloud by a human being. Not the text or the content of the text is evaluated, but how the person read the text is evaluated. In particular, the person can be a young person or a child.

Die erfindungsgemäße Bewertungsvorrichtung 5 umfasst eine Spracherkennungsvorrichtung 30, ein Vorlesepositionsbestimmungsvorrichtung 40 und eine Sprachanalysevorrichtung 50. Der Text 10 wird beim Schritt des Eingebens des Texts in die Bewertungsvorrichtung 70 in die Bewertungsvorrichtung 5 eingegeben. Der Text 10 kann ein beliebiger Text sein. Zudem wird ein Referenzvorlesen 15 in die Bewertungsvorrichtung 5 eingegeben. Anstelle der Eingabe eines Referenzvorlesens 15 ist es auch möglich, dass aus dem Text 10 ein Referenzvorlesen erzeugt wird. Die Bewertungsvorrichtung 5 gibt die Qualität des Vorlesens als Ausgabe 60 aus. In einem Schritt des Bewertens der Qualität des Vorlesens 95 wird die Qualität des Vorlesens insgesamt bzw. umfassend bewertet. Im Schritt des Ausgebens der Bewertung der Qualität des Vorlesens 98 wird dieser Wert ausgegeben.The evaluation device 5 according to the invention comprises a speech recognition device 30, a reading position determination device 40 and a speech analysis device 50. The text 10 is entered into the evaluation device 70 in the step of entering the text into the evaluation device 70 . The text 10 can be any text. In addition, a reference reading 15 is entered into the evaluation device 5 . Instead of entering a reference reading 15, it is also possible for a reference reading to be generated from the text 10. The evaluation device 5 outputs the quality of the reading as an output 60 . In a step of evaluating the quality of the reading 95, the quality of the reading is evaluated overall or comprehensively. In the step of outputting the evaluation of the quality of reading 98, this value is output.

Der Text 10 kann durch optische Zeichenerkennung (optical character recognition, OCR) eines in gedruckter Form vorliegenden Texts erzeugt werden und in die Bewertungsvorrichtung 5 eingegeben werden. Der Text 10 kann alternativ als sogenanntes eBook vorliegen. Auch denkbar ist, dass der Text 10 als Textdatei (z.B. Word-Datei oder Datei im OpenDocument-Format), als PDF-Dokument oder ähnliches vorliegt. Vorstellbar ist zudem, dass der Text 10 ein beliebig codierter Text bzw. Textformat ist.The text 10 can be generated by optical character recognition (OCR) of a text present in printed form and entered into the evaluation device 5 . The text 10 can alternatively be available as a so-called e-book. It is also conceivable that the text 10 is present as a text file (e.g. Word file or file in OpenDocument format), as a PDF document or the like. It is also conceivable that the text 10 is any coded text or text format.

Die Vorrichtung kann Software sein bzw. als Software implementiert sein. Die Vorrichtungen können jeweils (Software-)Module sein, die z.B. über APIs miteinander kommunizieren. Insbesondere kann die Vorrichtung eine App für ein Mobiltelefon bzw. ein Smartphone, ein Desktop-Computer, ein Laptop-Computer, ein Tablet oder ähnliches sein. Denkbar ist auch, dass die Vorrichtung ein sogenannter Smart-Speaker, ein Spielzeug oder ähnliches ist. Die Vorrichtung kann dedizierte Hardware umfassen oder sein. Möglich ist insbesondere, dass dem Menschen, der vorliest, der Text physisch, auf einem Bildschirm, auf einer Projektion oder ähnlichem vorliegt, und der Vorrichtung der Text als digitale Kopie vorliegt. Auch denkbar ist, dass Teile der Vorrichtung bzw. des Verfahrens auf einem Client (z.B. auf einem Mobiltelefon oder Laptop-Computer) und Teil auf einem Server vorhanden sind bzw. ausgeführt werden.The device can be software or can be implemented as software. The devices can each be (software) modules, for example via APIs communicate with each other. In particular, the device can be an app for a mobile phone or a smartphone, a desktop computer, a laptop computer, a tablet or the like. It is also conceivable that the device is a so-called smart speaker, a toy or the like. The device may include or be dedicated hardware. In particular, it is possible that the person who reads the text is physically present, on a screen, on a projection or the like, and the device has the text as a digital copy. It is also conceivable that parts of the device or the method are present or executed on a client (for example on a mobile phone or laptop computer) and part on a server.

Die Spracherkennungsvorrichtung 30 ist zum automatischen Spracherkennen ausgebildet. Die Spracherkennungsvorrichtung 30 bzw. der Schritt des automatischen Spracherkennens 75 wandelt den vom Menschen vorgelesenen Text 20 in einen geschriebenen Text bzw. eine Datei, die eine textliche Wiedergabe der Aussprache bzw. der Laute enthält, um. Die Spracherkennung kann mit einem Hidden-Markov-Modell (HMM), auf Deutsch verdecktes Markowmodell oder verborgenes Markowmodell, durchgeführt werden. Die Spracherkennung kann mittels eines maschinellen Lernsystems durchgeführt werden, z.B. einem Convolutional Neural Network (CNN), einem Long Short Term Memory Neural Network (LSTM), einem Recurrent Neural Network (RNN) oder einem Transformer-basierten Netzwerk.The speech recognition device 30 is designed for automatic speech recognition. The speech recognition device 30 or the step of automatic speech recognition 75 converts the text 20 read by the human into a written text or a file containing a textual representation of the pronunciation or the sounds. Speech recognition can be performed using a Hidden Markov Model (HMM). The speech recognition can be performed using a machine learning system, e.g. a convolutional neural network (CNN), a long short term memory neural network (LSTM), a recurrent neural network (RNN) or a transformer-based network.

Das maschinelle Lernsystem des Spracherkennens kann mittels quelloffenen bzw. freiverfügbaren Daten bzw. OpenSource-Daten trainiert sein. Möglich ist, dass das vortrainierte maschinelle Lernsystem durch Transferlernen auf das Spracherkennen bei Kindern speziell trainiert wird bzw. ist. Beim bzw. für das Trainieren können Fehler und falsche Positionen innerhalb des Texts manuell bzw. von einem Menschen korrigiert werden.The machine learning system for speech recognition can be trained using open source or freely available data or open source data. It is possible that the pre-trained machine learning system is or is specially trained for speech recognition in children through transfer learning. Errors and incorrect positions within the text can be corrected manually or by a human during or for the training.

Durch Veränderung der Vokaltraktlänge (Vocal Tract Length Pertubation), Hinzufügen von Störgeräuschen (Noise Mixing), Impulsantwortfaltung (Impulse Response Convolution), (zufälliger) Änderung der Tonhöhe (pitch based modification) bzw. des zeitlichen Ablaufs (time based modification) kann die Datenmenge zum Trainieren des maschinellen Lernsystems, das die Spracherkennung durchführt, technisch einfach aus einer vorhandenen Datenmenge erhöht werden. Zudem wird hierdurch die Robustheit bzw. Zuverlässigkeit der automatischen Spracherkennung erhöht.By changing the length of the vocal tract (Vocal Tract Length Pertubation), adding noise (Noise Mixing), impulse response convolution (Impulse Response Convolution), (random) changing the pitch (pitch based modification) or the timing (time based modification), the amount of data can be increased to train the machine learning system that performs the speech recognition, can be technically easily increased from an existing amount of data. In addition, this increases the robustness or reliability of the automatic speech recognition.

Die Spracherkennungsvorrichtung 30 bzw. der Schritt des automatischen Spracherkennens 75 kann Phoneme, Silben und/oder Worte des vorgelesenen Texts 20 identifizieren. Zudem kann die Spracherkennungsvorrichtung 30 bzw. der Schritt des automatischen Spracherkennens 75 Füllworte („Ähm“, „Mmh“) erkennen und/oder Sprachbefehle an die Erkennungsvorrichtung und/oder andere Sprecher, die während des Vorlesens des Menschen auch sprechen, erkennen und herausfiltern. Die Spracherkennungsvorrichtung 30 bzw. der Schritt des automatischen Spracherkennens 75 kann einen Audiostream bzw. eine Audiodatei von einem anderen Programm, von einem Client, einem Server oder von einem Webservice empfangen. Dies bedeutet, dass der vorgelesene Text 20 über das Internet in die Bewertungsvorrichtung 5 eingegeben werden kann.The speech recognition device 30 or the step of automatic speech recognition 75 can identify phonemes, syllables and/or words of the text 20 read out. In addition, the speech recognition device 30 or the step of automatic speech recognition 75 can recognize filler words ("Um", "Mmh") and/or recognize and filter out voice commands to the recognition device and/or other speakers who are also speaking while the human is reading. The speech recognition device 30 or the step of automatic speech recognition 75 can receive an audio stream or an audio file from another program, from a client, from a server or from a web service. This means that the text 20 read out can be entered into the evaluation device 5 via the Internet.

Die Spracherkennungsvorrichtung 30 bzw. der Schritt des automatischen Spracherkennens 75 kann ein Konfidenzniveau (confidence score) bestimmen, wie sicher das Phonem, die Silbe und/oder das Wort erkannt wurde. Das Vorlesen bzw. eine Audioaufnahme des Vorlesens kann für eine weitere Bearbeitung gespeichert werden. Möglich ist, dass die Spracherkennungsvorrichtung 30 bzw. der Schritt des automatischen Spracherkennens 75 das Alter des Menschen, der den Text vorliest erkennt, und die Spracherkennung hierauf anpasst bzw. optimiert.The speech recognition device 30 or the step of automatic speech recognition 75 can determine a confidence level (confidence score) as to how reliably the phoneme, the syllable and/or the word has been recognized. The reading or an audio recording of the reading can be saved for further processing. It is possible that the speech recognition device 30 or the step of automatic speech recognition 75 recognizes the age of the person reading the text and adapts or optimizes the speech recognition accordingly.

Die Vorlesepositionsbestimmungsvorrichtung 40 (text positioning module) empfängt (beim Schritt des Bestimmens der aktuellen Vorleseposition 80) den von der Spracherkennungsvorrichtung 30 bzw. beim Schritt des automatischen Spracherkennens 75 erkannten vorgelesenen Text 20 in einem maschinell verarbeitbaren Format, z.B. in Form eines Texts. Natürlich können auch jeweils Teile des Texts empfangen werden, während noch weiter vorgelesen wird oder die Spracherkennung weiter durchgeführt wird.The reading position determination device 40 (text positioning module) receives (in the step of determining the current reading position 80) the text 20 recognized by the speech recognition device 30 or in the step of automatic speech recognition 75 in a machine-processable format, e.g. in the form of a text. Of course, parts of the text can also be received while the text is still being read out or the speech recognition is still being carried out.

Die Vorlesepositionsbestimmungsvorrichtung 40 bzw. der Schritt des Bestimmens der aktuellen Vorleseposition 80 erkennt an welcher Position bzw. an welcher Stelle des Texts 10 gerade vom Menschen vorgelesen wird (aktuelle Vorleseposition). Diese Stelle kann dem vorlesenden Menschen auf einer Anzeige zusammen mit dem Text 10 angezeigt werden. Die Vorlesepositionsbestimmungsvorrichtung 40 kann einen fuzzy-Algorithmus bzw. eine Fuzzy-Pattern-Klassifikation bzw. eine Fuzzy-Suche (auch „unscharfe Suche“ genannt) zum Bestimmen der Vorleseposition verwenden. Die fuzzy-Suche kann stabil bzw. robust gegenüber dem Überspringen von Wörtern, Sätzen und/oder Abschnitte sein. Die fuzzy-Suche kann die letzten N-Gramme der Wörter verwenden. Das Überspringen von größeren Abschnitten wird bei der Bestimmung der Vorleseposition mit einem negativen Gewicht versehen bzw. bestraft, um ein Hin- und Herspringen bei der Anzeige des Texts 10 zu vermeiden. Die fuzzy-Suche kann eine Textdistanz, wie z.B. die Levenshtein-Distanz, verwenden. Hierbei kann dem Benutzer unmittelbar ein Feedback gegeben werden. Die Vorlesepositionsbestimmungsvorrichtung 40 bzw. der Schritt des Bestimmens der aktuellen Vorleseposition 80 kann mittels eines maschinellen Lernsystems durchgeführt werden.The reading position determination device 40 or the step of determining the current reading position 80 recognizes at which position or at which point of the text 10 the person is currently reading aloud (current reading position). This passage can be displayed on a display together with the text 10 to the person reading. The reading position determination device 40 can use a fuzzy algorithm or a fuzzy pattern classification or a fuzzy search (also called “fuzzy search”) for determining the reading position. The fuzzy search can be robust to skipping words, phrases, and/or paragraphs. The fuzzy search can use the last n-grams of the words. Skipping larger sections is given a negative weight or penalized when determining the reading position to avoid jumping back and forth in the reading position Text 10 to avoid display. The fuzzy search can use a text distance such as the Levenshtein distance. Here, the user can be given immediate feedback. The reading position determination device 40 or the step of determining the current reading position 80 can be carried out using a machine learning system.

Die Vorlesepositionsbestimmungsvorrichtung 40 kann bei dem Text 10 jeweils bestimmen, an welcher Stelle der Mensch den Text vorliest bzw. welchen Teil des Texts der Mensch gerade vorliest. Üblicherweise wird somit bei dem Verfahren nicht bzw. üblicherweise wird somit von der Bewertungsvorrichtung 5 nicht vorgegeben, welcher Teil des Texts 10 von dem Menschen nun vorzulesen ist, sondern der Mensch entscheidet, welchen Teil des Texts 10 er oder sie vorliest bzw. vorlesen möchte. Die Bewertungsvorrichtung 5 passt sich dann entsprechend an und vergleicht den vorgelesenen Text 20 mit dem korrespondierenden Text des Referenzvorlesens 15 an der Vorleseposition.In the case of the text 10, the reading position determination device 40 can in each case determine at which point the person is reading out the text or which part of the text the person is currently reading out. Usually, the evaluation device 5 does not or usually does not specify which part of the text 10 is to be read out by the person, but rather the person decides which part of the text 10 he or she reads or would like to read out. The evaluation device 5 then adapts accordingly and compares the text 20 read out with the corresponding text of the reference reading 15 at the reading position.

Die Vorleseposition kann jeweils dann neu bestimmt werden, wenn neue Daten des vorgelesenen Texts 20 zur Verfügung stehen. Die Vorlesepositionsbestimmungsvorrichtung 40 bzw. das Bestimmen der Vorleseposition kann das jeweilige Ende eines Satzes erkennen und ein entsprechendes Satzendesignal erzeugen, das ein Bewerten der Qualität des Vorlesens bzw. eine Neubestimmen der Qualität des Vorlesens auslöst bzw. startet.The reading position can be redetermined in each case when new data of the text 20 that has been read is available. The reading position determination device 40 or the determination of the reading position can recognize the respective end of a sentence and generate a corresponding sentence end signal, which triggers or starts an evaluation of the quality of the reading or a new determination of the quality of the reading.

Es ist denkbar, dass die Vorlesepositionsbestimmungsvorrichtung 40 bzw. der Schritt des Bestimmens der aktuellen Vorleseposition 80 erkennt, wenn der vorlesende Mensch das Vorlesen unterbricht oder pausiert und stattdessen eine Konversation mit einer anderen Person startet. Die Vorlesepositionsbestimmungsvorrichtung 40 bzw. der Schritt des Bestimmens der aktuellen Vorleseposition 80 kann eine Statistik für jeden Satz des Texts 10 hinsichtlich der Verzögerungen des Menschen beim Vorlesen des Texts, der wiederholten Teile des Texts durch den Menschen beim Vorlesen, und der übersprungenen Worte erstellen und diese an weitere Teile bzw. Elemente der Bewertungsvorrichtung 5 weitergeben.It is conceivable that the reading position determination device 40 or the step of determining the current reading position 80 recognizes when the reading person interrupts or pauses the reading and instead starts a conversation with another person. The reading position determination device 40 or the step of determining the current reading position 80 can generate statistics for each sentence of the text 10 in terms of the human's delays in reading the text, the repeated parts of the text by the human in reading, and the skipped words and these pass on to other parts or elements of the evaluation device 5.

Die Sprachanalysevorrichtung 50 bzw. der Schritt des Sprachanalysierens bzw. des Schritt des Vergleichens 85 kann das Vorlesen des Texts durch den Menschen analysieren. Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren bzw. der Schritt des Vergleichens 85 kann u.a. einen oder mehrere der folgenden Qualitätswerte des Vorlesens bestimmen:

- Intonationswert
- Prosodiewert
- Betonungswert
- Aussprachewert
- Artikulationswert
- Pausenwert
- Flüssigkeitswert
- Sprachrate
- Sprach-Pausen-Verhältniswert

The speech analysis device 50 or the step of speech analysis or the step of comparing 85 can analyze the reading of the text by the human. The speech analysis device 50 or the speech analysis or the step of comparing 85 can, among other things, determine one or more of the following quality values of the reading:

- intonation value
- prosody value
- Emphasis value
- pronunciation value
- articulation value
- Pause value
- Liquid value
- voice rate
- Speech-pause ratio value

Bei dem Bestimmen einer oder mehrerer dieser Qualitätswerte 90 kann jeweils ein maschinelles Lernsystem zum Bestimmen des jeweiligen Qualitätswerts verwendet werden. Das maschinelle Lernsystem ist jeweils trainiert. Beim Trainieren des maschinellen Lernsystems kann ein manuelles Verbessern bzw. Korrigieren der Daten durchgeführt werden.When determining one or more of these quality values 90, a machine learning system can be used to determine the respective quality value. The machine learning system is trained in each case. When training the machine learning system, the data can be improved or corrected manually.

Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann eine Basisfrequenzkurve F0 des Vorlesens bzw. des vorgelesenen Texts 20 bestimmen. Die Basisfrequenzkurve kann die Basis darstellen, zu der Abweichungen bzw. Unterschiede beim Vergleichen des Vorlesens des Texts bzw. des vorgelesenen Texts 20 und dem Referenzvorlesen 15 bestimmt werden. Ein maschinelles Lernsystem, z.B. ein convolutional neural network (CNN), kann hierbei die Wellenform oder die spektralen Merkmale des Vorlesens bzw. des vorgelesenen Texts 20 als Eingabe verwenden und kann als Ausgabe eine Einordnung der Basisfrequenzkurve des Vorlesens des Texts bzw. des vorgelesenen Texts 20 in eine Vielzahl verschiedener Tonhöhenklassen, z.B. 486 verschiedene Tonhöhenklassen, ausgeben.The speech analysis device 50 or the speech analysis can determine a base frequency curve F0 of the reading or the text 20 read aloud. The base frequency curve can represent the basis on which deviations or differences are determined when comparing the reading of the text or the text read out 20 and the reference reading out 15 . A machine learning system, e.g. a convolutional neural network (CNN), can use the waveform or the spectral characteristics of the reading aloud or the text read aloud 20 as input and can use a classification of the basic frequency curve of the reading aloud the text or the text aloud 20 as output in a variety of different pitch classes, e.g. 486 different pitch classes.

Es ist möglich, dass die Prosodie bzw. der Prosodiewert bestimmt wird, indem Abweichungen bzw. Unterschiede der Sprachmelodie gegenüber der Basisfrequenzkurve F0 bestimmt wird.It is possible for the prosody or the prosody value to be determined by determining deviations or differences in the speech melody compared to the base frequency curve F0.

Das Referenzvorlesen 15 kann als Idealversion des Vorlesens bzw. als Vergleichsbasis definiert werden. Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann durch Vergleich der Basisfrequenzkurve mit dem Referenzvorlesen 15 eine Distanz berechnen oder bestimmen.The reference reading 15 can be defined as the ideal version of reading aloud or as a basis for comparison. The speech analysis device 50 or the speech analyzing can calculate or determine a distance by comparing the base frequency curve with the reference reading 15 .

Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann mittels eines maschinellen Lernsystems das Vorlesen bzw. den vorgelesenen Text 20 in betonte und unbetonte Bereiche bzw. Teile klassifizieren und kann einen entsprechenden fensterbasierten Strom von Werten, z.B. Prosodiewerten, Artikulationswerten und/oder Betonungswerten, erstellen bzw. erzeugen.The speech analysis device 50 or the speech analysis can use a machine learning system to classify the reading or the text 20 read aloud into stressed and unstressed areas or parts and can create or generate a corresponding window-based stream of values, e.g. prosody values, articulation values and/or stress values. generate.

Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann einen Qualitätswert und/oder eine Sprachintensitätskurve bzw. Lautstärkekurve für jeden Teil des Vorlesens extrahieren bzw. erzeugen. Das Zeitfenster hierfür kann variabel bzw. gleitend („sliding window“) sein. Das Zeitfenster kann eine Minimalfrequenz (minimum pitch) von 50 Hz aufweisen.The speech analysis device 50 or speech analyzing can extract or generate a quality value and/or a speech intensity curve or loudness curve for each part of the reading. The time window for this can be variable or sliding (“sliding window”). The time window can have a minimum frequency (minimum pitch) of 50 Hz.

Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann die Anzahl der Silben und/oder die Anzahl der Silben pro Satz bestimmen. Ein Spitzenwert bzw. peak (z.B. in Dezibel), dem ein Abfall vorausgeht und ein Abfall der Intensität bzw. Lautstärke nachfolgt, kennzeichnet in dem vorgelesenen Text 20 jeweils potentielle Silbenkerne. Unbetonte Spitzenwerte bzw. peaks können hierbei ignoriert werden. Dies kann durch ein maschinelles Lernsystem durchgeführt werden. Die Silbenkerne können von dem maschinellen Lernsystem als Silben klassifiziert werden. Das maschinelle Lernsystem kann als Eingabe Mel-Frequenz-Cepstrum-Koeffizienten (Mel Frequency Cepstral Coefficients, abgekürzt MFCC) haben und kann eine geschätzte bzw. eine bestimmte Zahl der Silben ausgeben. Das maschinelle Lernsystem kann mittels eines Texts trainiert sein, bei dem die Silbenzahl bekannt ist.The speech analysis device 50 or the speech analyzer can determine the number of syllables and/or the number of syllables per sentence. A peak value or peak (e.g. in decibels), which is preceded by a drop and is followed by a drop in intensity or volume, identifies potential syllable nuclei in the text 20 that is read out. Unemphasized peak values or peaks can be ignored here. This can be done by a machine learning system. The syllable nuclei can be classified as syllables by the machine learning system. The machine learning system can have Mel Frequency Cepstral Coefficients (MFCC) as input and can output an estimated or a specific number of syllables, respectively. The machine learning system can be trained using a text where the number of syllables is known.

Auf Grundlage eines Wörterbuchs für bestimmte Texte kann die Zahl der Silben bestimmt werden, die zum Aussprechen bzw. für die Artikulation des jeweiligen Worts jeweils benötigt werden. Jeder Unterschied zu dieser Zahl der Silben in dem vorgelesenen Text 20 gibt einen Hinweis auf Vorlesefehler oder andere Fehler des Vorlesens oder ist ein Fehler des Vorlesens.Based on a dictionary for certain texts, the number of syllables required to pronounce or articulate the respective word can be determined. Any difference from this number of syllables in the text 20 read aloud indicates reading errors or other reading errors or is a reading error.

Eine Sprachrate kann durch die Sprachanalysevorrichtung 50 bzw. durch das Sprachanalysieren bestimmt werden. Die Sprachrate basiert auf der Anzahl der Silben des vorgelesenen Texts 20, die erfasst wurden, und gibt die Silbenzahl pro Zeiteinheit (z.B. pro Sekunde) an.A speech rate can be determined by the speech analysis device 50 or by the speech analysis. The speech rate is based on the number of syllables of the spoken text 20 that were recorded and indicates the number of syllables per unit of time (e.g. per second).

Zudem können die Pausen, insbesondere die Anzahl der Pausen und/oder die Länge der Pausen, durch ein maschinelles Lernsystem erfasst bzw. detektiert werden. Die reine Vorlesezeit, d.h. die gesamte Zeit des Vorlesens abzüglich der Zeit der Pausen und der Füllworte, kann bestimmt werden.In addition, the pauses, in particular the number of pauses and/or the length of the pauses, can be recorded or detected by a machine learning system. The pure reading time, i.e. the total time of the reading minus the time of the pauses and the filler words, can be determined.

Der Flüssigkeitswert kann bestimmt werden. Der Flüssigkeitswert, auch Artikulationsrate genannt, basiert auf der Zahl der Silben geteilt durch die reine Vorlesezeit. Die reine Vorlesezeit ist die Gesamtzeit des Vorlesens des Texts abzüglich der Pausen im vorgelesenen Text 20. Der Flüssigkeitswert gibt an, wie flüssig der Text vorgelesene wurde bzw. wie hoch die Leseflüssigkeit ist.The liquid value can be determined. Fluency, also known as articulation rate, is based on the number of syllables divided by the reading time alone. The pure reading time is the total time of reading the text minus the pauses in the text read out 20. The fluency value indicates how fluently the text was read out or how high the reading fluency is.

Die Sprachanalysevorrichtung 50 kann ein Sprach-Pausen-Verhältniswert bestimmen. Das Sprach-Pausen-Verhältnis ist das Verhältnis zwischen der reinen Vorlesezeit und der gesamten Zeit des Vorlesens ist. Sie ist ein Hinweis darauf, wie flüssig vorgelesen wird bzw. wurde.Speech analyzer 50 may determine a speech-to-pause ratio value. The speech-pause ratio is the ratio between the pure reading time and the total reading time. It is an indication of how fluently the reading is or was.

Als weiterer Wert, der von der Sprachanalysevorrichtung 50 bzw. durch das Sprachanalysieren bestimmt wird, kann der Artikulationswert angeführt werden. Der Artikulationswert gibt die Ähnlichkeit bzw. den Distanzwert zwischen der erwarteten Artikulation (gemäß Referenzvorlesen 15) und der Artikulation des Vorlesens bzw. des vorgelesenen Texts 20 an. Der Artikulationswert gibt also an, wie zutreffend bzw. richtig der Text beim Vorlesen ausgesprochen wurde bzw. wie zutreffend die hörbaren/erfassten Laute des vorgelesenen Texts 20 sind.The articulation value can be cited as a further value which is determined by the speech analysis device 50 or by the speech analysis. The articulation value indicates the similarity or the distance value between the expected articulation (according to the reference reading 15) and the articulation of the reading or the text 20 read aloud. The articulation value thus indicates how accurate or correct the text was pronounced when it was read out or how accurate the audible/detected sounds of the text 20 read out are.

Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann die Analyse bzw. Bewertung der Prosodie nach dem Ende des jeweiligen Satzes durchführen. Hierfür kann das Satzendesignal verwendet werden. Möglich ist auch, dass jeweils nach dem Ende eines Satzes der Artikulationswert und/oder Betonungswert analysiert bzw. bestimmt wird.The speech analysis device 50 or the speech analysis can carry out the analysis or evaluation of the prosody after the end of the respective sentence. The block end signal can be used for this. It is also possible for the articulation value and/or intonation value to be analyzed or determined after the end of a sentence.

Alternativ oder zusätzlich kann die Analyse bzw. Bewertung nach dem Ende des Vorlesens durchgeführt werden. Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann die Basisfrequenzkurve F0 kontinuierlich während des Satzes bestimmen bzw. analysieren. As an alternative or in addition, the analysis or assessment can be carried out after the end of the reading. The speech analysis device 50 or speech analyzing can determine or analyze the base frequency curve F0 continuously during the sentence.

Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann auf Grundlage der Prosodie bzw. Sprachmelodie bzw. Satzmelodie bestimmen, ob der Text 10 zutreffend ausgesprochen wurde. Die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren kann die Zahl der gesprochen Silben im vorgelesenen Text 20 bestimmen. Es ist möglich, dass die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren die Sprachrate, den Prosodiewert, den Betonungswert, die Anzahl der Pausen, den Flüssigkeitswert und den Artikulationswert bzw. die Wahrscheinlichkeitswert der zutreffenden Artikulation bestimmt.The speech analysis device 50 or the speech analysis can determine on the basis of the prosody or speech melody or sentence melody whether the text 10 was pronounced correctly. The speech analysis device 50 or the speech analysis can determine the number of spoken syllables in the text 20 read out. It is possible for the speech analysis device 50 or the speech analysis to determine the speech rate, the prosody value, the stress value, the number of pauses, the fluency value and the articulation value or the probability value of the correct articulation.

All diese Werte bzw. Qualitätswerte können die Qualität des Vorlesens bzw. die Qualität des Vorlesens insgesamt mit bestimmen. Hierbei können verschiedenen Qualitätswerten unterschiedliche Gewichte zugeordnet werden. Das Bestimmen der Qualität des Vorlesens 95 basiert auf mehreren der Qualitätswerte. Ein maschinelles Lernsystem kann aus den einzelnen Qualitätswerten die Qualität des Vorlesens insgesamt bestimmen. Hierfür kann ein maschinelles Lernsystem darauf trainiert sein, das Bewerten der Qualität möglichst weitgehend dem Bewerten der Qualität durch einen Menschen anzupassen. D.h. dass im Idealfall das maschinelle Lernsystem die Qualität des Vorlesens gleich oder ähnlich bewertet wie ein Mensch die Qualität des Vorlesens bewertet.All of these values or quality values can help determine the quality of the reading or the quality of the reading overall. Different weights can be assigned to different quality values. Determining the quality of the reading 95 is based on several of the quality values. A machine learning system can determine the overall quality of the reading from the individual quality values. For this purpose, a machine learning system can be trained to assess the quality as closely as possible Assess the quality by a human adjust. This means that ideally the machine learning system evaluates the quality of reading aloud in the same or similar way as a human evaluates the quality of reading aloud.

Damit eine zutreffende Zuordnung zwischen den Teilen des vorgelesenen Texts 20 und dem Referenzvorlesen 15 sichergestellt ist, kann die Sprachanalysevorrichtung 50 bzw. das Sprachanalysieren einen Abgleichalgorithmus verwenden. Der Abgleichalgorithmus unterteilt den vorgelesenen Text 20 in Phoneme, die mit Bezug auf die Länge des einzelnen Phonems, der Silbendauer und der Abweichungen vom Standardmodel analysiert werden können. Das Standardmodel wird mittels der Trainingsdaten des maschinellen Lernsystems festgelegt. Hierbei können Längenmodelle bzw. Sprachratenparte erzeugt werden. Es wird auf dieser Grundlage eine akzeptable Länge der Phoneme bestimmt, um Ausreißer bzw. zu große Abweichungen vom Standardmodel festzulegen. Diese Modellbildung kann für die Tondauer bzw. Phonemdauer und für die Silbenlänge durchgeführt werden.To ensure that the parts of the text 20 read aloud and the reference reading 15 are correctly assigned, the speech analysis device 50 or the speech analysis can use a matching algorithm. The matching algorithm breaks the read text 20 into phonemes, which can be analyzed in terms of individual phoneme length, syllable duration, and deviations from the standard model. The standard model is determined using the training data from the machine learning system. Length models or speech rate parts can be generated here. On this basis, an acceptable length of the phonemes is determined in order to identify outliers or excessive deviations from the standard model. This modeling can be carried out for the duration of the tone or phoneme and for the length of the syllable.

Die Vorlesepositionsbestimmungsvorrichtung 40 bestimmt die jeweilige Position des Vorlesens des vorgelesenen Texts 20 in dem Referenzvorlesen 15. Die Position kann auf Phonemebene bestimmt werden. Die Vorlesepositionsbestimmungsvorrichtung 40 kann eine zeitlich abgeglichene Version des Texts und von dem Vorlesen des Texts erstellen. Dies erlaubt die Qualität und die Dauer jeden Tons bzw. Sounds bzw. jedes Phonems zu erkennen, ob Töne bzw. Phoneme ausgelassen oder verlängert wurden, ob Wörter abgekürzt wurden. Dies kann durch Vergleich der Phoneme des Vorlesens und des Referenzvorlesens 15 erreicht werden (englisch: forced alignment). Hierbei kann eine Standardabweichung des Menschen, der den Text vorliest, erstellt werden, d.h. wie stark seine Betonung, seine Prosodie, seine Artikulation etc. über den bis dahin vorgelesenen Text 20 hinweg schwankt. Bei dem Vergleich kann diese bestimmte Standardabweichung mit einbezogen werden.The read-aloud position determining device 40 determines the respective reading position of the read-aloud text 20 in the reference reading 15. The position can be determined at the phoneme level. The reading position determining device 40 can create a time-aligned version of the text and of the reading of the text. This allows one to see the quality and duration of each tone or phoneme, whether tones or phonemes have been omitted or lengthened, whether words have been abbreviated. This can be achieved by comparing the phonemes of the reading and the reference reading 15 (English: forced alignment). Here, a standard deviation of the human reading the text can be established, i.e. how much his intonation, prosody, articulation, etc. varies over the text 20 read so far. This specific standard deviation can be included in the comparison.

Für die Vorlesepositionsbestimmungsvorrichtung 40 kann ein Algorithmus zum Konvertieren von Graphemen zu Phonemen (englisch: grapheme to phoneme conversion, Abkürzung: G2P) zur Phonemreferenzerzeugung genuzt werden. Dieser Algorithmus kann mit öffentlich verfügbaren Lexika trainiert sein bzw. werden. Der Algorithmus schätzt die Artikulation, d.h. die Folge der Phoneme, für ein Wort auf Grundlage der orthographischen Transkription bzw. Schreibweise ab bzw. bestimmt dies. Dies bedeutet, dass die Eingabe ein geschriebener normalisierter Text ist und die Ausgabe eine Folge von Phonemen. Beispielsweise kann ein Entscheidungsbaum oder ein seq2seq neuronales Netzwerk verwendet werden. Diese Phonemabfolge wird der Vorlesepositionsbestimmungsvorrichtung 40 als Referenz zum Abgleich mit dem forced alignment prozess 15 zur Verfügung gestellt.For the reading position determination device 40, a grapheme to phoneme conversion algorithm (abbreviation: G2P) can be used for phoneme reference generation. This algorithm can be trained with publicly available dictionaries. The algorithm estimates or determines the articulation, i.e. the sequence of phonemes, for a word based on the orthographic transcription or spelling. This means that the input is written normalized text and the output is a sequence of phonemes. For example, a decision tree or a seq2seq neural network can be used. This phoneme sequence is made available to the reading position determination device 40 as a reference for comparison with the forced alignment process 15 .

Die Bewertungsvorrichtung 5 kann zudem einen Satzreferenzanalysierer (sentence reference analyzer) umfassen. Dieser erzeugt Referenzen in Bezug auf die Silbenzahl, die Anzahl der erwarteten Satzunterbrechungen und der Satzübergänge und erzeugt ein Feld von Tokens für das Bestimmen der Vorleseposition. Hierfür werden die Sätze auf Grundlage von Satzmarkierungen bzw. Satzzeichen, wie z.B. „.“ (Punkt) „,“ (Komma), „!“ (Ausrufezeichen) und „?“ (Fragezeichen) getrennt. Im Deutschen muss beachtet werden, dass Ordinalzahlen, Daten und Zeitangaben auch Text verwenden und als Satzmarkierungen bzw. Satzzeichen auftreten können und somit erkannt und ausgeschlossen werden müssen. Ein seq2seq neuronales Netzwerk kann zum Segmentieren bzw. Unterteilen des Texts in Sätze verwendet werden.The evaluation device 5 can also comprise a sentence reference analyzer. This creates references to the number of syllables, the number of expected breaks and transitions, and creates an array of tokens for determining the reading position. For this purpose, the sentences are separated on the basis of punctuation marks, such as "." (period), "," (comma), "!" (exclamation mark) and "?" (question mark). In German it must be noted that ordinal numbers, dates and times also use text and can appear as punctuation marks or punctuation marks and must therefore be recognized and excluded. A seq2seq neural network can be used to segment the text into sentences.

Ein Tokenizer kann die einzelnen Sätze in Worte zerlegen auf Grundlage von Leerzeichen und weiteren speziellen Zeichen, die Wortgrenzen darstellen können, wie z.B. „-“, Zahlen und „&“. Dies kann durch ein seq2seq neuronales Netzwerk oder mit regulären Ausdrücken zusammen mit Umsetzungstabellen durchgeführt werden. Der Silbenzähler nimmt eine Liste von Tokens in einem Satz und schaut die Anzahl der erfassten Silbengrenzen in der Umsetzungstabelle bzw. Wörterbuch nach und gibt die Anzahl der Silben für jedes Token aus.A tokenizer can break each sentence into words based on spaces and other special characters that can represent word boundaries, such as "-", numbers, and "&". This can be done by a seq2seq neural network or with regular expressions along with translation tables. The syllable counter takes a list of tokens in a sentence and looks up the number of syllable boundaries detected in the translation table or dictionary and outputs the number of syllables for each token.

Alle oben genannten Werte und/oder Qualitätswerte können bei dem Bestimmen der Qualität des vorgelesenen Texts 20 mit einfließen. Insbesondere können der Flüssigkeitswert, der Prosodiewert und/oder der Betonungswert sowie der Artikulationswert die Bewertung der Qualität des Vorlesens mitbestimmen.All of the values and/or quality values mentioned above can also be included when determining the quality of the text 20 read aloud. In particular, the fluency value, the prosody value and/or the emphasis value and the articulation value can also determine the evaluation of the quality of the reading.

Das Bestimmen der Qualität des Vorlesens 95 auf Grundlage der oben genannten Werte kann mittels eines maschinellen Lernsystems durchgeführt werden. Das maschinelle Lernsystem kann auf Grundlage von Trainingsdaten trainiert sein, die den Text 10, das Vorlesen und die extrahierten Merkmale wie oben beschrieben umfassen und als Klassifikationsziel die von einem anderen Menschen bewertete Qualität des Vorlesens des Texts 10 hat.Determining the quality of the reading 95 based on the above values can be performed using a machine learning system. The machine learning system can be trained on the basis of training data comprising the text 10, the reading and the extracted features as described above and having as a classification target the quality of the reading of the text 10 evaluated by another human.

Die Qualitätswerte und/oder die Qualität des Vorlesens des Texts 10 insgesamt kann einem Tutor bzw. Lehrer, auch über das Internet, zur Verfügung gestellt werden. Dieser kann sich auch eine Aufnahme des Vorlesens des Texts anhören. Zudem kann der Tutor bzw. Lehrer über die Bewertungsvorrichtung 5 dem Mensch, der den Text vorgelesen hat, zusätzliches Feedback geben. Das zusätzliche Feedback kann in Textform und/oder in Videoform und/oder in Audioform stattfinden.The quality values and/or the quality of reading the text 10 overall can be made available to a tutor or teacher, also via the Internet. He or she can also listen to a recording of the text being read aloud. In addition, the tutor or teacher can use the evaluation device 5 to give the person who read the text give additional feedback. The additional feedback can be in text form and/or in video form and/or in audio form.

Die Bewertungsvorrichtung 5 kann eine Statistik für den jeweiligen Benutzer erstellen. Die Statistik kann die Zahl der gelesenen Seiten und/oder Abschnitt pro Zeiteinheit für den letzten Monat oder die letzte Woche aufweisen. Es ist möglich, dass die Bewertungsvorrichtung 5 eine Statistik bezüglich der Qualitätswerte erstellt.The evaluation device 5 can create statistics for the respective user. The statistics may include the number of pages and/or sections read per unit of time for the last month or week. It is possible for the evaluation device 5 to create statistics relating to the quality values.

Die Qualität des Vorlesens kann als Punktewert oder als Prozentwert ausgegeben werden. Beispielsweise kann die Qualität des Vorlesens mit der Qualität des Vorlesens einer ungefähr gleichaltrigen Person verglichen werden. Z.B. kann die Qualität des Vorlesens eines 8-jährigen Kinds mit der Qualität des Vorlesens eines anderen 8-jährigen Kinds verglichen werden bzw. daran bewertet werden und nicht mit der Qualität eines Vorlesens einer erwachsenen Person. Natürlich kann die Qualität des Vorlesens sowohl mit einer gleichaltrigen Person verglichen werden bzw. daran bewertet werden als auch mit einer erwachsenen Person bzw. einem sehr guten Leser.The quality of the reading can be given as a point value or as a percentage. For example, the quality of reading aloud can be compared to the quality of reading aloud to a person of about the same age. For example, the quality of reading to an 8-year-old child can be compared or assessed against the quality of reading to another 8-year-old and not to the quality of reading to an adult. Of course, the quality of reading aloud can be compared and evaluated with a person of the same age as well as with an adult or a very good reader.

Denkbar ist auch, dass die Bewertungsvorrichtung 5 automatisch bzw. automatisiert ein Quiz zu dem Inhalt des Texts 10 erstellt. Ein weiterer Aspekt für die Qualität des Vorlesens kann das Erfassen des Inhaltes des (vorgelesenen) Texts 10 sein, den der Mensch vorliest. Die Zahl der richtig beantworteten Fragen in dem Quiz kann somit ein Qualitätswert sein, der die Qualität des Vorlesens mitbestimmt. Möglich ist auch, dass die Fragen des Quiz teilweise von Menschen erstellt werden.It is also conceivable that the evaluation device 5 automatically or automatically creates a quiz on the content of the text 10 . A further aspect for the quality of reading aloud can be the recording of the content of the (read aloud) text 10 that the human reads aloud. The number of correctly answered questions in the quiz can thus be a quality value that also determines the quality of the reading. It is also possible that some of the questions in the quiz are created by humans.

Es ist auch möglich, dass das Leseverständnis bzw. die Semantik-Beherrschung automatisiert gemessen bzw. bewertet wird.It is also possible for reading comprehension or mastery of semantics to be measured or evaluated automatically.

BezugszeichenlisteReference List

55: Bewertungsvorrichtungevaluation device
1010: Texttext
1515: ReferenzvorlesenRead Reference
2020: vorgelesener Texttext read aloud
3030: Spracherkennungsvorrichtungvoice recognition device
4040: Vorlesepositionsbestimmungsvorrichtungreading position determination device
5050: Sprachanalysevorrichtungspeech analyzer
6060: Ausgabeoutput
7070: Schritt des Eingebens des Texts in die BewertungsvorrichtungStep of entering the text into the rating device
7575: Schritt des automatischen SpracherkennensStep of automatic speech recognition
8080: Schritt des Bestimmens der aktuellen VorlesepositionStep of determining the current reading position
8585: Schritt des Vergleichensstep of comparison
9090: Schritt des Bestimmens mehrerer QualitätswerteStep of determining a plurality of quality values
9595: Schritt des Bewertens der Qualität des VorlesensStep of assessing the quality of the reading
9898: Schritt des Ausgebens der Bewertung der Qualitätstep of outputting the evaluation of the quality

Claims

Verfahren zum Bewerten der Qualität des Vorlesens eines Texts (10) durch einen Menschen, wobei das Verfahren folgende Schritte umfasst: Eingeben des Texts (10) in eine Bewertungsvorrichtung (5); Eingeben eines Referenzvorlesens (15) des Texts in die Bewertungsvorrichtung (5) und/oder Erzeugen eines Referenzvorlesens des Texts durch die Bewertungsvorrichtung (5); Durchführen einer automatischen Spracherkennung des von einem Menschen vorgelesenen Texts (20) durch die Bewertungsvorrichtung (5); Bestimmen der aktuellen Vorleseposition des vorlesenden Menschen in dem Text (10); Vergleichen des vorgelesenen Texts (20) an der aktuellen Vorleseposition mit dem Text des Referenzvorlesens (15) an der aktuellen Vorleseposition; Bestimmen mehrerer Qualitätswerte des Vorlesens des vorgelesenen Texts (20) auf Basis eines Vergleichs von Teilen des vorgelesenen Texts (20) mit Teilen des Referenzvorlesens (15) mittels eines maschinellen Lernsystems; Bewerten der Qualität des Vorlesens des vorgelesenen Texts (20) auf Grundlage der mehreren bestimmten Qualitätswerte; und Ausgeben der Bewertung der Qualität des Vorlesens.Method for evaluating the quality of reading a text (10) by a human, the method comprising the following steps: entering the text (10) into a scoring device (5); inputting a reference reading (15) of the text into the evaluation device (5) and/or generating a reference reading of the text by the evaluation device (5); the evaluation device (5) performing automatic speech recognition of the text (20) read aloud by a human; determining the current reading position of the reading human in the text (10); comparing the text (20) read aloud at the current reading position to the text of the reference reading (15) at the current reading position; determining a plurality of reading quality scores of the read-aloud text (20) based on a comparison of portions of the read-aloud text (20) to portions of the reference reading (15) using a machine learning system; assessing the quality of reading the read text (20) based on the plurality of determined quality values; and Outputting the rating of the quality of the reading.

Verfahren nach Anspruch 1, wobei die verglichenen Teile des Texts Worte und/oder Sätze und/oder Absätze des Texts sind.procedure after claim 1 , where the compared parts of the text are words and/or sentences and/or paragraphs of the text.

Verfahren nach Anspruch 1 oder 2, wobei das Verfahren ferner folgenden Schritt umfasst: Vergleichen der Prosodie eines Worts oder Satzes des vorgelesenen Texts (20) mit der Prosodie eines Worts oder eines Satzes des Referenzvorlesens (15) zum Bestimmen eines Prosodiewerts, der widerspiegelt, inwieweit das Wort oder der Satz mit der zutreffenden Prosodie vorgelesen wurde, mittels eines maschinellen Lernsystems, wobei der Prosodiewert einer der Qualitätswerte ist.procedure after claim 1 or 2 , the method further comprising the step of: comparing the prosody of a word or phrase of the text read aloud (20) with the prosody of a word or phrase of the reference reading (15) to determine a prosody score that reflects the extent to which the word or phrase with of the applicable prosody was read aloud by a machine learning system, with the prosody score being one of the quality scores.

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren ferner folgenden Schritt umfasst: Vergleichen der Betonung eines Worts oder Satzes des vorgelesenen Texts (20) mit der Betonung eines Worts oder Satzes des Referenzvorlesens (15) zum Bestimmen eines Betonungswerts, der widerspiegelt, inwieweit das Wort der der Satz mit der zutreffenden Betonung vorgelesen wurde, mittels eines maschinellen Lernsystems, wobei der Betonungswert einer der Qualitätswerte ist.Method according to any one of the preceding claims, the method further comprising the step of: Using a machine learning system, comparing the stress of a word or phrase of the text read aloud (20) to the stress of a word or phrase of the reference reading (15) to determine a stress score that reflects the extent to which the word or phrase was read aloud with the appropriate stress , where the emphasis value is one of the quality values.

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren ferner folgenden Schritt umfasst: Vergleichen der Artikulation eines Worts oder Satzes des vorgelesenen Texts (20) mit der Artikulation eines Worts oder Satzes des Referenzvorlesens (15) zum Bestimmen eines Artikulationswerts, der widerspiegelt, inwieweit das Wort oder der Satz mit der zutreffenden Artikulation vorgelesen wurde, mittels eines maschinellen Lernsystems, wobei der Artikulationswert einer der Qualitätswerte ist.Method according to any one of the preceding claims, the method further comprising the step of: Using a machine learning system, comparing the pronunciation of a word or phrase of the text read aloud (20) to the pronunciation of a word or phrase of the reference reading (15) to determine an articulation score that reflects the extent to which the word or phrase was read aloud with the correct pronunciation , where the articulation value is one of the quality values.

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren ferner folgenden Schritt umfasst: Vergleichen der Zahl und/oder der Länge der Pausen zwischen Worten und/oder Sätzen des vorgelesenen Texts (20) mit der Zahl und/oder der Länge der Pausen zwischen Worten und/oder Sätzen des Referenzvorlesens (15) zum Bestimmen eines Pausenwerts, der widerspiegelt, wie ähnlich der vorgelesene Text (20) hinsichtlich der Pausen zu dem Referenzvorlesen (15) ist, wobei der Pausenwert einer der Qualitätswerte ist.Method according to any one of the preceding claims, the method further comprising the step of: Comparing the number and/or length of pauses between words and/or sentences of the text read aloud (20) to the number and/or length of pauses between words and/or sentences of the reference reading (15) to determine a pause value that reflects how similar the read text (20) is to the reference read (15) in terms of pauses, the pause value being one of the quality values.

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren ferner folgenden Schritt umfasst: Bestimmen der Silben pro Zeiteinheit des vorgelesenen Texts (20) im Verhältnis zu der Länge des vorgelesenen Texts (20) abzüglich der Pausen des vorgelesenen Texts (20) mittels eines maschinellen Lernsystems zum Bestimmen eines Flüssigkeitswerts, wobei der Flüssigkeitswert einer der Qualitätswerte ist.Method according to any one of the preceding claims, the method further comprising the step of: determining the syllables per unit time of the read text (20) in relation to the length of the read text (20) minus the pauses of the read text (20) using a machine learning system to determine a fluency value, the fluency value being one of the quality values.

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Referenzvorlesen (15) den von einem anderen Menschen vorgelesenen Text (20) umfasst oder wobei das Referenzvorlesen (15) der von einem anderen Menschen vorgelesene Text (20) ist.A method according to any one of the preceding claims, wherein the reference reading (15) comprises the text (20) read aloud by another human or wherein the reference reading (15) is the text (20) read aloud by another human.

Verfahren nach einem der vorhergehenden Ansprüche, wobei bei einer Artikulation eines Worts oder Satzes des vorgelesenen Texts (20), die von der Artikulation des Worts oder des Satzes des Referenzvorlesens (15) um mehr als einen ersten vorgegebenen Wert abweicht, und/oder bei einer Pause vor dem nächsten Wort oder Satzes des Texts (10), die um mehr als ein zweiter vorgegebener Wert länger als die Pause vor dem nächsten Wort in dem Referenzvorlesen (15) ist und/oder die länger als ein dritter vorgegebener Wert ist, eine zutreffende Artikulation des Worts oder Satzes akustisch ausgegeben wird.Method according to one of the preceding claims, wherein in the case of an articulation of a word or phrase of the text read aloud (20) which deviates from the articulation of the word or phrase of the reference reading aloud (15) by more than a first predetermined value, and/or in the case of a pause before the next word or sentence of the text (10) which is longer than the pause before the next word in the reference reading (15) by more than a second predetermined value and/or which is longer than a third predetermined value articulation of the word or sentence is output acoustically.

Verfahren nach einem der vorhergehenden Ansprüche, wobei nach einem, insbesondere durch die Struktur des Texts (10) vorgegebenen, Abschnitts des Texts (10) ein Bewerten der Qualität des bereits vorgelesenen Texts (20) durchgeführt wird.Method according to one of the preceding claims, in which the quality of the text (20) already read out is evaluated after a section of the text (10) specified, in particular by the structure of the text (10).

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bestimmen der aktuellen Vorleseposition mittels einer Fuzzy-Suche, insbesondere unter Benutzung einer Levenshtein-Distanz, durchgeführt wird.Method according to one of the preceding claims, in which the determination of the current reading position is carried out by means of a fuzzy search, in particular using a Levenshtein distance.

Verfahren nach einem der vorhergehenden Ansprüche, wobei der Betonungswert, der Prosodiewert und/oder der Artikulationswert für einzelne Segmente des Texts (10) ausgegeben werden.Method according to one of the preceding claims, in which the emphasis value, the prosody value and/or the articulation value are output for individual segments of the text (10).

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren ferner folgenden Schritt umfasst: Herausfiltern von Störgeräuschen und/oder akustischen Steuerungsbefehlen aus dem Vorlesen des Texts (10).Method according to any one of the preceding claims, the method further comprising the step of: Filtering out background noise and/or acoustic control commands from reading the text (10).

Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren ferner folgende Schritte umfasst: Erzeugen von einer oder mehreren Quizfragen über den Inhalt des vorgelesenen Texts (20); Erfassen von von dem Menschen, der den Text vorgelesen hat, gegebenen Antworten auf die Quizfragen; Überprüfen, ob die Antworten auf die Quizfragen zutreffend sind, zum Bestimmen eines Leseverständiswerts; und Ausgeben des Leseverständiswerts.A method according to any one of the preceding claims, the method further comprising the steps of: generating one or more quizzes about the content of the text (20) read aloud; collecting answers to the quiz questions given by the human who read the text; checking whether the answers to the quiz questions are correct to determine a reading comprehension score; and Outputting the reading comprehension score.

Computerprogrammprodukt, das von einem Prozessor eines Computers lesbare Instruktionen aufweist, die, wenn sie von dem Prozessor ausgeführt werden, den Prozessor veranlassen, das Verfahren nach einem der vorhergehenden Ansprüche auszuführen.A computer program product comprising instructions readable by a processor of a computer which, when executed by the processor, cause the processor to carry out the method according to any one of the preceding claims.

Computerlesbares Medium, auf dem das Computerprogrammprodukt nach Anspruch 15 gespeichert ist.Computer-readable medium on which the computer program product claim 15 is saved.

Bewertungsvorrichtung (5) zum Bewerten der Qualität des Vorlesens eines Menschen, wobei die Bewertungsvorrichtung (5) eine Spracherkennungsvorrichtung (30) zum Durchführen einer automatischen Spracherkennung des von einem Menschen vorgelesenen Texts (20), eine Vorlesepositionsbestimmungsvorrichtung (40) zum Bestimmen der aktuellen Vorleseposition des vorlesenden Menschen in dem Text (10), und eine Sprachanalysevorrichtung (50) zum - Vergleichen des vorgelesenen Texts (20) an der aktuellen Vorleseposition mit dem Text des Referenzvorlesens (15) an der aktuellen Vorleseposition, - Bestimmen mehrerer Qualitätswerte des Vorlesens des vorgelesenen Texts (20) auf Basis eines Vergleichs von Teilen des vorgelesenen Texts (20) mit Teilen des Referenzvorlesens (15) mittels eines maschinellen Lernsystems, - Bewerten der Qualität des Vorlesens des vorgelesenen Texts (20) auf Grundlage der mehreren bestimmten Qualitätswerte, und - Ausgeben der Bewertung der Qualität des Vorlesens umfasst.Evaluation device (5) for evaluating the quality of reading aloud to a human being, the evaluation device (5) having a speech recognition device (30) for carrying out automatic speech recognition of the text (20) read aloud by a human, a reading position determination device (40) for determining the current reading position of the reading human in the text (10), and a speech analysis device (50) for - comparing the text (20) read aloud at the current reading position with the Text of the reference reading (15) at the current reading position, - determining several quality values of reading the text read (20) on the basis of a comparison of parts of the text read (20) with parts of the reference reading (15) by means of a machine learning system, - evaluating the quality of reading aloud the text (20) read aloud based on the plurality of determined quality values, and - outputting the evaluation of the quality of reading aloud.