EP4346558A1 - Softwarebasiertes, sprachbetriebenes und objektives diagnosewerkzeug zur verwendung in der diagnose einer chronischen neurologischen störung - Google Patents

Softwarebasiertes, sprachbetriebenes und objektives diagnosewerkzeug zur verwendung in der diagnose einer chronischen neurologischen störung

Info

Publication number
EP4346558A1
EP4346558A1 EP22732938.0A EP22732938A EP4346558A1 EP 4346558 A1 EP4346558 A1 EP 4346558A1 EP 22732938 A EP22732938 A EP 22732938A EP 4346558 A1 EP4346558 A1 EP 4346558A1
Authority
EP
European Patent Office
Prior art keywords
analysis module
emotion
biomarker
diagnostic tool
test person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP22732938.0A
Other languages
English (en)
French (fr)
Inventor
Peter O. Owotoki
Leah W. Owotoki
David Lehmann
Diana Wanjiku
Moriah-Jane Lorentz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VitafluenceAi GmbH
Original Assignee
VitafluenceAi GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VitafluenceAi GmbH filed Critical VitafluenceAi GmbH
Publication of EP4346558A1 publication Critical patent/EP4346558A1/de
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0002Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network
    • A61B5/0015Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network characterised by features of the telemetry system
    • A61B5/0022Monitoring a patient using a global network, e.g. telephone networks, internet
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/162Testing reaction times
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/163Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state by tracking eye movement, gaze, or pupil change
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6887Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
    • A61B5/6898Portable consumer electronic devices, e.g. music players, telephones, tablet computers
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/725Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7253Details of waveform analysis characterised by using transforms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/742Details of notification to user or communication with user or patient ; user input means using visual displays
    • A61B5/7425Displaying combinations of multiple images regardless of image source, e.g. displaying a reference anatomical image with a live image
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/06Children, e.g. for attention deficit diagnosis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2562/00Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
    • A61B2562/02Details of sensors specially adapted for in-vivo measurements
    • A61B2562/0204Acoustic sensors
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/117Identification of persons
    • A61B5/1171Identification of persons based on the shapes or appearances of their bodies or parts thereof
    • A61B5/1176Recognition of faces
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7475User input or interface means, e.g. keyboard, pointing device, joystick
    • A61B5/749Voice-controlled interfaces

Definitions

  • the invention relates to a software-based diagnostic tool for use in diagnosing a chronic, neurological disorder in a human using artificial intelligence, as well as a method for operating the diagnostic tool and a system comprising the diagnostic tool.
  • Chronic neurological disorders are common in humans. They express themselves in an atypical intellectual development and/or an atypical social behavior. Examples of such disorders are autism, attention deficit disorder (ADHD), schizophrenia, Alzheimer's, psychosis, etc. Autism is one of the best-known chronic neurological disorders, which is why it is considered below as an example but representative of all chronic neurological disorders as the starting point for the invention.
  • ADHD attention deficit disorder
  • schizophrenia schizophrenia
  • Alzheimer's psychosis
  • Autism is one of the best-known chronic neurological disorders, which is why it is considered below as an example but representative of all chronic neurological disorders as the starting point for the invention.
  • autism spectrum disorder abbreviated ASS or English ASD (Austism Spectrum Disorder).
  • ASS autism spectrum disorder
  • English ASD Austism Spectrum Disorder
  • Autism shows itself externally, especially in behavior and communication.
  • this developmental disorder is, on the one hand, the social interaction or dealing with and exchanging ideas with other people and a limited interest in repetitive, identical or similar processes, and on the other hand the verbal and non-verbal language of the autistic person, ie the voice and body language such as facial expressions, eye contact and gestures.
  • a reduction in intelligence can also often be determined, but there are also forms of autism in which the affected person is of average or even high intelligence.
  • Autism is diagnosed in the classic way by a specialized doctor, neurologist or therapist by asking the potentially autistic patient a more or less large number of specially developed questions from a list of questions and by subsequently observing and evaluating the answers and reactions.
  • autism-specific symptoms i.e. the symptom constellation
  • diagnosis using a questionnaire is also disadvantageous because the questions take a long time to pose, for example between one and three hours, and the questions and observations are adapted to the patient's age, regional language and ethnic background have to. The latter requires that the medical professional be familiar with the ethnic characteristics of the patient, because behavior, verbal and non-verbal communication differed from people to people.
  • the object of the present invention is to provide a device, a system and an operating method that overcomes the disadvantages mentioned and enables an objective, at least assistive diagnosis of a chronic neurological disorder, in particular autism and its associated neurological diseases, which is preferably possible at any time and from anywhere in accessible to the world regardless of the language and ethnic origin of the person concerned.
  • the diagnostic tool according to the invention and the method used and executed by it are based on improvements in the state of the art and innovations in the field of artificial intelligence.
  • a cost-effective, user-friendly and rapid diagnosis is made with the aid of the diagnostic tool according to the invention and its operating method.
  • a biomarker is a measurable and therefore analyzable variable of a biological characteristic of a person, more precisely a variable that enables a qualitative or quantitative assessment of a physical, physiological or behavioral characteristic of a person.
  • a software-based diagnostic tool for use in diagnosing a chronic neurological disorder in a human subject using artificial intelligence comprising
  • a speech analysis module for determining characteristic values of a first, namely vocal biomarker of a speech signal of the test person
  • the operating software is set up to trigger the speech analysis module and the at least one further module one after the other and to feed their determined characteristic values to the overall result evaluation unit.
  • the speech analysis module includes
  • a voice signal trigger control which is set up to display one of the individual images and/or individual videos or a text on an image display device for the test person in order to send at least one voice signal to the test person in the form of a naming of an object contained in the respective individual image or individual video or in form of reading the text aloud,
  • a voice recording unit which is set up to record the voice signal in an audio recording with the aid of a voice input device
  • a speech signal analyzer which is set up to first evaluate the speech signal in the audio recording as to which pitch occurs at which point in time, and then to determine a frequency distribution of the pitches over a number of frequency bands of a frequency spectrum under consideration, this frequency distribution forming the characteristic values of the first biomarker .
  • the overall result evaluation unit is set up to determine whether the test person has the chronic, neurological disorder on the basis of the characteristic values of the test person's biomarkers using a machine learning algorithm based on artificial intelligence by comparison with a multidimensional interface.
  • the interface can be understood as a mathematical hyperplane in a multidimensional space whose dimensions are defined by the number of characteristic values of all biomarkers.
  • the interface represents a mathematical boundary between the biomarker values of people with the chronic, neurological disorder and people without such a disorder.
  • the overall result evaluation unit is a classification model trained with biomarker values from comparison persons, which determines whether and to what degree of probability the identified biomarker values of the subject lies on the side of the interface associated with the comparators with the chronic neurological disorder or on the side of the interface associated with the comparators without the chronic neurological disorder.
  • the learning algorithm is preferably a support vector machine (SVM), a so-called random forest or a deep convolutional neuronal network algorithm, the learning algorithm having been trained with a number of first and second comparison data sets from characteristic values of the biomarkers, the first comparison data sets of a group of Reference persons are assigned who have the chronic, neurological disorder, and the second comparison data sets are assigned to a group of reference persons who do not have the chronic, neurological disorder.
  • SVM support vector machine
  • a special feature when using the learning algorithm is that it can be continuously optimized or trained with new comparative data sets in order to classify the biomarker characteristics as precisely as possible, so that it can be used in the differentiation of the biomarker recognitions between people with and without chronic, neurological disorders, or in the definition of the interface, is getting better and better.
  • a random forest is described, for example, in A Paul, D P Mukherjee, P Das, A Gangopadhyay, AR Chintha and S Kundu, "Improved Random Forest for Classification," in IEEE Transactions on Image Processing, Vol. 27, No. 8, Pages 4012-4024, Aug. 2018. In particular, it represents a good choice for the learning algorithm when the training data, i.e.
  • the number of comparison data sets to create the classification model increases, in particular between a few hundred and a few thousand comparison data sets. Furthermore, a deep convolutional neural network algorithm is particularly suitable if the training data, i.e. the number of comparison data sets to create the classification model, is particularly large, in particular over 5000, with such a model even achieving a classification accuracy of close to 99%.
  • the diagnostic tool thus evaluates at least two biomarkers, with the first biomarker (vocal biomarker) being of particular importance and characterizing a property of the test person's voice. More specifically, the first biomarker identifies the tone spectrum used by the subject as a first criterion for assessing the presence of a chronic neurological disorder. With the help of this vocal biomarker, one can Determine with 95% certainty whether the test person has a specific chronic neurological disorder. In order to improve the accuracy of the diagnosis, at least one second biomarker is used, the characteristic values of which are determined by the at least one further module.
  • the first biomarker identifies the tone spectrum used by the subject as a first criterion for assessing the presence of a chronic neurological disorder.
  • this vocal biomarker one can Determine with 95% certainty whether the test person has a specific chronic neurological disorder.
  • at least one second biomarker is used, the characteristic values of which are determined by the at least one further module.
  • the further module can be an emotion analysis module for evaluating the reaction of the test person to an emotional stimulus as a second biomarker and can include at least the following:
  • an emotion-triggering control which is set up to display a set of individual images and/or individual videos or at least one individual video on the image display device in order to stimulate a number of individual emotions in the test person
  • an emotion observation unit which is set up to evaluate a (video) recording of the test person's face, obtained with the aid of an image recording device, at least to determine when it shows an emotional reaction.
  • the emotion analysis module is set up to determine at least the respective reaction time between the stimulation of the respective emotion and the occurrence of the emotional reaction, with at least these reaction times forming the characteristic values of the second biomarker in this embodiment variant.
  • the additional module can be a viewing direction analysis module for evaluating the viewing direction of the test person as a second biomarker and can include at least the following:
  • a line of sight guide which is set up to display at least one image or video on the image display device in order to guide the line of sight of the test person
  • the second biomarker can either be a property of the emotion processing or of the subject's gaze. It thus characterizes a property of their ability to interact socially, namely either the reaction time to an emotional stimulus or the direction of their gaze, and can thus be referred to as a "social biomarker".
  • the speech analysis module and the emotion analysis module can be present in one embodiment of the diagnostic tool, in another embodiment only the speech analysis module and the gaze analysis module, and in a third embodiment the speech analysis module, the emotion analysis module and the gaze analysis module.
  • the emotion analysis module then forms a first further module and the viewing direction analysis module forms a second further module, with at least the reaction times to the emotional stimuli forming characteristic values of the second biomarker and the viewing direction over time forming characteristic values of a third biomarker of the test person.
  • the overall result evaluation unit is then set up to determine whether the test person has the chronic neurological disorder based on the characteristic values of the first, second and third biomarker of the test person using the machine learning algorithm based on artificial intelligence by comparison with a multidimensional interface (hyperplane). The order in which the characteristic values of the second and third biomarkers are determined is not important.
  • the diagnostic tool is preferably set up, the set of individual images and/or individual videos or the text for triggering the speech signal, and/or the set of individual images and/or individual videos or the at least one video for the emotion stimulation and/or the at least one image or video for the Select and display gaze direction control depending on person-specific data of the test person.
  • the voice signal trigger control is set up to select and display either the set of individual images and/or individual videos or the text depending on the age of the test person. Children can preferably be shown the set of individual images and/or individual videos and adults can be shown the text on the image display device if the test person cannot read. Otherwise, it is preferable to use a text to be read aloud, because this way the language element is longer, more extensive in terms of sound and tonality, and overall more homogeneous.
  • the diagnostic tool can have a filter to filter out background or background noise from the speech signal before the pitch evaluation, in particular the voice or voices of other people such as an assistant who is or may be present in the vicinity of the test person and speaks during the audio recording.
  • a filter to filter out background or background noise from the speech signal before the pitch evaluation, in particular the voice or voices of other people such as an assistant who is or may be present in the vicinity of the test person and speaks during the audio recording.
  • the diagnostic tool can preferably have a bandpass filter that is set up to restrict the pitch spectrum under consideration to the range between 30 and 600 Hz.
  • the human voice covers a frequency range between 30 Hz and 2000 Hz, with spoken language usually being below 600 Hz. Limiting the pitch spectrum to the range between 30 and 600 Hz with the same number of frequency bands improves pitch analysis accuracy because the individual frequency bands are narrower.
  • the number of frequency bands is preferably between 6 and 18, ideally 12. This number represents a good balance between the accuracy of the pitch determination and the computing time and computing power required for it.
  • the speech signal analyzer preferably includes a deep convolutional neuronal network algorithm in order to estimate the pitches, also referred to as pitch detection in technical jargon.
  • a deep convolutional neuronal network algorithm in order to estimate the pitches
  • PRAAT another high quality pitch estimation algorithm
  • the emotion observation unit and/or the viewing direction observation unit is set up to evaluate the facial image in real time.
  • the examination is carried out while the test person is looking at the image reproduction device or is being shown the set of individual images and/or individual videos or the at least one video or image on it.
  • the emotion observation unit and/or the line of sight observation unit can each have a video recording unit or use such a video recording unit that is part of the diagnostic tool in order to save a corresponding video recording while the test person views the set of individual images and/or individual videos or at least one video or picture is shown.
  • This corresponding video recording can be made available to the emotion observation unit or the viewing direction observation unit for evaluation.
  • the emotion observation unit comprises face recognition software based on Compassionate Artificial Intelligence, which is trained on certain emotions, namely those emotions that are stimulated by the individual images or individual videos of the sentence or by the video, such as joy, sadness, anger or fear.
  • Compassionate Artificial Intelligence which is trained on certain emotions, namely those emotions that are stimulated by the individual images or individual videos of the sentence or by the video, such as joy, sadness, anger or fear.
  • the emotion observation unit is preferably set up to determine the type of reaction to the respectively stimulated emotion in addition to the reaction time, this type of response being part of the characteristics of the second biomarker.
  • the type of reaction can be binary information that indicates whether the reaction is a positive or negative emotion. For example, joy and sadness can be interpreted as positive emotions, and anger and fear as negative emotions.
  • the response type can be the specific emotion with which the subject responds. The response type can then form part of the characteristics of the second biomarker, together with the corresponding response time for the particular emotional response to which the response type is linked.
  • the emotion analysis module is set up to determine whether the reaction shown by the test person corresponds to the stimulated emotion. In the simplest case, this can be done by comparing whether both the emotional stimulus and the type of reaction are positive or negative emotions. If this is the case, the test person reacted as expected or "normally". If this is not the case, i.e. the emotional reaction is positive although the emotional stimulus was negative or vice versa, the test person reacted unexpectedly or "abnormally”. At best, a comparison can also be made as to whether the specifically determined emotion with which the test person reacts corresponds to that of the stimulated emotion or whether these emotions are different. The result of this respective comparison can be given in a congruence indicator, e.g.
  • a "1" indicates agreement of the emotional response with the stimulated emotion and a "0” indicates a lack of agreement, at least with regard to whether they are positive or negative emotions.
  • a "-1" may indicate a lack of correspondence between the emotional response and the stimulated emotion and a "0” the fact that the subject showed no response at all.
  • the congruence indicator can then also form part of the characteristics of the second biomarker, together with the corresponding reaction time for the emotional reaction to which the congruence indicator is linked.
  • the congruence indicator is particularly helpful and meaningful information, at least when the test person refers to a does not react to a specific stimulus with an emotion that would be expected because this is indicative of a chronic neurological disorder.
  • the second biomarker comprises 3n parameters in this case.
  • the line of sight guidance can be set up to display the at least one image or video in discrete positions of the image display device one after the other or to move it along a continuous path.
  • the image or video is thus reproduced smaller than the display area (screen) of the image display device and is moved across the display area, with the test subject being supposed to follow the chronological sequence of the display locations or the display path with their eyes.
  • the line of sight observation unit preferably includes eye-tracking software.
  • the diagnostic tool according to the invention can advantageously be used as a software application for a portable communication terminal, in particular a smartphone or tablet. This means that the diagnostic tool can be used by almost anyone at any time.
  • the diagnostic tool according to the invention can also be used as a software application on a server that can be controlled via a computer network by a browser on an external terminal in order to run the diagnostic tool.
  • This variant also ensures high accessibility of the diagnostic tool or access to it at any time from anywhere in the world, with the variant also taking into account the fact that the computing power in a portable communication terminal device may not be sufficient to execute the artificial intelligence algorithms mentioned.
  • a server with a processing unit with sufficient computing power is better suited for this.
  • a diagnostic system for use in the diagnosis of a chronic, neurological disorder in a human subject using artificial intelligence comprising
  • processing unit such as a processor, for executing the program code and processing the data of the diagnostic tool
  • a voice input device such as a microphone, for recording at least one voice signal from the test person for the diagnostic tool
  • an image capturing device such as a CCD camera, for capturing an image of the subject's face for the diagnostic tool
  • an image display device such as a monitor or a display, for displaying image data for the test person and
  • the diagnostic system is preferably a portable communication terminal device, in particular a smartphone or tablet, on which the diagnostic tool is run as a software application.
  • the non-volatile memory, the processing unit, the voice input device, the image recording device, the image display device and the input means represent integral components of the communication terminal.
  • the processing unit can be part of a server connected to a computer network such as the Internet and controllable via a browser, with the non-volatile memory being connected to the server and the peripheral devices being part of an external terminal device, in particular a portable communication terminal device.
  • the diagnostic tool can be called up via the network/Internet and executed on the server.
  • the external terminal device can also have a volatile memory, with the diagnostic tool being stored partly on the server-side memory and partly on the terminal-side memory.
  • the image or text data used by the modules, as well as at least the voice signal triggering control and the voice recording unit of the voice analysis module, the emotion triggering control of the emotion analysis module and/or the line of sight guidance of the line of sight analysis module can be stored on the end device and executed there, whereas on the server-side memory of the speech signal analyzer, the emotion observation unit and the reaction assessment unit and the line of sight observation unit and the overall result evaluation unit are stored and executed. Consequently, all computationally intensive functional units of the diagnostic tool are arranged on the server side.
  • a method for operating the software-based diagnostic tool for use in diagnosing a chronic neurological disorder in a human subject using artificial intelligence comprising
  • a speech analysis module for determining characteristic values of a first, namely vocal biomarker of a speech signal of the test person
  • the operating software triggers the speech analysis module and the at least one other module one after the other and feeds their determined characteristic values to the overall result evaluation unit
  • a speech signal trigger control of the speech analysis module presents a set of individual images and/or individual videos or a text on an image display device for the test person in order to send at least one speech signal to the test person in the form of a name for an object contained in the respective individual image or individual video or in the form of a to trigger the reading of the text,
  • a voice recording unit of the voice analysis module records the voice signal in an audio recording with the aid of a voice input device
  • a speech signal analyzer of the speech analysis module first evaluates the speech signal in the audio recording to determine which pitch occurs at which point in time, and then determines a frequency distribution of the pitches over a number of frequency bands of a frequency spectrum under consideration, with this frequency distribution forming the characteristic values of the first biomarker, and - the overall result evaluation unit determines whether the test person has the chronic neurological disorder on the basis of the characteristic values of the biomarkers of the test person using a machine learning algorithm based on artificial intelligence by comparison with a multidimensional interface.
  • the further module is an emotion analysis module for evaluating the reaction of the test person to an emotional stimulus as a second biomarker
  • an emotion triggering control of the emotion analysis module displays a set of individual images and/or individual videos or at least one individual video on the image display device in order to stimulate a number of individual emotions in the test person
  • an emotion observation unit of the emotion analysis module evaluates a recording of the subject's face, obtained with the aid of an image recording device (6), at least to determine when the subject shows an emotional reaction
  • the emotion analysis module determines the respective reaction time between the stimulation of the respective emotion and its occurrence, and at least these reaction times form the characteristic values of the second biomarker.
  • the emotion observation unit can also evaluate the recording of the test person's face as to which emotional reaction it shows, i.e. the type of reaction, for example in the way whether it is a positive or negative emotional reaction, or in the type of determination the concrete emotion.
  • the respective reaction time and reaction type form the characteristic values of the second biomarker for each stimulated emotion.
  • the emotion analysis module can also determine a congruence indicator that indicates whether the emotional response corresponds to the stimulated emotion, for example whether both are positive or negative emotions respectively or even the emotion type matches.
  • the respective reaction time and the congruence indicator form the characteristic values of the second biomarker.
  • the emotion analysis module preferably determines however, three pieces of information for each stimulated emotion, namely the reaction time, the type of reaction and the congruence indicator. In this case, for each stimulated emotion, the respective reaction time, reaction type and the congruence indicator form the characteristic values of the second biomarker.
  • the further module is a viewing direction analysis module for evaluating the viewing direction of the test person as a second biomarker
  • a line of sight guide of the line of sight analysis module displays at least one image or video on the image display device in order to guide the line of sight of the test person
  • a viewing direction monitoring unit of the viewing direction analysis module determines the viewing direction over time from a recording of the subject's face obtained with the aid of an image recording device (6), this viewing direction profile forming the characteristic values of the second biomarker.
  • the emotion analysis module is a first additional module and the viewing direction analysis module is a second additional module and these modules are triggered one after the other, with at least the reaction times to the emotional stimuli forming characteristic values of the second biomarker and the viewing direction over the Time characteristic values of a third biomarker of the test person forms, and wherein the overall result evaluation unit determines whether the test person has the chronic neurological disorder based on the characteristics of the first, second and third biomarker of the test person using the machine learning algorithm based on artificial intelligence by comparison with a multidimensional interface having.
  • the operating method is set up to control the diagnostic tool in such a way that it executes the steps and functions for which it is set up accordingly, as described above.
  • the software-based diagnostic tool and its operating method are described in more detail below using a specific example and the accompanying figures.
  • FIG. 1 a schematic representation of the structure of a first diagnostic system according to the invention
  • FIG. 2 a schematic representation of the structure of a second diagnostic system according to the invention
  • Figure 3 a schematic representation of the functional units of the language analysis module of the diagnostic tool
  • Figure 4 a schematic representation of the functional units of the emotion analysis module of the diagnostic tool
  • Figure 5 a schematic representation of the functional units of the gaze analysis module of the diagnostic tool
  • Figure 6 a schematic representation of the structure of a third diagnostic system according to the invention
  • FIG. 7 a flow chart of an operating method according to the invention
  • FIG. 8 a schematic signal flow chart
  • Figure 9 a recorded speech signal comprising eight individual speech signals
  • Figure 10 the pitch signals of the eight individual speech signals from Figure 9 over time (pitch spectrum)
  • Figure 11 a pitch histogram for the eight pitch signals in Figure 10
  • Figure 12 an example pitch histogram of an autistic subject
  • Figure 13 an example pitch histogram of a non-autistic subject
  • Figure 14 further examples of pitch histograms of autistic subjects
  • Figure 15 further examples of pitch histograms non- autistic subjects
  • Figure 16 a diagram illustrating emotional stimuli and their effect on the subject
  • FIG. 17 a chronological sequence of representations of an image on the image display device at different positions;
  • FIG. 18 a determined viewing direction path
  • FIG. 1 shows a software-based diagnostic tool as part of a diagnostic system 1 according to a first embodiment variant.
  • FIG. 7 illustrates an operating method for this diagnostic tool or for the diagnostic system.
  • the diagnostic system 1 comprises, on the one hand, a computer system 2, which has at least one processing unit 3 in the form of a processor 3 with one, two or more cores, and at least one non-volatile memory 4, and peripheral devices 5, 6, 7, 8, on the other hand, which are operatively connected to the computer system 2, more precisely, are connected to it by communication technology, so that the peripheral devices 5, 6, 7, 8 receive control data from the computer system 2, are therefore controlled and/or can transmit useful data, in particular image and sound data, to it .
  • a computer system 2 which has at least one processing unit 3 in the form of a processor 3 with one, two or more cores, and at least one non-volatile memory 4, and peripheral devices 5, 6, 7, 8, on the other hand, which are operatively connected to the computer system 2, more precisely, are connected to it by communication technology, so that the peripheral devices 5, 6, 7, 8 receive control data from the computer system 2, are therefore controlled and/or can transmit useful data, in particular image and sound data, to it .
  • the peripheral devices 5, 6, 7, 8 are a voice input device 5 in the form of a microphone 5, an image recording device 6 in the form of a camera 6, for example a CCD camera, an image display device 7 in the form of a display 7 or monitor and a Input means 8, e.g. in the form of control keys, a keyboard or a touch-sensitive surface of the image display device 7 in conjunction with a graphical user interface displayed thereon, which graphically highlights the partial area of the image display device 7 to be touched for a possible input.
  • the input means 8 can also be formed by a speech recognition module.
  • the peripheral devices 5, 6, 7, 8 are locally assigned to a test person 11, in particular accessible to him, so that he can interact with the peripheral devices 5, 6, 7, 8.
  • the peripheral devices 5, 6, 7, 8 can be connected to the computer system 2 via one or more cable connections, either via a common cable connection or via individual cable connections.
  • the peripheral devices 5, 6, 7, 8 can also be connected to the computer system 2 via a wireless connection, in particular a radio connection such as Bluetooth or WLAN. It is also a mixture of these connection types possible, so that one or more of the peripheral devices 5, 6, 7, 8 with the computer system 2 via a Cable connection and one or more of the peripheral devices 5, 6, 7, 8 via a wireless, in particular radio connection with the computer system 2 can be connected.
  • peripheral devices 5, 6, 7, 8 can be connected directly to the computer system or indirectly via an external device 12, for example via an external computer such as a personal computer, which in turn can be connected wirelessly or via cable via at least one local and/or global Network 9 such as the Internet can be connected to the computer system 2 for communication. This is illustrated in FIG.
  • the peripheral devices 5, 6, 7, 8 can each form individual devices. Alternatively, however, they can also be installed individually in combination with one another in one device.
  • the camera 6 and microphone 5 can be housed in a common housing, or the display 7 and the input device 8 can form an integrated functional unit.
  • the peripheral devices can all be an integral part of the external device 12, which can then be, for example, a mobile telecommunications terminal 12, in particular a laptop, a smartphone or a tablet.
  • An embodiment variant of the external device 12 in the form of a smartphone 12 is illustrated in FIG.
  • the peripheral devices 5, 6, 7, 8 communicate with the computer system 2 via the external device 12 and a local and/or global network 9 such as the Internet 9, to which the external device 12 is connected, on the one hand, wirelessly or via Cable, and the computer system 2 on the other hand, wirelessly or via cable, is connected.
  • a local and/or global network 9 such as the Internet 9 to which the external device 12 is connected, on the one hand, wirelessly or via Cable, and the computer system 2 on the other hand, wirelessly or via cable, is connected.
  • the computer system 2 acts as a central server and has a corresponding communication interface 10 for this purpose, in particular an IP-based interface, via which communication with the external device 12 takes place.
  • a corresponding communication interface 10 for this purpose, in particular an IP-based interface, via which communication with the external device 12 takes place.
  • the communication with the computer system 2 as a server can take place via a special software application on the external device or via an Internet address or website that can be called up in a browser on the external device 12 .
  • the diagnostic system 1 or the computer system 2 and the peripheral devices 5, 6, 7, 8 that are operatively connected to it can be located as a common functional unit locally at the workplace of a doctor or therapist, e.g. in his practice or clinic.
  • the test person 11 must be present in person in order to be able to use the diagnostic system 1 .
  • the external device 12 with the peripheral devices 5, 6, 7, 8 to be located at said workstation, which device accesses the computer system 2 or the diagnostic tool via the network 9.
  • the test person 11 still has to be personally present at the doctor or therapist, but the investment costs for the doctor or therapist are lower.
  • the external device 12 is a mobile device, for example a laptop, smartphone or tablet, which also allows access to the computer system 2 or to the diagnostic tool from home. This eliminates time-consuming trips to the doctor or therapist.
  • a medical expert is basically not required to use the diagnostic system 1 according to the invention since the diagnosis is carried out independently and above all objectively by the diagnostic tool on the basis of the information provided by the test person 11 via the microphone 5 and the camera 6 .
  • the test person 11 interacts with the diagnostic system 1 on the basis of textual or spoken instructions which it outputs on the image display device 7 or a loudspeaker as a further peripheral device and which the test person 11 has to follow.
  • another person such as a parent or caregiver can support the operation of the diagnostic system 1, but this does not require a medical expert.
  • the diagnostic result should be discussed and evaluated with a medical expert, especially with regard to any therapy resulting from a positive autism diagnosis. In the case of a positive autism diagnosis, it is also recommended for reasons of emotional concern to carry out the use of the diagnosis system 1 under the supervision of another adult.
  • the diagnostic tool according to the invention consists of a combination of software 15 and data 14 that are stored in a non-volatile memory 4 .
  • Figures 1 and 2 represent the simple case that the software 15 and data 14 are stored together in a memory 4, which is part of the computer system 2, for example a hard disk memory.
  • this memory 4 can also be arranged outside of the computer system 2, for example in the form of a network drive or a cloud.
  • it is not mandatory that the software and the data are in the same memory 4 .
  • the data 14 and the software 15 can also be distributed in different memories, stored inside or outside the computer system, e.g. in a network memory or a cloud, which the computer system 2 accesses when required.
  • the data 14 and all of the software 15 can also be stored in separate memories, rather parts of the data and/or parts of the software can also be stored on different memories.
  • the data 14 from the diagnostic tool includes image data 16, 18, 19 in the form of individual images and/or individual videos and text data 17, which are intended to be displayed by the diagnostic tool on the image display device 7 in order to express a spoken statement, an emotional reaction and to achieve a direction of vision.
  • the image and text data 16, 17, 18, 19 are preferably each combined into a specific group or a specific data set, which are selected by the diagnostic tool depending on the person-specific information provided by the test person.
  • the text data 17 are provided in order to display them to an adult who is able to read as a test person 11 on the image display device 7 for reading.
  • the text data 17 can comprise a first text 17a in a first language, eg English, and a second text in a second language, eg Swahili.
  • the text can be, for example, a well-known standard text, eg a fairy tale or a story, such as Little Red Riding Hood or "A Tale of two Cities".
  • a first part 16 of the image data is provided in order to display individual images and/or individual videos one after the other on the image display device 7 to an adult or a child who is unable to read as a test person 11 so that the test person 11 names the object shown on the individual images and/or individual videos.
  • These individual images and/or individual videos 16 are designed in such a way that only a single object that is comparatively easy to name is shown on them, such as an elephant, a car, an airplane, a doll, a soccer ball, etc. In the case of a video, it can this objects must be shown in motion.
  • the individual images and/or individual videos can reflect reality or be drawn.
  • the individual images and/or individual videos can be divided into individual sets 16a, 16b of individual images and/or individual videos, the content of which is based on the age, Gender and ethnic origin are coordinated or have a specific age-related, gender-related and/or cultural context in order to ensure that the test person 11 actually recognizes and names the respective object.
  • the language in which the name is given is not important, since this is irrelevant for the diagnostic tool.
  • a first set of frames 16a can be intended to be presented to a boy or a child of a first ethnic origin on the image display device 7, and a second set of frames 16a can be intended to be presented to a girl or a child of a second ethnic origin on the Image display device 7 to be shown.
  • a second part 18 of the image data is provided in order to display individual images and/or individual videos one after the other to the test person 11 on the image display device 7 in order to trigger a specific emotional reaction in the test person 11, eg joy, sadness, anger or fear.
  • still images are generally suitable for triggering an emotional reaction, such as a short comic with a joke in it, videos can show situations that evoke more intense emotions, which is why videos are generally better suited.
  • the second part 18 of the image data 16, 18 can be divided into individual sets 18a, 18b of individual images and/or individual videos, the content of which is tailored to age, gender and ethnic background, in order to ensure that the test person 11 reacts to a certain situation with a certain emotion.
  • the individual images and/or individual videos can reflect reality or be drawn. The latter is ideal for children.
  • a third part 19 of image data can be provided, comprising at least one single image or video, which is displayed to the test person 11 on the image display device 7, in particular at different positions in succession, in order to direct their line of sight to the image display device 7.
  • a single individual image 19a (cf. FIG. 17) is sufficient for this purpose, which is displayed discretely one after the other at different positions or is continuously moved to different positions.
  • the individual image 19a can be any graphic object such as a symbol, an icon, a logo, a text or a figure. It can alternatively be a photo or a drawing.
  • the individual image can come from the set of individual images of the first part 16 or second part 18 of the image data, so that in this case no third part 19 of image data is required for guiding the viewing direction.
  • these individual images or the video can also come from the first part 16 or second part 18 of the image data, so that in this case no third part 19 of image data is required either.
  • the diagnostic tool consists of software 15 (program code) with instructions for execution on the processor s.
  • this software includes operating software 20, several analysis modules 21, 22, 23 and an overall result evaluation unit 24, the operating software 20 takes over the higher-level control of the processes in the diagnostic tool, in particular the individual analysis modules 21, 22, 23 one after the other and controls the overall result evaluation unit 24, compare Figure 7.
  • the first of the analysis modules is a speech analysis module 21 for determining characteristic values 27 of a first biomarker, which is referred to here as a vocal biomarker of a speech signal 26 of the test person 11 that is contained in an audio recording 26 .
  • the voice analysis module 21 comprises a voice signal trigger controller 21a and a voice recording unit 21b.
  • a speech signal analyzer 21c is also part of the speech analysis module 21 in order to obtain characteristic values of the vocal biomarker, as is shown schematically in FIG.
  • the speech analysis module 21 is triggered as the first analysis module by the operating software 20 after the test person 11 or another person assisting her, such as an adult or the doctor, has activated the diagnostic tool, see Figure 7, and, if necessary, personal data after the diagnostic tool has been requested , especially age
  • this person-specific data is part of a person profile that already exists before the start of the diagnostic tool and can be used by it.
  • the person-specific data can be specified by the test person 11 via the input means 8 .
  • the diagnostic tool expects a corresponding input via the input means 8 in order to then select the data 14 on the basis of the input made. If, however, in a simple variant of the diagnostic tool according to the invention only a certain Depending on the group of people, eg only adults or only children, the data can be specially tailored to this group of people and there is no need to enter the person-specific data.
  • the data or individual images and individual videos are then preferably stored in memory 4 in a gender-neutral and ethnic-culturally neutral manner.
  • the voice analysis module 21 is configured to first execute the voice signal trigger control 21a. This in turn is set up to load a set 16a, 16b of individual images or individual videos from the first image data 16 in the memory 4, or to load a text 17a, 17b from the text data 17 in the memory 4 and to display it on the image display device 7. In the case of single images or single videos, this is done one after the other.
  • the set 16a, 16b of individual images or individual videos or text 17a, 17b is preferably selected as a function of the personal data.
  • the set 16a, 16b of individual images or individual videos is loaded, otherwise the text 17a, 17b.
  • This condition can also be linked to the additional condition to be checked, whether the test person 11 has a reading disability, which can also be part of the person-specific data. If such a reading disability is present, the set 16a, 16b of individual images or individual videos is also used.
  • a first set 16a or a second set 16b of individual images or individual videos can be selected, which in this respective set is specifically tailored to the corresponding group of people.
  • a first text 17a or a second text 17b can be selected, which is respectively adapted to the corresponding group of people.
  • the evaluation of the person-specific data more precisely the examination of whether the test person 11 is under the age limit, has a reading disability, what gender they belong to, what ethnic origin they have or what language the test person 11 speaks or understands, or the selection of the appropriate one Set 16a, 16b of still images or still videos or text 17a, 17b are process steps which the speech signal trigger control 21a executes. It then loads the corresponding set 16a, 16b of individual images or individual videos or the corresponding text 17a, 17b from the memory 4 and controls the image display device 7 in such a way that the individual images or individual videos of the set 16a, 16b appear one after the other or the text 17a, 17b of the image display device 7 are displayed.
  • the individual images and individual videos of the sentence 16a, 16b and the text 17a, 17b are intended to receive a spoken statement from the test person 11, referred to below as the voice signal 26.
  • the spoken utterance is a single-word designation of the object that is shown on the respective individual image or in the respective individual video.
  • the spoken utterance is the reading of this text 17a, 17b.
  • the diagnostic tool in particular the higher-level operating software 20 or the speech analysis module 21, sends a corresponding textual or verbal instruction before the playback of the individual images or individual videos of the sentence 16a, 16b or the text 17a, 17b outputs to the test person 11, for example via the image display device 7 and/or a loudspeaker.
  • the set 16a, 16b may include seven or more still images or still videos.
  • the individual frames or videos can be played back for a fixed period of time, e.g. for 5 or 6 seconds, so that after this period the next frame or video is played back until all the frames or videos have been played back.
  • the voice signal trigger control 21a activates the voice recording unit 21b to record the voice of the test person 11 as a voice signal 26.
  • the voice recording unit 21b switches the speech input device 5 (microphone), records the time-continuous speech signal 26 or speech signals in an audio recording 26 and stores this in an audio data memory 13a for recorded speech signals.
  • the audio recording 26 itself is digital, in which case the voice signal 26 or its sampling (sampling) can already be digitized in the voice input device 5 or in one of these downstream analog/digital converters, which is part of the processing unit 3 or a separate digital signal processor (DSP). can be.
  • the audio data memory 13a can be part of the non-volatile memory 4 . Alternatively, it can be a memory that is separate from this in the computer system 2 or a memory that is separate from the computer system 2, for example a memory in a network drive or in a cloud.
  • the voice recording unit 21b can be set up to end the recording after a specified period of time in order to obtain an audio recording 27 of a specific length of time, for example an average of 45 seconds for children and an average of 60 seconds for adults.
  • the voice input device 5 can then also be switched off. Alternatively, it can be switched off when the audio signal from the voice input device 5 is below a certain limit value for a certain time after a voice signal 26, i.e. the test person 11 is no longer speaking.
  • manual triggering and ending of the audio recording can be provided.
  • the diagnostic tool receives a corresponding start or stop input via the input means 8.
  • the audio signal can be uninterrupted for the duration of the playback of the individual images, individual videos or the text, so that the recording is started once, namely at the beginning of playback, and is ended once, namely at the end of playback.
  • the recording can be started before or at the beginning of the playback of each individual image or individual video and then ended, in particular after receipt of the voice signal 26 from the test person 11, either after a specified period of time has elapsed or if the Audio signal of the voice input device 5 for a certain time after a voice signal 26 is below a certain threshold.
  • An example of such individual audio recordings is shown in FIG.
  • FIG. 9 shows the curves of the amplitude or the sound pressure level of eight individual speech signals 26, each recorded in an audio recording, over time.
  • the speech signals 26 are each based on a single more or less long spoken word.
  • the individual audio recordings can first be processed individually or combined to form an overall recording, which is then processed further.
  • all of the audio recordings are provided with the reference numeral 27, regardless of whether they are a number of individual audio recordings or a single overall recording.
  • the audio recording(s) 27 is/are then evaluated in the speech signal analyzer 21c, characteristic values 28 of a vocal biomarker of the recorded speech signal 26 being determined, see FIG . It is therefore not important whether the naming of the object on the respective single image or video was correct.
  • the evaluation of the audio recording(s) 27 by the speech signal analyzer 21c takes place in that the basic vocal frequencies or pitches in the speech signal 26 contained in the audio recording 27 are first estimated over time with the aid of artificial intelligence. This is called the pitch spectrum.
  • the speech signal analyzer 21c thus examines the basic tonal structure of the speech signal 26 in the audio recording 27.
  • the audio recording 27 is processed in a “deep convolutional neural network” algorithm, which is part of the speech signal analyzer 21c.
  • the deep convolutional neural network algorithm estimates the pitch of the audio signal 26 at any point in time, in particular within a specific frequency spectrum from 30Flz to 1000Flz, which includes all possible tones of the human voice.
  • the progression of the pitch over time is called the pitch spectrum.
  • Figure 10 shows the pitch spectra for the eight individual audio recordings from Figure 9.
  • this frequency range can be neglected.
  • This can be done, for example, by bandpass filtering, in which the frequency range from 30 Flz to 600 Flz is extracted from the voice signal 26 . This is preferably done after the pitch estimation or determination of the pitch spectrum, so that the further analysis is based only on the relevant part of the human voice.
  • a digital bandpass filter can be applied to the audio recording(s) 27, which is also part of the speech signal analyzer 21c. In an embodiment variant, this bandpass filter can have fixed limit frequencies, in particular at 30 Hz and 600 Hz.
  • the bandpass filter can have variable cut-off frequencies, with provision being made to determine the minimum and maximum frequencies in the pitch spectrum and then to configure the bandpass filter in such a way that the lower cut-off frequency corresponds to the determined minimum frequency and the upper cut-off frequency corresponds to the determined maximum frequency.
  • the speech signal 26 can also be filtered in such a way that background noise, such as the speech of persons other than the test person 11 in the speech signal 26, is eliminated.
  • background noise such as the speech of persons other than the test person 11 in the speech signal 26, is eliminated.
  • a corresponding digital filter can be applied to the audio recording(s) 27, which is also a component of the speech signal analyzer 21c.
  • Digital filters of this type are known per se. Background noise is filtered out sensibly before the pitch estimation or determination of the pitch spectrum, so that the result of this estimation is not falsified.
  • a histogram analysis is then applied to the pitch spectrum of the audio recording(s).
  • a histogram that is the result of this analysis is shown in FIG. 11.
  • the frequency range under consideration here the range between 30Hz and 600Hz
  • Each individual pitch is then assigned to the corresponding section or container using the pitches currently determined in the audio recording. This corresponds to an area-related summation of the occurrences of the individual pitches. In other words, it is determined for each frequency segment how often one of its pitches is contained in the audio recording. The determined number of total pitches of each section is then divided by the total number of pitches determined.
  • the histogram thus indicates in % how often the pitches or frequencies of a specific frequency section occurred in the audio recording.
  • the totality of all audio recordings or the totality of all pitch spectra (FIG. 10) is considered.
  • the relevant frequency range has been divided into 12 sections, although there can be fewer or more.
  • FIGS. 12 and 13 each show another pitch histogram as the result of a histogram analysis.
  • the histogram in FIG. 12 belongs to a speech signal of a test person 11 who has been proven to be autistic
  • the histogram in FIG. 13 belongs to a speech signal of a reference person who has been shown to be non-autistic.
  • the histogram provides information about the pitch variability in the voice of the subject 11, which is an objective biomarker for distinguishing an autistic person 11 from a reference person without autism.
  • Figures 12 and 13 illustrate in comparison, the voice varies less in pitch in a non-autistic person, being more confined to certain frequencies.
  • the frequencies used here are in a comparatively narrow frequency band, namely between 250 Hz and 400 Hz, and have a clear peak there, namely at approx. 300 Hz, see Figure 13.
  • the variability of the pitch of the voice is greater in an autistic person, as Figure 11 shows.
  • the dominant frequencies extend over a much broader frequency band, namely between 50 Hz and 350 Hz, see Figure 12, and their distribution is more even, i.e. it does not have a clearly pronounced peak.
  • FIGS. 14 and 15 each show four histograms. It can be clearly seen that autistic people use a broader spectrum of sounds
  • the pitch histogram can be understood as a vocal biomarker.
  • the characteristic values of this biomarker are formed by the frequencies of occurrence of the n frequency segments.
  • the histogram analysis according to FIG. 11 supplies twelve characteristic values, ie a frequency of occurrence for each frequency segment.
  • the histogram or the characteristic values of this biomarker can then be evaluated in a preliminary evaluation unit 24a to determine whether the test person 11 is not autistic, compare FIG. 8. This can be determined with a certainty of more than 95%.
  • the vocal biomarker alone is not meaningful enough to be able to make a clearly positive diagnosis of autism, so that further investigations are required, as explained below.
  • the result of the preliminary assessment unit 24a is thus the intermediate diagnosis 33 that the test person 11 is clearly not autistic or needs to be examined further.
  • the preliminary evaluation unit 24a can likewise be part of the speech analysis module 21, see FIG. It should be noted that the intermediate diagnosis 33 by the preliminary assessment unit 24a is not absolutely necessary. Rather, it can be provided that each test person 11 carries out all analyzes offered by the diagnostic tool.
  • the pre-assessment unit 24a is an algorithm that compares the characteristic values with a multidimensional plane, also called a hyperplane, which, figuratively speaking, forms an interface between subjects with and subjects without autism in a multidimensional data space.
  • the algorithm can be a machine learning algorithm or preferably a support vector machine (SVM).
  • SVM support vector machine
  • Such algorithms are generally known, for example from Böser, Bernhard E.; Guyon, Isabelle M.; Vapnik, Vladimir N. (1992). "A training algorithm for optimal margin classifiers". Proceedings of the fifth annual workshop on Computational learning theory - COLT '92. p. 144, or Fradkin, Dmitriy; Muchnik, Ilya (2006). "Support Vector Machines for Classification”.
  • the analysis of the vocal biomarker is followed by the analysis of a further biomarker, either in the form of the reaction time of the test person 11 to an emotional stimulus, or in the form of the viewing direction of the test person 11, with both of the other biomarkers mentioned preferably being analyzed and with a specific sequence not being important.
  • the operating software 20 activates the emotion analysis module 22 after the speech analysis module 21, see FIG.
  • the emotion analysis module 22 includes an emotion trigger control 22a, a
  • the emotion analysis module 22 measures the reaction time of the test person 11 to an emotional stimulus, which is triggered in the test person 11 by the display of selected image data 18 in the form of individual images or individual videos on the image display device 7. where the measurement is performed using facial recognition software and compassionate AI capable of recognizing certain emotions in a face.
  • This artificial intelligence is preferably a so-called "deep learning model" that has been trained with representative data sets on the emotions to be stimulated.
  • the emotion analysis module 22 starts the emotion triggering control 22a in a first step.
  • This is set up to load a set 18a, 18b of image data 18 from the memory 4 and to display it on the image display device 7 or to have it displayed.
  • a sentence 18a, 18b can be selected from a plurality of sentences depending on the aforementioned person-specific data, so that children or girls or persons of a first ethnic origin have a first sentence 18a of the image data 18, and adults, or boys or persons of a second ethnic origin are shown a second set 18b of the image data 18.
  • This image data 18 is a number of individual images or individual videos that are displayed one after the other on the image display device 7 . Their content is chosen in such a way that it triggers an emotional reaction in the test person in the form of joy, cheerfulness, sadness, fear or anger.
  • the image data set 18 suitably comprises a total of 6 individual images and/or individual videos, each of which stimulates an equal number of positive emotions such as joy or cheerfulness and negative emotions such as sadness, fear or anger.
  • the emotion trigger control 22a activates the emotion observation unit 22b, which in turn activates the image recording device 7 in order to record the face of the test person 11 or their facial expression, if necessary, at least temporarily, also record it.
  • the emotion observation unit 22b can be set up to record the detected face in a video recording and to analyze it “offline”, i.e. after the entire set 18a, 18b of individual images or videos has been shown.
  • the face recorded by the image recording device 7 can be evaluated in real time, so that no video recording has to be saved.
  • a video recording 29 is shown in FIG. 8, which represents the output signal of the image recording device 7 and can be either a stored video recording or a real-time recording, which is fed to the emotion observation unit 22b using signals.
  • the emotion trigger control 22a can set a start time marker t1, t2, t3, t4 with each playback of a new frame or video, which later serves as a reference.
  • FIG. 16 illustrates this using four individual videos 18a1, 18a2, 18a3, 18a4 of the first set 18a of the image data 18, which are shown one after the other.
  • the facial recognition software mentioned with compassionate artificial intelligence is part of the emotion observation unit 22b, which evaluates the video recording 29 to determine when the facial features of the test person 11 change to an extent that clearly indicates an emotional reaction, in particular associated with a specific expected emotion. In each of these recognized cases, the emotion observation unit 22b sets a reaction time marker E1, E2, E4.
  • the test person 11 shows no or insufficient emotion in the third individual video 18a3, so that no reaction time mark could be set here either.
  • the individual individual images or individual videos 18a1, 18a2, 18a3, 18a4 can be played back by the emotion-triggering control 22a for a specific, specified duration, with the individual durations being able to be the same or different.
  • the next frame or video is shown when the duration of the previous frame has expired.
  • the next single image or single video can be shown as soon as or shortly after the emotion observation unit 22b has recognized an emotion.
  • the emotion observation unit 22b gives feedback to the emotion trigger controller 22a to show the next frame or frame video.
  • the emotion triggering controller 22a triggers a timer instead of the start time markers, with the emotion observation unit 22b being able to stop the timer again when an emotion is recognized instead of setting the reaction time markers.
  • the timer reading is then read out by the reaction evaluation unit 22c and stored, since it represents the respective reaction time to the respective stimulated emotion. If a certain emotion is not triggered in the test subject 11, the playback of the next frame or video or the end of the playback time of the last frame or video can reset the timers take place. This case of non-stimulation of an emotion is also noted by the reaction evaluation unit 22c.
  • the emotion observation unit 22b can be set up to determine whether a positive or negative emotion was stimulated in the subject 11 .
  • This determination referred to below as the type of reaction, can be presented in the form of binary information +1 or ⁇ 1 and linked to the corresponding reaction time R1, R2, R4. It serves as a plausibility check or enables the congruence of the emotional reaction to the stimulated emotion to be determined.
  • the type of reaction can determine whether the test person 11 shows a reaction to the stimulation that is to be expected.
  • This is illustrated in FIG. 16 using a congruence indicator K1, K2, K3, K4. This results from the result of a comparison as to whether the type of reaction determined corresponds to the emotion stimulated. This comparison can also be carried out by the reaction evaluation unit 22c. If the type of reaction and the emotion stimulated are both positive or negative, there is congruence or agreement. The congruence indicator with the value 1 can show this case. Referring to FIG. 16, the test person 11 reacts as expected to the emotions stimulated by the first two individual images or individual videos 18a1, 18a2, so that the first and second congruence indicators K1, K2 each have the value 1.
  • the congruence indicator can display this case with the value 0 or -1.
  • the value ⁇ 1 has been chosen so that the congruence indicator value 0 can be used to indicate that there has been no reaction.
  • the subject 11 reacts unexpectedly to the emotion stimulated by the fourth frame or frame 18a4.
  • the type of emotional reaction does not match the stimulated emotion, so that the fourth congruence indicator K4 has the value -1.
  • the emotion analysis module 22 thus supplies a reaction time Ri, a reaction type (positive or negative emotion, +1, -1) and a congruence indicator (values -1, 0, +1) for a number of emotions stimulated in the subject 11, which in their
  • the characteristic values 30 of the second biomarker form the entirety, referred to as “emotional response biomarker” in FIG.
  • a table of these characteristics is shown below:
  • the operating software 20 activates the gaze direction analysis module 23, which is responsible for determining characteristic values 32 of a third biomarker of the test person 11, see Figure 7. This can be done automatically or based on a corresponding input from the Test person 11 done, who expects the diagnostic tool.
  • the line of sight analysis module 23 includes a line of sight guide 23a and a line of sight monitoring unit 23b, see Figure 5.
  • the line of sight analysis module 23 measures and tracks the line of sight of the test person 11 while he is looking at the image display device 7 .
  • the image recording device 6 is expediently arranged relative to the image reproduction device 7 in such a way that it captures the face of the test person 11 .
  • the viewing direction analysis module 23 starts the viewing direction guidance 23a in a first step. This is set up to load at least one individual image 19a or video of the image data 16, 18, 19 from the memory 4 and to display it on the image display device 7 or to have it displayed. As with the speech analysis module 21 and emotion analysis module 22, the at least one individual image 19a or video can be selected depending on the aforementioned personal data.
  • two or more different frames of the image data 16, 18, 19 can be loaded from the memory 4 and displayed alternately or randomly on different screen positions of the image display device 7.
  • the diagnostic tool can issue a corresponding request in advance on the image display device 7 or via a loudspeaker.
  • the line of sight guide 23a can show a video on the image display device 7, specifically over the entire surface, which is designed to direct the gaze of the test person 11 via the image display device 7 along a specific path.
  • the video can contain, for example, an object moving relative to a stationary background, such as a clown fish moving in an aquarium.
  • events that attract the test person's attention can occur one after the other at different spatial points in the video. In these cases, the line of sight guide 23a consequently only needs this one video.
  • the line of sight guide 23a activates the line of sight monitoring unit 23b, which in turn activates the image recording device 7 in order to record the face of the test person 11 or their line of sight, if necessary, at least temporarily also record it.
  • the line of sight analysis module 23 can be set up to record the detected face in a video recording and to analyze it “offline”, i.e. after the at least one individual image or video has been shown.
  • a real-time evaluation of the viewing direction of the face recorded by the image recording device 7 is preferably carried out, so that no video recording has to be stored permanently.
  • a video recording 31 is shown in FIG. 8, which represents the output signal of the image recording device 7 and can be either a stored video recording or a real-time recording, which is fed to the viewing direction monitoring unit 23b using signals.
  • the line of sight observation unit 23b is formed by eye-tracking software based on artificial intelligence.
  • eye-tracking software based on artificial intelligence.
  • Such software is well known, e.g. from Krafka K, Khosla A, Kellnhofer P, Kannan H., "Eye Tracking for everybody", IEEE Conference on Computer Vision and Pattern Recognition. 2016; 2176-2184. It determines the viewing direction of the test person 11 in the form of x, y coordinates of the focus of the eye at any point in time and stores them, so that a viewing direction path 35 currently results, as shown in FIG.
  • the characteristic values 28, 30, 21 of the three biomarkers are supplied to an overall result evaluation unit 24, which is part of the diagnostic tool according to the invention and which calculates the characteristic values 28, 30, 21 the biomarkers combined.
  • the overall result evaluation unit 24 is an artificial intelligence-based algorithm and is in the form of a model that has been trained with datasets of the three biomarkers of a large number of reference persons with and without autism. Strictly speaking, the algorithm is one
  • Classification algorithm that classifies the subject's biomarkers as "autistic” or “non-autistic” with a certain degree of probability.
  • the algorithm can be a machine learning algorithm or preferably a support vector machine (SVM). He compares the entirety of all characteristic values 28, 30, 21 of the three biomarkers simultaneously with a flyer level forming an interface between test persons with and test persons without autism in a multidimensional data space in order to assign the entirety of the data formed by the characteristic values either to a reference group of people with autism or to a reference group of people without autism. Depending on this assignment result, the diagnosis 34 is that the test person 11 is autistic or non-autistic with a certain probability.
  • the diagnostic tool according to the invention in the diagnosis of autism, it can be determined with an accuracy of more than 95% whether a test person 11 suffers from autism.
  • the evaluation of the biomarkers leads to a robust and, above all, objective result.
  • using the diagnostic tool can help reduce the diagnostic backlog and facilitate the decision as to which one Patents should be preferred to diagnosis by the medical expert.
  • a particular advantage of the diagnostic tool is that both adults and children can be examined with it and the diagnostic tool can be used from almost anywhere and at any time, especially from home.
  • the software-based diagnostic tool is part of a diagnostic system 1.
  • this can be a computer system 2 with peripheral devices connected to it, in particular a microphone 5, a camera 6, a display/monitor and an input device 8.
  • the computer system 2 itself can be a personal computer with a non-volatile memory 4 in which the diagnostic tool consisting of the aforementioned software components or modules and data is stored.
  • the computer system 2 can act as a server that can be reached via the Internet 9 with an external, in particular mobile, device 12 .
  • the peripheral devices 5, 6, 7, 8 are part of the external device, which is a smartphone or a tablet, for example.
  • the diagnostic tool is still formed by the software components or modules and data stored in the memory 4 of the computer system 2 .
  • the diagnostic tool can be arranged in a distributed manner, to be more precise, it can be embodied partly in the computer system 2 and partly in the external device 12 .
  • This embodiment variant implements an offline analysis of the biomarkers.
  • a non-volatile memory 4′ and a processor (not shown here) can thus be present in the external device 12 .
  • the non-volatile memory 4' stores the image data 16, 18, 19 and the text data 17 on the one hand, as well as part 20' of the operating software and those components 21a, 21b, 22a, 23a of the analysis modules 22, 22, 23 that do not require high computing power and do not place any special demands on the processor, e.g. a multi-core processor.
  • memory 4' is dated speech analysis module 21, the speech signal trigger controller 21a and the speech recording unit 21b. They perform the same process as previously explained, the difference being that the audio recording 27 is stored in the audio data store 13a and not analyzed on the external device 12.
  • the emotion trigger control 22a of the emotion analysis module 22 and the gaze direction control 23a of the viewing direction analysis module 23 are stored in the memory 4 ′.
  • These also each carry out the same method as explained above, with one difference being that during the respective playback of the images or the image, a video recording 29, 31 takes place, which is stored in the video data memory 13b and not analyzed on the external device 12 .
  • a video recording unit 25 is also present in the memory 4', analogous to the voice recording unit 21b.
  • the computer system 2 in its memory 4 in addition to a second part 20 'of the operating software, only contains those components of the analysis modules 21, 22, 23 that perform the actual analysis of the biomarkers, namely the speech signal analyzer 21c of the speech analysis module 21, the emotion observation unit 22b and the reaction evaluation unit 22c of the emotion analysis module 22 and the viewing direction observation unit 23b of the viewing direction analysis module 23.
  • the overall result evaluation unit is also present in the memory 4.
  • an audio data memory 13a and a video data memory 13b are also provided in the memory 4 of the computer system 2, into which the audio and video recordings 27, 29, 31 stored on the external device 12 are transferred. This can be done immediately after the corresponding recording has been saved or only after all recordings have been made. The evaluation of the individual biomarkers and the joint assessment of their characteristic values then continue to take place on the computer system.
  • analyzing components 21c, 22b, 22c, 23b of the analysis modules 21, 22, 23 are also arranged in the external device 12, so that the determination of the characteristic values 28, 30, 32 the biomarker is also external Device 12 is done.
  • these characteristic values 28, 30, 31 are then transmitted to the computer system 2, where they are evaluated together with the overall result evaluation unit 24 accordingly. This is advantageous for reasons of data protection because the characteristic values of the biomarkers do not allow the test person to be identified.
  • the diagnostic tool is arranged entirely in the external device 12, so that the diagnostic system 1 is formed only from this external device 12 with the peripheral devices 5, 6, 7, 8 already integrated therein and the diagnostic tool stored thereon.
  • the diagnostic tool can be implemented in an application, called app for short, and executed on a corresponding processor of the external device.
  • the external device is a smartphone or tablet.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Developmental Disabilities (AREA)
  • Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Technology (AREA)
  • Social Psychology (AREA)
  • Signal Processing (AREA)
  • Neurology (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Neurosurgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Die Erfindung betrifft ein softwarebasiertes Diagnosewerkzeug, ein Betriebsverfahren hierfür und ein Diagnosesystem zur Verwendung in der Diagnose einer chronischen, neurologischen Störung wie z.B. Autismus sowohl bei Kindern als auch Erwachsenen. Es umfasst ein Sprachanalysemodul (21) zur Ermittlung von Kennwerten (28) eines vokalen Biomarkers eines Sprachsignals (26) einer Testperson (11), wenigstens ein weiteres Modul (22, 23) zur Ermittlung von Kennwerten (30, 32) eines zweiten Biomarkers, und eine nachgeschaltete Bewertungseinheit (25). Das Sprachanalysemodul (21) umfasst eine Sprachsignal-Auslösesteuerung (21a), die Bilddaten auf einer Bildwiedergabeeinrichtung (7) darstellt, um wenigstens ein Sprachsignal (26) bei der Testperson (11) auszulösen, eine Sprachaufzeichnungseinheit (21b), die das Sprachsignal (26) aufzeichnet, und einen Sprachsignalanalysator (21c), der das Sprachsignal (26) anschließend zunächst daraufhin auswertet, zu welchem Zeitpunkt welche Tonhöhe vorkommt, und anschließend eine Häufigkeitsverteilung der Tonhöhen über eine Anzahl an Frequenzbändern eines betrachteten Frequenzspektrums ermittelt, wobei diese Häufigkeitsverteilung die Kennwerte (28) des vokalen Biomarkers bildet. Die Bewertungseinheit (25) stellt aufgrund der Kennwerte (28, 30, 32) der Biomarker unter Anwendung eines maschinellen Lernalgorithmus durch Vergleich mit einer mehrdimensionalen Grenzfläche fest, ob die Testperson (11) die chronische, neurologische Störung aufweist.

Description

Softwarebasiertes, sprachbetriebenes und objektives Diagnosewerkzeug zur Verwendung in der Diagnose einer chronischen neurologischen Störung
Die Erfindung betrifft ein softwarebasiertes Diagnosewerkzeug zur Verwendung in der Diagnose einer chronischen, neurologischen Störung bei einem Menschen unter Verwendung künstlicher Intelligenz, sowie ein Verfahren zum Betreiben des Diagnosewerkzeugs und ein das Diagnosewerkezeug umfassendes System.
Chronische, neurologische Störungen treten bei Menschen häufig auf. Sie äußern sich in einer atypischen geistigen Entwicklung und/ oder einem atypischen Sozialverhalten. Beispiele derartiger Störungen sind Autismus, Aufmerksamkeitsdefizitstörung (ADHS), Schizophrenie, Alzheimer, Psychose, etc. Dabei ist Autismus ist eine der bekanntesten chronischen neurologischen Störungen, weshalb sie nachfolgend beispielhaft aber stellvertretend für alle chronischen, neurologischen Störungen als Ausgangspunkt für die Erfindung betrachtet wird.
Unter „Autismus“ wird eine tiefgreifende Störung der neuronalen und mentalen Entwicklung des Menschen verstanden, die in unterschiedlichen Stärken und Formen bereits im Kindesalter auftreten kann und allgemein als Autismus-Spektrum-Störung, abgekürzt ASS oder englisch ASD (Austism-Spectrum-Disorder), diagnostiziert wird. Autismus zeigt sich äußerlich vor allem im Verhalten und bei der Kommunikation. Auffällig ist bei dieser Entwicklungsstörung einerseits die soziale Interaktion bzw. der Umgang und Austausch mit anderen Menschen sowie ein eingeschränktes Interesse an sich wiederholenden, gleichen oder gleichartigen Abläufen, und andererseits die verbale und nonverbale Sprache des Autisten, d.h. die Stimme und die Körpersprache wie Mimik, Blickkontakt und Gestik. Häufig ist auch eine Minderung der Intelligenz festzustellen, jedoch gibt es ebenso Autismusformen, bei denen die betroffene Person durchschnittlich oder sogar hoch intelligent ist. Dies kann beispielsweise bei Menschen mit dem sogenannten Asperger-Syndrom der Fall sein, welches in der Regel mit einer weniger eingeschränkten Sprachentwicklung einhergeht und deshalb als leichte Ausprägung von Autismus gilt. Nach Berichten der Weltgesundheitsorganisation (WHO) haben grob 1-2% der Weltbevölkerung eine ASS, mithin durchschnittlich 100 Millionen Menschen weltweit. Da Autisten aufgrund dieser Entwicklungsstörung eine besondere Förderung und Unterstützung im Alltag benötigen, ist dessen frühe und korrekte Diagnose von großer Bedeutung.
Die Diagnose von Autismus erfolgt in klassischerWeise von einem spezialisierten Arzt, einem Neurologen oder Therapeuten durch die Stellung einer mehr oder weniger großen Anzahl speziell entwickelter Fragen eines Fragenkatalogs an den potentiell autistischen Patienten und durch sich daran anschließende Beobachtungen und Auswertungen der Antworten und Reaktionen. Dabei ist es allerdings bekannt, dass erst die Kombination autismusspezifischer Symptome, d.h. die Symptomkonstellation, eine eindeutige Diagnose zulassen, da einzelne, ähnlich auffällige Verhaltensmerkmale auch bei anderen Störungen auftreten.
Die klassische Diagnostik hat mehrere Nachteile. Zum einen ist hervorzugehen, dass die Bewertung durch einen medizinischen Experten stets subjektiv ist und somit unzutreffend sein kann, und zwar in beide Richtungen der Diagnose, was fatale Folgen für den Patienten und seine Angehörigen haben kann. Dieser Grad an Subjektivität, der u.a. durch eine gewisse Voreingenommenheit bedingt ist, ist ein integraler Bestandteil des Evaluierungsprozesses, was in Einzelfällen zu falschen Ergebnissen führen kann. Ein wohlbekanntes Beispiel ist die Erkenntnis, dass Mädchen in der Diagnostik unterrepräsentiert sind, weil sie anpassungsfähiger sind und deshalb weniger stark ausgeprägte Verhaltensauffälligkeiten zeigen. Ein weiteres Beispiel ist das Vorurteil, das Autismus vorwiegend bei Jungen auftritt, siehe Lockwood Estrin, G., Milner, V., Spain, D. et al. , “Barriers to Autism Spectrum Disorder Diagnosis for Young Women and Girls: a Systematic Review”, Review Journal of Autism and Developmental Disorders, 2020). Selbst wenn die Bewertung versucht wird, bestmöglich objektiv vorzunehmen, benötigen Ärzte oder Therapeuten viele Jahre, um sich die hierfür benötigte Erfahrung anzueignen, eine Erfahrung die nur schwer verbalisierbar, lehrbar, quantifizierbar, standardisierbar oder validierbar ist.
Weitere Nachteile sind die zeitlich und geografisch eingeschränkte Verfügbarkeit der medizinischen Experten, der eingeschränkte Zugang zu ihnen und ihrer Diagnostik, insbesondere in gesellschaftlich weniger weit entwickelten Regionen der Welt wie beispielsweise in Afrika oder Südamerika, und die mit einer Expertendiagnose verbundenen hohen Kosten, zumal es wenige Experten gibt und die Diagnose regelmäßig vor Ort in dessen Praxis, Klinik oder sonstigen Einrichtung des Experten vorgenommen wird. So müssen betroffene Personen und deren Angehörige häufig lange, beschwerliche und kostenintensive Anfahrten oder Anreisen in Kauf nehmen, um zu einem Experten zu gelangen und dessen Diagnose in Anspruch nehmen zu können. Dabei hat die weltweite, durch den neuartigen Coronavirus SARS-CoV-2 bedingte Pandemie, den Zugang zu den Experten zusätzlich beschränkt.
Unabhängig davon ist die Anzahl von Experten im Vergleich zum Bedarf gering, so dass es zu langen Wartezeiten kommen kann, um einen Untersuchungstermin zu erhalten. Selbst in Deutschland kann diese Wartezeit in manchen Fällen einige Jahre sein, vor allem bei Erwachsenen, weil Kinder bevorzugt werden. In manchen Teilen der Welt wie z.B. in Teilen Afrikas haben Kinder demgegenüber überhaupt keine Möglichkeit einer Diagnose.
Schließlich ist die Diagnose anhand eines Fragenkatalogs auch deshalb nachteilig, weil die Stellung der Fragen viel Zeit in Anspruch nimmt, beispielsweise zwischen einer und drei Stunden dauert, und die Fragen samt Beobachtungen an das Alter, die regionale Sprache und die ethnische Flerkunft des Patienten angepasst sein müssen. Letzteres erfordert, dass der medizinische Experten mit den ethnischen Besonderheiten des Patienten vertraut ist, weil sich das Verhalten, die verbale und die nonverbale Kommunikation von Volk zu Volk unterschieden.
Die vorgenannten, am Beispiel von Autismus erläuterten Defizite treffen auch auf anderen chronischen, neurologischen Störung zu. Auch hier fehlt es an ausreichend Experten und Expertenwissen, ihrer schnellen und einfachen Erreichbarkeit und vor allem einer objektiven Diagnose.
Aufgabe der vorliegenden Erfindung ist es, eine Vorrichtung, ein System und ein Betriebsverfahren bereitzustellen, die bzw. das die genannten Nachteile überwindet und eine objektive, zumindest assistive Diagnose einer chronischen, neurologischen Störung, insbesondere von Autismus und dessen neurologischen Begleiterkrankungen ermöglicht, die vorzugsweise jederzeit und von überall aus in der Welt unabhängig von der Sprache und ethnischen Herkunft der betroffenen Person zugänglich ist.
Diese Aufgabe wird durch ein Diagnosewerkzeug mit den Merkmalen des Anspruchs 1 , ein System gemäß Anspruch 18 und ein Betriebsverfahren nach Anspruch 22 gelöst. Vorteilhafte Weiterbildungen sind in den jeweiligen Unteransprüchen angegeben.
Das erfindungsgemäße Diagnosewerkzeug und das von ihm angewandte und ausgeführte Verfahren basieren auf Verbesserungen des Stands der Wissenschaft und Innovationen im Bereich der künstlichen Intelligenz. Durch die Gewinnung und Auswertung bestimmter Biomarker als objektiver und unumstößlicher Beweis für das Vorliegen oder Nichtvorliegen von Autismus, wird mit Hilfe des erfindungsgemäßen Diagnosewerkzeugs und dessen Betriebsverfahren eine kostengünstige, benutzerfreundliche und schnelle Diagnose erstellt.
Bei einem Biomarker handelt es sich um eine messbare und damit auswertbare Größe eines biologischen Merkmals einer Person, genauer gesagt um eine Größe, die eine qualitative oder quantitative Bewertung einer physischen, physiologischen oder verhaltenstypischen Eigenschaft einer Person ermöglicht.
Erfindungsgemäß wird ein softwarebasiertes Diagnosewerkzeug zur Verwendung in der Diagnose einer chronischen, neurologischen Störung bei einer menschlichen Testperson unter Verwendung künstlicher Intelligenz vorgeschlagen, umfassend
- eine übergeordnete Betriebssoftware,
- ein Sprachanalysemodul zur Ermittlung von Kennwerten eines ersten, und zwar vokalen Biomarkers eines Sprachsignals der Testperson,
- wenigstens ein weiteres Modul zur Ermittlung von Kennwerten eines zweiten Biomarkers, und
- eine dem Sprachanalysemodul und dem weiteren Modul nachgeschaltete Gesamtergebnisbewertungseinheit.
Die Betriebssoftware ist eingerichtet, das Sprachanalysemodul und das wenigstens eine weitere Modul nacheinander auszulösen und deren ermittelten Kennwerte der Gesamtergebnisbewertungseinheit zuzuführen. Das Sprachanalysemodul umfasst
- eine Sprachsignal-Auslösesteuerung, welche eingerichtet ist, einen von Einzelbildern und/ oder Einzelvideos oder einen Text auf einer Bildwiedergabeeinrichtung für die Testperson darzustellen, um wenigstens ein Sprachsignal bei der Testperson in Gestalt einer Benennung eines in dem jeweiligen Einzelbild oder Einzelvideo enthaltenden Objekts oder in Gestalt eines Vorlesens des Textes auszulösen,
- eine Sprachaufzeichnungseinheit, welche eingerichtet ist, das Sprachsignal mit Hilfe einer Spracheingabeeinrichtung in einer Audioaufnahme aufzuzeichnen, und
- einen Sprachsignalanalysator, der eingerichtet ist, das Sprachsignal in der Audioaufnahme zunächst daraufhin auszuwerten, zu welchem Zeitpunkt welche Tonhöhe vorkommt, und anschließend eine Häufigkeitsverteilung der Tonhöhen über eine Anzahl an Frequenzbändern eines betrachteten Frequenzspektrums zu ermitteln, wobei diese Häufigkeitsverteilung die Kennwerte des ersten Biomarkers bildet.
Die Gesamtergebnisbewertungseinheit ist eingerichtet, aufgrund der Kennwerte der Biomarker der Testperson unter Anwendung eines maschinellen Lernalgorithmus auf Basis künstlicher Intelligenz durch Vergleich mit einer mehrdimensionalen Grenzfläche festzustellen, ob die Testperson die chronische, neurologische Störung aufweist. Die Grenzfläche kann als eine mathematische Hyperebene in einem multidimensionalen Raum verstanden werden, dessen Dimensionen durch die Anzahl der Kennwerte aller Biomarker definiert sind. Die Grenzfläche stellt eine mathematische Grenze zwischen den Biomarkerkennwerten von Personen mit der chronischen, neurologischen Störung und Personen ohne eine solche Störung dar. Genauer betrachtet, ist die Gesamtergebnisbewertungseinheit ein mit Biomarkerkennwerten von Vergleichspersonen angelerntes Klassifizierungsmodell, das feststellt, ob und zu welchem Wahrscheinlichkeitsgrad die ermittelten Biomarkerkennwerte der Testperson auf der den Vergleichspersonen mit der chronischen, neurologischen Störung zugeordneten Seite der Grenzfläche oder auf der den Vergleichspersonen ohne die chronische, neurologische Störung zugeordneten Seite der Grenzfläche liegt. Vorzugsweise ist der Lernalgorithmus eine Support Vector Machine (SVM), ein sogenannter Random Forest oder ein Deep Convolutional Neuronal Network - Algorithmus, wobei der Lernalgorithmus mit einer Anzahl von ersten und zweiten Vergleichsdatensätzen aus Kennwerten der Biomarker trainiert worden ist, die ersten Vergleichsdatensätze einer Gruppe von Referenzpersonen zugeordnet sind, die die chronische, neurologische Störung aufweisen, und die zweiten Vergleichsdatensätze einer Gruppe von Referenzpersonen zugeordnet sind, die die chronische, neurologische Störung nicht aufweisen.
Eine Besonderheit bei der Verwendung des Lernalgorithmus besteht darin, dass er kontinuierlich optimiert bzw. mit neuen Vergleichsdatensätzen trainiert werden kann, um eine möglichst genaue Klassifizierung der Biomarkerkennwerte durchzuführen, so dass er in der Abgrenzung der Biomarkerkennungen zwischen Personen mit und ohne chronische, neurologische Störung, bzw. in der Definition der Grenzfläche, zunehmend besser wird. Ein Random Forest ist beispielsweise in A. Paul, D. P. Mukherjee, P. Das, A. Gangopadhyay, A. R. Chintha and S. Kundu, "Improved Random Forest for Classification," in IEEE Transactions on Image Processing, Band 27, Nr. 8, Seiten 4012-4024, Aug. 2018 beschrieben. Er stellt insbesondere dann eine gute Wahl für den Lernalgorithmus dar, wenn die Trainingsdaten, d.h. die Anzahl der Vergleichsdatensätze, um das Klassifikationsmodell zu erstellen, größer werden, insbesondere zwischen einigen hundert und einigen tausend Vergleichsdatensätzen liegt. Ferner ist ein Deep Convolutional Neuronal Network - Algorithmus besonders geeignet, wenn die Trainingsdaten, d.h. die Anzahl der Vergleichsdatensätze, um das Klassifikationsmodell zu erstellen, besonders groß ist, insbesondere über 5000 liegt, wobei ein solches Modell sogar eine Klassifikationsgenauigkeit nahe 99% erreicht.
Das Diagnosewerkzeug wertet somit mindestens zwei Biomarker aus, wobei der erste Biomarker (vokaler Biomarker) von besonderer Bedeutung ist und eine Eigenschaft der Stimme der Testperson kennzeichnet. Genauer gesagt, kennzeichnet der erste Biomarker das von der Testperson verwendete Tonspektrum als ein erstes Kriterium für die Beurteilung des Vorliegens einer chronischen, neurologischen Störung. Mit Hilfe dieses vokalen Biomarkers lässt sich mit einer Sicherheit von 95% feststellen, ob bei der Testperson eine bestimmte chronische, neurologische Störung vorliegt. Um die Genauigkeit der Diagnose zu verbessern, wird wenigstens ein zweiter Biomarker verwendet, dessen Kennwerte von dem zumindest einen weiteren Modul ermittelt werden.
In einer Ausführungsvariante kann das weitere Modul ein Emotionsanalysemodul zur Auswertung der Reaktion der Testperson auf einen Emotionsstimulus als zweiter Biomarker sein und zumindest Folgendes umfassen:
- eine Emotions-Auslösungssteuerung, welche eingerichtet ist, einen Satz von Einzelbildern und/ oder Einzelvideos oder wenigstens ein einzelnes Video auf der Bildwiedergabeeinrichtung darzustellen, um eine Anzahl einzelner Emotionen bei der Testperson zu stimulieren, und
- eine Emotionsbeobachtungseinheit, welche eingerichtet ist, eine mit Hilfe einer Bildaufnahmeeinrichtung gewonnene (Video-) Aufnahme des Gesichts der Testperson zumindest daraufhin auszuwerten, wann sie eine emotionale Reaktion zeigt.
Das Emotionsanalysemodul ist eingerichtet, zumindest die jeweilige Reaktionszeit zwischen der Stimulierung der jeweiligen Emotion und des Auftretens der emotionalen Reaktion zu ermitteln, wobei in dieser Ausführungsvariante wenigstens diese Reaktionszeiten die Kennwerte des zweiten Biomarkers bilden.
In einer anderen Ausführungsvariante kann das weitere Modul ein Blickrichtungsanalysemodul zur Auswertung der Blickrichtung der Testperson als zweiter Biomarker sein und zumindest Folgendes umfassen:
- eine Blickrichtungslenkung, welche eingerichtet ist, wenigstens ein Bild oder Video auf der Bildwiedergabeeinrichtung darzustellen, um die Blickrichtung der Testperson zu lenken, und
- eine Blickrichtungsbeobachtungseinheit, welche eingerichtet ist, aus einer mit Hilfe einer Bildaufnahmeeinrichtung gewonnenen (Video-) Aufnahme des Gesichts der Testperson deren Blickrichtung über der Zeit zu ermitteln, wobei in dieser Ausführungsvariante dieser Blickrichtungsverlauf die Kennwerte des zweiten Biomarkers bildet. Somit kann gemäß dieser Ausführungsvarianten der zweite Biomarker entweder eine Eigenschaft der Emotionsverarbeitung oder des Blicks der Testperson sein. Er kennzeichnet somit eine Eigenschaft ihrer sozialen Interaktionsfähigkeit, nämlich wahlweise die Reaktionszeit auf einen Emotionsstimulus oder die Blickrichtung, und kann somit als „sozialer Biomarker“ bezeichnet werden.
Es besteht aber auch die Möglichkeit, die Reaktion auf einen Emotionsstimulus als ein erster weiterer Biomarker und die Blickrichtung als ein zweiter weiterer Biomarker kumulativ auszuwerten, so dass das Diagnosewerkzeug insgesamt drei Biomarker untersucht.
Somit können in einer Ausführungsvariante des Diagnosewerkzeugs nur das Sprachanalysemodul und das Emotionsanalysemodul vorhanden sein, in einer anderen Ausführungsvariante nur das Sprachanalysemodul und das Blickrichtungsanalysemodul, und in einer dritten Ausführungsvariante das Sprachanalysemodul, das Emotionsanalysemodul und das Blickrichtungsanalysemodul.
In der dritten Ausführungsvariante bildet das Emotionsanalysemodul dann ein erstes weiteres Modul und das Blickrichtungsanalysemodul ein zweites weiteres Modul, wobei wenigstens die Reaktionszeiten auf die Emotionsstimuli Kennwerte des zweiten Biomarkers bilden und die Blickrichtung über der Zeit Kennwerte eines dritten Biomarkers der Testperson bildet. Die Gesamtergebnisbewertungseinheit ist dann eingerichtet, aufgrund der Kennwerte des ersten, zweiten und dritten Biomarkers der Testperson unter Anwendung des maschinellen Lernalgorithmus auf Basis künstlicher Intelligenz durch Vergleich mit einer mehrdimensionalen Grenzfläche (Hyperebene) festzustellen, ob die Testperson die chronische, neurologische Störung aufweist. Auf die Reihenfolge bei der Bestimmung der Kennwerte des zweiten und dritten Biomarkers kommt es nicht an.
Vorzugsweise ist das Diagnosewerkzeug eingerichtet, den Satz von Einzelbildern und/ oder Einzelvideos oder den Text zur Auslösung des Sprachsignals, und/ oder den Satz von Einzelbildern und/ oder Einzelvideos oder das zumindest eine Video für die Emotionsstimulierung und/ oder das wenigstens ein Bild oder Video für die Blickrichtungslenkung in Abhängigkeit von personenspezifischen Daten der Testperson auszuwählen und darzustellen. Unter anderem kann dabei vorgesehen sein, dass die Sprachsignal-Auslösesteuerung eingerichtet ist, in Abhängigkeit des Alters der Testperson entweder den Satz von Einzelbildern und/ oder Einzelvideos oder den Text auszuwählen und darzustellen. So kann Kindern bevorzugt der Satz von Einzelbildern und/ oder Einzelvideos, und Erwachsenen der Text auf der Bildwiedergabeeinrichtung gezeigt werden, sofern die Testperson nicht lesen kann. Anderenfalls ist die Verwendung eines vorzulesenden Textes zu bevorzugen, weil das Sprachelement auf diese Weise länger, klang- und tonlich umfangreicher und insgesamt homogener ist.
Vorzugsweise kann das Diagnosewerkzeug einen Filter aufweisen, um Hintergrund oder Nebengeräusche aus dem Sprachsignal vor der Tonhöhenauswertung herauszufiltern, insbesondere die Stimme oder Stimmen anderer Personen wie beispielsweise einer Assistenzperson, die in der Umgebung der Testperson möglicherweise anwesend ist oder sind und während der Audioaufnahme spricht.
Vorzugsweise kann das Diagnosewerkzeug einen Bandpassfilter aufweisen, der eingerichtet ist, das betrachtete Tonhöhenspektrum auf den Bereich zwischen 30 und 600 Hz zu beschränken. Zwar umfasst die menschliche Stimme einen Frequenzumfang zwischen 30Hz und 2000 Hz, wobei die gesprochene Sprache üblicherweise unter 600Hz liegt. Eine Begrenzung des Tonhöhenspektrums auf den Bereich zwischen 30 und 600 Hz bei gleicher Anzahl an Frequenzbänden verbessert die Genauigkeit der Tonhöhenanalyse, weil die einzelnen Frequenzbänder schmaler sind.
Vorzugsweise liegt die Anzahl an Frequenzbändern zwischen 6 und 18, idealerweise bei 12. Diese Anzahl stellt einen guten Mittelweg zwischen der Genauigkeit der Tonhöhenermittlung und der dafür benötigten Rechenzeit und Rechenleistung dar.
Vorzugsweise umfasst der Sprachsignalanalysator einen Deep Convolutional Neuronal Network - Algorithmus, um die Tonhöhen zu schätzen, im Fachjargon auch als Pitch-Detektion bezeichnet. Es kann jedoch auch ein anderer hochqualitative Tonhöhenschätzalgorithmus verwendet werden, wie z.B. „PRAAT“. Eine entscheidende Besonderheit des Sprachsignalanalysators, insbesondere des Deep Convolutional Neuronal Network - Algorithmus, ist seine Fähigkeit zu lernen, indem die von ihm eingesetzten Modelle zur Tonhöhenschätzung kontinuierlich verbessert und alte Modelle durch verbesserte neue Modelle ersetzt werden können, sei es aufgrund von mehr vorliegenden Vergleichsdaten, die zum Trainieren der Modelle verwendet werden können, oder weil ein intelligenterer Optimierungsweg gefunden wurde.
Gemäß einer Ausführungsvariante ist die Emotionsbeobachtungseinheit und/ oder die Blickrichtungsbeobachtungseinheit eingerichtet, die Gesichtsaufnahme in Echtzeit auszuwerten. Mit anderen Worten erfolgt die Untersuchung während die Testperson auf die Bildwiedergabeeinrichtung schaut bzw. ihr der Satz von Einzelbildern und/ oder Einzelvideos oder das zumindest eine Video oder Bild darauf gezeigt wird.
Alternativ kann eine offline Untersuchung erfolgen. In diesem Fall können die Emotionsbeobachtungseinheit und/ oder die Blickrichtungsbeobachtungseinheit je eine Videoaufzeichnungseinheit aufweisen oder sich einer solchen Videoaufzeichnungseinheit, die Teil des Diagnosewerkzeugs ist, bedienen, um eine entsprechende Videoaufnahme abzuspeichern, während der Testperson der Satz von Einzelbildern und/ oder Einzelvideos oder das zumindest eine Video oder Bild gezeigt wird. Diese entsprechende Videoaufnahme kann der Emotionsbeobachtungseinheit bzw. der Blickrichtungsbeobachtungseinheit zur Auswertung zur Verfügung gestellt werden.
Vorzugsweise umfasst die Emotionsbeobachtungseinheit eine Gesichtserkennungssoftware auf Basis einer mitfühlenden künstlichen Intelligenz (Compassionate Artificial Intelligence), die auf bestimmte Emotionen trainiert ist, nämlich sinnvollerweise auf diejenigen Emotionen, die durch die Einzelbilder oder Einzelvideos des Satzes oder durch das Video stimuliert werden, wie z.B. Freude, Trauer, Wut oder Angst.
Vorzugsweise ist die Emotionsbeobachtungseinheit eingerichtet, zusätzlich zum Reaktionszeitpunkt die Reaktionsart auf die jeweils stimulierte Emotion festzustellen, wobei diese Reaktionsart Teil der Kennwerte des zweiten Biomarkers ist. Die Reaktionsart kann im einfachsten Fall eine binäre Information sein, die angibt, ob es sich bei der Reaktion um eine positive oder negative Emotion handelt. Beispielsweise können Freude und Trauer als einen positive, Wut und Angst als eine negative Emotion interpretiert werden. Alternativ kann die Reaktionsart die konkrete Emotion sein, mit der die Testperson reagiert. Die Reaktionsart kann dann gemeinsam mit der entsprechenden Reaktionszeit für die jeweilige emotionale Reaktion, mit der die Reaktionsart verknüpft ist, einen Bestandteil der Kennwerte des zweiten Biomarkers bilden.
Es kann zusätzlich vorgesehen sein, dass das Emotionsanalysemodul eingerichtet ist festzustellen, ob die von der Testperson gezeigte Reaktion der stimulierten Emotion entspricht. Dies kann im einfachsten Fall durch einen Vergleich erfolgen, ob es sich sowohl bei dem Emotionsstimulus als auch bei der Reaktionsart jeweils um eine positive oder jeweils um eine negative Emotion handelt. Ist dies der Fall, hat die Testperson erwartungsgemäß bzw. „normal“ reagiert. Ist dies nicht der Fall, d.h. ist die emotionale Reaktion positiv, obgleich der Emotionsstimulus negativ war oder umgekehrt, hat die Testperson unerwartet bzw. „unnormal“ reagiert. Bestenfalls kann auch ein Vergleich erfolgen, ob die konkret ermittelte Emotion, mit der die Testperson reagiert, derjenigen der stimulierten Emotion entspricht oder diese Emotionen verschieden sind. Das Ergebnis dieses jeweiligen Vergleichs kann in einem Kongruenzindikator angegeben werden, z.B. derart, dass eine „1“ eine Übereinstimmung der emotionalen Reaktion mit der stimulierten Emotion angibt und eine „0“ eine fehlende Übereinstimmung angibt, zumindest im Hinblick darauf, ob es sich um positive oder negative Emotionen handelt. Alternativ kann eine „-1“ eine fehlende Übereinstimmung der emotionalen Reaktion mit der stimulierten Emotion angeben und eine „0“ die Tatsache, dass die Testperson gar keine Reaktion gezeigt hat. Der Kongruenzindikator kann dann, gemeinsam mit der entsprechenden Reaktionszeit für die emotionale Reaktion, mit der der Kongruenzindikator verknüpft ist, ebenfalls einen Bestandteil der Kennwerte des zweiten Biomarkers bilden.
Bei dem Kongruenzindikator handelt es sich um eine besonders hilfreiche und aussagekräftige Information, jedenfalls dann, wenn die Testperson auf einen bestimmten Stimulus nicht mit einer Emotion reagiert, die zu erwarten gewesen wäre, weil dies ein Indiz für eine chronische, neurologische Störung ist.
Vorzugsweise kann vorgesehen sein, dass das Emotionsanalysemodul für jede stimulierte Emotion drei Informationen liefert, nämlich die Reaktionszeit auf die Stimulation, die emotionale Reaktion hierauf (positiv/ negativ oder konkret ermittelte Emotion) und den Kongruenzindikator. Diese drei Informationen für jede der stimulierten Emotionen bilden dann die Kennwerte des zweiten Biomarkers. Im Fall von n stimulierten Reaktionen umfasst der zweite Biomarker in diesem Fall 3n Kennwerte.
Vorzugsweise ist vorgesehen, dass die Emotions-Auslösungssteuerung eingerichtet ist, zwischen 4 und 12 Emotionen, vorzugsweise 6 Emotionen zu stimulieren.
In einer Ausführungsvariante kann die Blickrichtungslenkung eingerichtet sein, das wenigstens eine Bild oder Video auf diskreten Positionen der Bildwiedergabeeinrichtung nacheinander darzustellen oder entlang eines kontinuierlichen Pfades zu bewegen. Das Bild oder Video wird somit kleiner wiedergegeben als die Wiedergabefläche (Bildschirm) der Bildwiedergabeeinrichtung ist, und über die Wiedergabefläche bewegt, wobei die Testperson der zeitlichen Abfolge der Wiedergabeorte bzw. dem Wiedergabepfad mit dem Blick folgen soll. Es ist allerding auch möglich, ein einziges Video ganzflächig auf der Wiedergabefläche zu zeigen, wobei dann in diesem Video ein oder mehrere Objekte enthalten sind, deren Position sich bezogen auf die räumliche Begrenzung der Wiedergabefläche ändert, z.B. ein hin und her fliegender Schmetterling.
Vorzugsweise umfasst die Blickrichtungsbeobachtungseinheit eine Eye-Tracking Software.
Das erfindungsgemäße Diagnosewerkzeugs kann vorteilhafterweise als eine Softwareapplikation für ein tragbares Kommunikationsendgerät, insbesondere ein Smartphone oder Tablet verwendet werden. Damit ist die Verwendbarkeit des Diagnosewerkzeugs für nahezu Jedermann jederzeit gegeben. Das erfindungsgemäße Diagnosewerkzeugs kann auch als eine Softwareapplikation auf einem Server verwendet werden, der über ein Computernetzwerk von einem Browser auf einem externen Endgerät ansteuerbar ist, um das Diagnosewerkzeug auszuführen. Auch diese Variante gewährleistet eine hohe Zugänglichkeit des Diagnosewerkzeugs bzw. einen Zugriff darauf jederzeit von jedem Ort der Welt, wobei die Variante auch dem Umstand Rechnung trägt, dass die Rechenleistung in einem tragbaren Kommunikationsendgerät möglicherweise nicht ausreicht, um die genannten Algorithmen der künstlichen Intelligenz auszuführen. Ein Server mit einer Verarbeitungseinheit mit ausreichend Rechenleistung ist hierfür besser geeignet.
Erfindungsgemäß wird außerdem ein Diagnosesystem zur Verwendung in der Diagnose einer chronischen, neurologischen Störung bei einer menschlichen Testperson unter Verwendung künstlicher Intelligenz vorgeschlagen, umfassend
- ein erfindungsgemäßes Diagnosewerkzeug,
- wenigstens einen nicht flüchtigen Speicher mit das Diagnosewerkzeug bildenden Programmcode und Daten,
- eine Verarbeitungseinheit wie z.B. einen Prozessor, zur Ausführung des Programmcodes und Verarbeitung der Daten des Diagnosewerkzeugs sowie
- die folgenden Peripheriegeräte:
- eine Spracheingabeeinrichtung, wie z.B. ein Mikrofon, zur Aufnahme wenigstens eines Sprachsignals der Testperson für das Diagnosewerkzeug,
- eine Bildaufnahmeeinrichtung, wie z.B. eine CCD-Kamera, zur bildlichen Aufnahme des Gesichts der Testperson für das Diagnosewerkzeug,
- eine Bildwiedergabeeinrichtung, wie z.B. einen Monitor oder ein Display, zur Darstellung von Bilddaten für die Testperson und
- wenigstens ein Eingabemittel, wie z.B. Tasten oder ein Touch-Screen, zur Vornahme von Eingaben durch die Testperson, wobei die Peripheriegeräte mit der Verarbeitungseinheit in Wirkverbindung stehen und das Diagnosewerkzeug eingerichtet ist, die Spracheingabeeinrichtung, die Bildaufnahmeeinrichtung und die Bildwiedergabeeinrichtung zumindest mittelbar anzusteuern und die Aufnahmen von der Spracheingabeeinrichtung und der Bildaufnahmeeinrichtung auszuwerten. Vorzugsweise ist das Diagnosesystem ein tragbares Kommunikationsendgerät, insbesondere ein Smartphone oderTablet, auf dem das Diagnosewerkzeug als Softwareapplikation ausgeführt wird. Der nicht flüchtige Speicher, die Verarbeitungseinheit, die Spracheingabeeinrichtung, die Bildaufnahmeeinrichtung, die Bildwiedergabeeinrichtung und das Eingabemittel stellen in diesem Fall integrale Bestandteile des Kommunikationsendgeräts dar.
Alternativ kann die Verarbeitungseinheit Teil eines mit einem Computernetzwerk wie dem Internet verbundenen und über einen Browser ansteuerbaren Servers sein, wobei der nicht flüchtige Speicher mit dem Server in Verbindung steht, und die Peripheriegeräte Teil eines externen Endgeräts, insbesondere eines tragbaren Kommunikationsendgeräts sind. Mit anderen Worten kann das Diagnosewerkzeug in dieser Ausführungsvariante über das Netzwerk/ Internet aufgerufen und auf dem Server ausgeführt werden.
In einer weiteren Ausführungsvariante kann auch das externe Endgerät einen flüchtigen Speicher aufweisen, wobei das Diagnosewerkzeug teilweise auf dem serverseitigen Speicher und teilweise auf dem endgeräteseitigen Speicher gespeichert ist. So können beispielsweise die von den Modulen verwendeten Bild oder Textdaten, sowie zumindest die Sprachsignal-Auslösungssteuerung und die Sprachaufzeichnungseinheit des Sprachanalysemoduls, die Emotions- Auslösungssteuerung des Emotionsanalysemoduls und/ oder die Blickrichtungslenkung des Blickrichtungsanalysemoduls auf dem Endgerät gespeichert sein und dort ausgeführt werden, wohingegen auf dem serverseitigen Speicher der Sprachsignalanalysator, die Emotionsbeobachtungseinheit und die Reaktionsbewertungseinheit sowie die Blickrichtungsbeobachtungseinheit und die Gesamtergebnisbewertungseinheit gespeichert sind und ausgeführt werden. Mithin sind alle rechenintensiven Funktionseinheiten des Diagnosewerkzeugs serverseitig angeordnet. Es besteht ebenfalls die Möglichkeit, alle Funktionseinheiten des Diagnosewerkzeugs endgeräteseitig anzuordnen bis auf die Gesamtergebnisbewertungseinheit. Dies ist einerseits deshalb sinnvoll, weil die Gesamtergebnisbewertungseinheit kontinuierlich mit neuen Vergleichsdatensätzen trainiert und damit verbessert werden kann. Ein weiterer Vorteil besteht darin, dass die an den Server zu übertragenden Daten, nämlich die von der Gesamtergebnisbewertungseinheit zu bewertenden Biomarker-Kennwerte, keine personenspezifischen Daten enthalten, so das diese Verfahrensweise aus Datenschutzgründen vorteilhaft ist.
Erfindungsgemäß wird ferner ein Verfahren zum Betreiben des softwarebasierten Diagnosewerkzeugs zur Verwendung in der Diagnose einer chronischen, neurologischen Störung bei einer menschlichen Testperson unter Verwendung künstlicher Intelligenz vorgeschlagen, umfassend
- eine übergeordnete Betriebssoftware,
- ein Sprachanalysemodul zur Ermittlung von Kennwerten eines ersten, und zwar vokalen Biomarkers eines Sprachsignals der Testperson,
- wenigstens ein weiteres Modul zur Ermittlung von Kennwerten eines zweiten Biomarkers, und
- eine dem Sprachanalysemodul und dem weiteren Modul nachgeschaltete Gesamtergebnisbewertungseinheit, wobei
- die Betriebssoftware das Sprachanalysemodul und das wenigstens eine weitere Modul nacheinander auslöst und deren ermittelte Kennwerte der Gesamtergebnisbewertungseinheit zuführt,
- eine Sprachsignal-Auslösesteuerung des Sprachanalysemoduls einen Satz von Einzelbildern und/ oder Einzelvideos oder einen Text auf einer Bildwiedergabeeinrichtung für die Testperson darstellt, um wenigstens ein Sprachsignal bei der Testperson in Gestalt einer Benennung eines in dem jeweiligen Einzelbild oder Einzelvideo enthaltenden Objekts oder in Gestalt eines Vorlesens des Textes auszulösen,
- eine Sprachaufzeichnungseinheit des Sprachanalysemoduls das Sprachsignal mit Hilfe einer Spracheingabeeinrichtung in einer Audioaufnahme aufzeichnet, und
- ein Sprachsignalanalysator des Sprachanalysemoduls das Sprachsignal in der Audioaufnahme zunächst daraufhin auswertet, zu welchem Zeitpunkt welche Tonhöhe vorkommt, und anschließend eine Häufigkeitsverteilung der Tonhöhen über eine Anzahl an Frequenzbändern eines betrachteten Frequenzspektrums ermittelt, wobei diese Häufigkeitsverteilung die Kennwerte des ersten Biomarkers bildet, und - die Gesamtergebnisbewertungseinheit aufgrund der Kennwerte der Biomarkers der Testperson unter Anwendung eines maschinellen Lernalgorithmus auf Basis künstlicher Intelligenz durch Vergleich mit einer mehrdimensionalen Grenzfläche feststellt, ob die Testperson die chronische, neurologische Störung aufweist.
Ergänzend kann in einer Ausführungsvariante des Betriebsverfahrens, in der das weitere Modul ein Emotionsanalysemodul zur Auswertung der Reaktion der Testperson auf einen Emotionsstimulus als zweiter Biomarker ist, vorgesehen sein, dass
- eine Emotions-Auslösungssteuerung des Emotionsanalysemoduls einen Satz von Einzelbildern und/ oder Einzelvideos oder wenigstens ein einzelnes Video auf der Bildwiedergabeeinrichtung darstellt, um eine Anzahl einzelner Emotionen bei der Testperson zu stimulieren, und
- eine Emotionsbeobachtungseinheit des Emotionsanalysemoduls eine mit Hilfe einer Bildaufnahmeeinrichtung (6) gewonnenen Aufnahme des Gesichts der Testperson zumindest daraufhin auswertet, wann sie eine emotionale Reaktion zeigt, und
- das Emotionsanalysemodul die jeweilige Reaktionszeit zwischen der Stimulierung der jeweiligen Emotion und ihres Auftretens ermittelt, und wenigstens diese Reaktionszeiten die Kennwerte des zweiten Biomarkers bilden.
Wie oben ausgeführt, kann die Emotionsbeobachtungseinheit die Aufnahme des Gesichts der Testperson auch daraufhin auswerten, welche emotionale Reaktion sie zeigt, d.h. die Reaktionsart, beispielsweise in der Art, ob es sich um eine positive oder negative emotionale Reaktion handelt, oder in der Art der Bestimmung der konkreten Emotion. In diesem Fall bilden für jede stimulierte Emotion die jeweilige Reaktionszeit und Reaktionsart die Kennwerte des zweiten Biomarkers.
Wie ebenfalls oben ausgeführt, kann das Emotionsanalysemodul außerdem einen Kongruenzindikator ermitteln, der angibt, ob die emotionale Reaktion der stimulierten Emotion entspricht, beispielsweise ob beides jeweils positive oder negative Emotionen sind oder sogar die Emotionsart übereinstimmt. In diesem Fall bilden für jede stimulierte Emotion die jeweilige Reaktionszeit und der Kongruenzindikator die Kennwerte des zweiten Biomarkers. Bevorzugt ermittelt das Emotionsanalysemodul jedoch zu jeder stimulierten Emotion drei Informationen, nämlich sowohl die Reaktionszeit, als auch die Reaktionsart und den Kongruenzindikator. In diesem Fall bilden für jede stimulierte Emotion die jeweilige Reaktionszeit, Reaktionsart und der Kongruenzindikator die Kennwerte des zweiten Biomarkers.
Ergänzend kann in einer anderen Ausführungsvariante des Betriebsverfahrens, in der das weitere Modul ein Blickrichtungsanalysemodul zur Auswertung der Blickrichtung der Testperson als zweiter Biomarker ist, vorgesehen sein, dass
- eine Blickrichtungslenkung des Blickrichtungsanalysemoduls wenigstens ein Bild oder Video auf der Bildwiedergabeeinrichtung darstellt, um die Blickrichtung der Testperson zu lenken, und
- eine Blickrichtungsbeobachtungseinheit des Blickrichtungsanalysemoduls aus einer mit Hilfe einer Bildaufnahmeeinrichtung (6) gewonnenen Aufnahme des Gesichts der Testperson deren Blickrichtung über der Zeit ermittelt, wobei dieser Blickrichtungsverlauf die Kennwerte des zweiten Biomarkers bildet.
Schließlich kann in einer weiteren Ausführungsvariante des Betriebsverfahrens vorgesehen sein, dass das Emotionsanalysemodul ein erstes weiteres Modul und das Blickrichtungsanalysemodul ein zweites weiteres Modul ist und diese Module nacheinander ausgelöst werden, wobei wenigstens die Reaktionszeiten auf die Emotionsstimuli Kennwerte des zweiten Biomarkers bilden und die Blickrichtung über der Zeit Kennwerte eines dritten Biomarker der Testperson bildet, und wobei die Gesamtergebnisbewertungseinheit aufgrund der Kennwerte des ersten, zweiten und dritten Biomarkers der Testperson unter Anwendung des maschinellen Lernalgorithmus auf Basis künstlicher Intelligenz durch Vergleich mit einer mehrdimensionalen Grenzfläche feststellt, ob die Testperson die chronische, neurologische Störung aufweist.
Im Übrigen ist das Betriebsverfahren eingerichtet, das Diagnosewerkzeug so zu steuern, dass es die Schritte und Funktionen ausführt, zu denen es entsprechend, wie zuvor beschrieben, eingerichtet ist. Das softwarebasierte Diagnosewerkzeug und dessen Betriebsverfahren werden nachfolgend anhand eines konkreten Beispiels und der beigefügten Figuren näher beschrieben.
Es zeigen:
Figur 1 : eine Prinzipdarstellung des Aufbaus eines ersten erfindungsgemäßen Diagnosesystems
Figur 2: eine Prinzipdarstellung des Aufbaus eines zweiten erfindungsgemäßen Diagnosesystems
Figur 3: eine schematische Darstellung der Funktionseinheiten des Sprachanalysemoduls des Diagnosewerkzeugs Figur 4: eine schematische Darstellung der Funktionseinheiten des Emotionsanalysemoduls des Diagnosewerkzeugs Figur 5: eine schematische Darstellung der Funktionseinheiten des Blickrichtungsanalysemoduls des Diagnosewerkzeugs Figur 6: eine Prinzipdarstellung des Aufbaus eines dritten erfindungsgemäßen Diagnosesystems
Figur 7: ein Ablaufdiagramm eines erfindungsgemäßen Betriebsverfahrens Figur 8: ein schematisches Signalflussdiagramm
Figur 9: ein aufgezeichnetes Sprachsignal umfassend acht einzelne Sprachsignale Figur 10: die Tonhöhensignale der acht einzelnen Sprachsignale aus Figur 9 über der Zeit (Pitch-Spektrum)
Figur 11 : ein Tonhöhenhistogramm zu den acht Tonhöhensignalen in Figur 10 Figur 12: ein beispielhaftes Tonhöhenhistogramm einer autistischen Testperson Figur 13: ein beispielhaftes Tonhöhenhistogramm einer nicht-autistischen Testperson Figur 14: weitere Beispiele von Tonhöhenhistogrammen autistischer Testpersonen Figur 15: weitere Beispiele von Tonhöhenhistogrammen nicht-autistischer Testpersonen
Figur 16: ein Diagramm, das Emotionsstimuli und deren Wirkung auf die Testperson veranschaulicht
Figur 17: eine zeitliche Abfolge von Darstellungen eines Bildes auf der Bildwiedergabeeinrichtung an verschiedenen Positionen Figur 18: ein ermittelter Blickrichtungspfad Figur 1 zeigt ein softwarebasiertes Diagnosewerkzeug als Teil eines Diagnosesystems 1 gemäß einer ersten Ausführungsvariante. Figur 7 veranschaulicht ein Betriebsverfahren für dieses Diagnosewerkzeug bzw. für das Diagnosesystem. Das Diagnosesystem 1 umfasst einerseits ein Computersystem 2, das wenigstens eine Verarbeitungseinheit 3 in Gestalt eines Prozessors 3 mit einem, zwei oder mehr Kernen, sowie zumindest einen nicht-flüchtigen Speicher 4 aufweist, und Peripheriegeräte 5, 6, 7, 8 andererseits, die mit dem Computersystem 2 in Wirkverbindung stehen, genauer gesagt mit diesem kommunikationstechnisch verbunden sind, so dass die Peripheriegeräte 5, 6, 7, 8 von dem Computersystem 2 Steuerdaten erhalten, mithin angesteuert werden und/ oder Nutzdaten, insbesondere Bild- und Tondaten an dieses übertragen können.
Bei den Peripheriegeräten 5, 6, 7, 8 handelt es sich um eine Spracheingabeeinrichtung 5 in Gestalt eines Mikrofons 5, eine Bildaufnahmeeinrichtung 6 in Gestalt einer Kamera 6, beispielsweise einer CCD- Kamera, eine Bildwiedergabeeinrichtung 7 in Gestalt eines Displays 7 oder Monitors und ein Eingabemittel 8, z.B. in Gestalt von Bedientasten, einer Tastatur oder einer berührungssensitiven Oberfläche der Bildwiedergabeeinrichtung 7 in Verbindung mit einer darauf dargestellten grafischen Benutzeroberfläche, die für eine mögliche Eingabe die zu berührenden Teilfläche der der Bildwiedergabeeinrichtung 7 grafisch herausstellt. Das Eingabemittel 8 kann auch durch ein Spracherkennungsmodul gebildet sein. Die Peripheriegeräte 5, 6, 7, 8 sind örtlich einer Testperson 11 zugeordnet, insbesondere für diese zugänglich, so dass sie mit den Peripheriegeräte 5, 6, 7, 8 interagieren kann.
In einer Ausführungsvariante können die Peripheriegeräte 5, 6, 7, 8 mit dem Computersystem 2 über eine oder mehrere Kabelverbindungen verbunden sein, entweder über eine gemeinsame Kabelverbindung oder über jeweils einzelne Kabelverbindungen. Anstelle der Kabelverbindung können die Peripheriegeräte 5, 6, 7, 8 mit dem Computersystem 2 auch über eine kabellose, insbesondere eine Funkverbindung wie beispielsweise Bluetooth oder WLAN verbunden sein. Es ist ferner eine Mischung dieser Verbindungstypen möglich, so dass eines oder mehrere der Peripheriegeräte 5, 6, 7, 8 mit dem Computersystem 2 über eine Kabelverbindung und eines oder mehrere der Peripheriegeräte 5, 6, 7, 8 über eine kabellose, insbesondere Funkverbindung mit dem Computersystem 2 verbunden ein kann. Des Weiteren können die Peripheriegeräte 5, 6, 7, 8 direkt mit dem Computersystem verbunden sein oder indirekt über ein externes Gerät 12, beispielsweise über einen externen Computer wie einem Personal Computer, welcher wiederum kabellos oder via Kabel über wenigstens ein lokales und/ oder globales Netzwerk 9 wie dem Internet mit dem Computersystem 2 zur Kommunikation verbunden sein kann. Dies ist in Figur 2 veranschaulicht.
Die Peripheriegeräte 5, 6, 7, 8 können jeweils einzelne Geräte bilden. Sie können alternativ jedoch auch einzeln miteinander kombiniert in einem Gerät verbaut sein. So können beispielsweise Kamera 6 und Mikrofon 5 in einem gemeinsamen Gehäuse untergebracht sein, oder das Display 7 und die Eingabeeinrichtung 8 eine integrierte Funktionseinheit bilden. Weiter alternativ können die Peripheriegeräte allesamt integraler Bestandteil des externen Gerätes 12 sein, welches dann beispielsweise ein mobiles Endgerätes 12 der Telekommunikation sein kann, insbesondere ein Laptop, eines Smartphone oder ein Tablet. Eine Ausführungsvariante des externen Geräts 12 in Gestalt eines Smartphones 12 ist in Figur 2 veranschaulicht. Die Kommunikation der Peripheriegeräte 5, 6, 7, 8 mit dem Computersystem 2 erfolgt dann auch in diesem Fall überdas externe Gerät 12 und ein lokales und/ oder globales Netzwerk 9 wie dem Internet 9, mit dem das externe Gerät 12 einerseits, kabellos oder via Kabel, und das Computersystem 2 andererseits, kabellos oder via Kabel, verbunden ist.
Das Computersystem 2 fungiert im Falle eines Zugriffs aus dem Netzwerk 9, insbesondere dem Internet als zentraler Server und besitzt hierfür eine entsprechende Kommunikationsschnittstelle 10, insbesondere eine IP-basierte Schnittstelle, über die die Kommunikation mit dem externen Gerät 12 erfolgt. Dies ermöglicht einen zeitlich und örtlich uneingeschränkten Zugriff auf das Diagnosewerkzeug. Insbesondere kann die Kommunikation mit dem Computersystem 2 als Server über eine spezielle Softwareapplikation auf dem externen Gerät oder über eine Internetadresse bzw. Webseite erfolgen, die in einem Browser auf dem externen Gerät 12 aufgerufen werden kann. Bei der Realisierung der Peripheriegeräte 5, 6, 7, 8 und deren Verbindung mit dem Computersystem gibt es somit zahlreiche physischen Gestaltungsmöglichkeiten, die für den Einsatz des erfindungsgemäßen Diagnosewerkzeugs mehrere Szenarien ermöglichen.
So kann das Diagnosesystem 1 bzw. das Computersystem 2 und die damit in Wirkverbindung stehenden Peripheriegeräte 5, 6, 7, 8 als eine gemeinsame Funktionseinheit örtlich am Arbeitsplatz eines Arztes oder Therapeuten, z.B. in dessen Praxis oder Klinik stehen. Die Testperson 11 muss in diesem Fall persönlich dort anwesend sein, um das Diagnosesystem 1 nutzen zu können. Ebenfalls möglich ist es, dass an besagtem Arbeitsplatz nur das externe Gerät 12 mit den Peripheriegeräten 5, 6, 7, 8 steht, welches über das Netzwerk 9 auf das Computersystem 2 bzw. auf das Diagnosewerkzeug zugreift. Die Testperson 11 muss in diesem Fall zwar immer noch persönlich beim Arzt oder Therapeuten anwesend sein, jedoch sind die Investitionskosten für den Arzt oder Therapeuten geringer. Von besonderem Vorteil ist es jedoch, wenn das externe Gerät 12 ein mobiles Gerät ist, beispielsweise ein Laptop, Smartphone oder Tablet, welche den Zugriff auf das Computersystem 2 bzw. auf das Diagnosewerkzeug auch von zu Hause aus ermöglicht. Somit entfallen zeitaufwändige Anreisen zum Arzt oder Therapeuten.
Für die Verwendung des erfindungsgemäßen Diagnosesystems 1 ist ein medizinischer Experte grundsätzlich nicht erforderlich, da die Diagnose vom Diagnosewerkzeug aufgrund der ihm von der Testperson 11 über das Mikrofon 5 und die Kamera 6 bereitgestellten Informationen selbständig und vor allem objektiv durchgeführt wird. Die Interaktion der Testperson 11 mit dem Diagnosesystems 1 erfolgt aufgrund von textlichen oder sprachlichen Anweisungen, die es auf der Bildwiedergabeeinrichtung 7 oder einem Lautsprecher als weiteres Peripheriegerät ausgibt und denen die Testperson 11 Folge zu leisten hat. Bei Kindern und solchen Erwachsenen, die im Umgang mit Laptops, Smartphones oderTablets und deren Programmen unerfahren sind, kann eine weitere Person, wie ein Elternteil oder ein Betreuer bei der Bedienung des Diagnosesystems 1 unterstützen, jedoch Bedarf es hierzu keines medizinischen Experten. Gleichwohl ist das Diagnoseergebnis mit einem medizinischen Experten zu besprechen und zu bewerten, insbesondere hinsichtlich einer etwaigen Therapie, die sich aus einer positiven Autismusdiagnose ergibt. Auch ist es auch Gründen emotionaler Betroffenheit im Falle einer positiven Autismusdiagnose empfehlenswert, die Verwendung des Diagnosesystems 1 unter Aufsicht einerweiteren erwachsenen Person durchzuführen.
Das erfindungsgemäße Diagnosewerkzeug besteht im engeren Sinn durch eine Kombination von Software 15 und Daten 14, die in einem nicht flüchtigen Speicher 4 hinterlegt sind. Figuren 1 und 2 stellen den einfachen Fall dar, dass die Software 15 und Daten 14 gemeinsam in einem Speicher 4 gespeichert sind, der Teil des Computersystems 2 ist, beispielsweise ein Festplattenspeicher. Dieser Speicher 4 kann jedoch auch außerhalb des Computersystems 2 angeordnet sein, beispielsweise in Gestalt eines Netzlaufwerks oder einer Cloud. Des Weiteren ist es nicht zwingend, dass die Software und die Daten in demselben Speicher 4 liegen.
Die Daten 14 und die Software 15 können vielmehr auch verteilt in verschiedenen Speichern, innerhalb oder außerhalb des Computersystems z.B. in einem Netzwerkspeicher oder einer Cloud gespeichert sein, auf die das Computersystem 2 bei Bedarf zugreift. Ferner können nicht nur die Gesamtheit der Daten 14 und die Gesamtheit der Software 15 in getrennten Speichern gespeichert sein, vielmehr können auch Teile der Daten und/ oder Teile der Software auf unterschiedlichen Speichern gespeichert sein. Somit gibt es auch hier zahlreiche Gestaltungsmöglichkeiten für die Anordnung und Verteilung des Diagnosewerkzeugs innerhalb des Diagnosesystems 1.
Im Besonderen umfassen die Daten 14 des Diagnosewerkzeugs Bilddaten 16, 18, 19 in Gestalt von Einzelbildern und/ oder Einzelvideos und Textdaten 17, die dazu vorgesehen sind, vom Diagnosewerkzeug auf der Bildwiedergabeeinrichtung 7 dargestellt zu werden, um eine sprachliche Äußerung, eine emotionale Reaktion und eine Blickrichtungslenkung zu erwirken. Die Bild- und Textdaten 16, 17, 18, 19 sind im Hinblick auf diese Zweckbestimmung vorzugsweise jeweils zu einer bestimmten Gruppe oder einem bestimmten Datensatz zusammengefasst, die in Abhängigkeit von personenspezifischen Angaben der Testperson vom Diagnosewerkzeug ausgewählt werden. Die Textdaten 17 sind vorgesehen, um sie einem lesefähigen Erwachsenden als Testperson 11 auf der Bildwiedergabeeinrichtung 7 zum Vorlesen anzuzeigen. Die Textdaten 17 können einen ersten Text 17a in einer ersten Sprache z.B. Englisch, und einen zweiten Text in einer zweiten Sprache z.B. Suaheli umfassen. Bei dem Text kann es sich beispielsweise um einen wohlbekannten Standardtext, z.B. ein Märchen oder eine Geschichte handeln, wie z.B. Rotkäppchen oder „A Tale of two Cities“.
Ein erster Teil 16 der Bilddaten ist vorgesehen, um einem leseunfähigen Erwachsenden oder einem Kind als Testperson 11 auf der Bildwiedergabeeinrichtung 7 Einzelbilder und/ oder Einzelvideos nacheinander anzuzeigen, damit die Testperson 11 den auf den Einzelbildern und/ oder Einzelvideos gezeigten Gegenstand benennt. Diese Einzelbilder und/ oder Einzelvideos 16 sind dabei so ausgestaltet, dass nur ein einziger, vergleichsweise leicht zu benennender Gegenstand auf ihnen gezeigt ist, wie z.B. ein Elefant, ein Auto, ein Flugzeug, eine Puppe, ein Fußball etc. Im Falle eines Videos können dieses Gegenstände in Bewegung dargestellt sein. Die Einzelbilder und/ oder Einzelvideos können die Realität wiedergeben oder gezeichnet sein. Da Personen, insbesondere Kinder, unterschiedlichen Alters, Geschlechts und ethnischer Flerkunft unterschiedliche Interessen und einen unterschiedlichen soziokulturellen Flintergrund haben, können die Einzelbilder und/ oder Einzelvideos unterteilt sein in einzelne Sätze 16a, 16b von Einzelbildern und/ oder Einzelvideos, deren Inhalte auf das Alter, Geschlecht und die ethnische Herkunft abgestimmt sind bzw. einen speziellen altersbezogenen, geschlechtsbezogenen und/ oder kulturellen Kontext haben, um sicherzustellen, dass die Testperson 11 den jeweiligen Gegenstand tatsächlich erkennt und benennt. Dabei kommt es allerdings nicht auf die Sprache an, in der die Benennung erfolgt, da diese für das Diagnosewerkzeug ohne Bedeutung ist.
So kann ein erster Satz von Einzelbildern 16a dazu vorgesehen, einem Jungen oder einem Kind einer ersten ethnischen Herkunft auf der Bildwiedergabeeinrichtung 7 dargestellt zu werden, und ein zweiter Satz von Einzelbildern 16a dazu vorgesehen sein, einem Mädchen oder einem Kind einer zweiten ethnischen Herkunft auf der Bildwiedergabeeinrichtung 7 dargestellt zu werden. Ein zweiter Teil 18 der Bilddaten ist vorgesehen, um der Testperson 11 auf der Bildwiedergabeeinrichtung 7 Einzelbilder und/ oder Einzelvideos nacheinander anzuzeigen, um bei der Testperson 11 eine bestimmte emotionale Reaktion auszulösen, z.B. Freude, Trauer, Wut oder Angst. Obgleich Einzelbilder grundsätzlich geeignet sind, eine emotionale Reaktion auszulösen, wie z.B. ein kurzer Comic mit einem darin enthaltenen Witz, vermögen Videos Situationen zu zeigen, die intensivere Emotionen hervorzurufen, weshalb Videos grundsätzlich besser geeignet sind. Auch in diesem Fall, kann der zweite Teil 18 der Bilddaten 16, 18 unterteilt sein in einzelne Sätze 18a, 18b von Einzelbildern und/ oder Einzelvideos, deren Inhalt auf das Alter, Geschlecht und die ethnische Flerkunft abgestimmt sind, um sicherzustellen, dass die Testperson 11 auf eine bestimmte Situation mit einer bestimmten Emotion reagiert. Die Einzelbilder und/ oder Einzelvideos können die Realität wiedergeben oder gezeichnet sein. Letzteres bietet sich bei Kindern an.
Optional kann ein dritter Teil 19 von Bilddaten vorgesehen sein, umfassend wenigstens ein Einzelbild oder Video, das der Testperson 11 auf der Bildwiedergabeeinrichtung 7, insbesondere an verschiedenen Positionen derselben nacheinander angezeigt wird, um deren Blickrichtung auf die Bildwiedergabeeinrichtung 7 zu lenken. Hierzu genügt grundsätzlich ein einzelnes Einzelbild 19a (vgl. Figur 17), welches an verschiedene Positionen diskret nacheinander angezeigt oder zu verschiedenen Positionen kontinuierlich bewegt wird. Bei dem Einzelbild 19a kann es sich im einfachsten Fall um ein beliebiges grafisches Objekt wie ein Symbol, ein Icon, ein Logo, ein Text oder eine Figur handeln. Es kann alternativ ein Foto oder eine Zeichnung sein. Das Einzelbild kann aus der Menge der Einzelbilder des ersten Teils 16 oder zweiten Teils 18 der Bilddaten stammen, so dass für die Blickrichtungslenkung in diesem Fall kein dritter Teil 19 von Bilddaten erforderlich ist. Um sicherzustellen, dass das Interesse der Testperson 11 an der Bildverfolgung nicht verloren geht, empfiehlt es sich, unterschiedliche Einzelbilder oder wenigstens ein Video für die Blickrichtungslenkung zu verwenden, welche oder welches dann den dritten Teil 19 der Bilddaten bildet/ bilden. Jedoch können auch diese Einzelbilder oder das Video aus dem ersten Teil 16 oder zweiten Teil 18 der Bilddaten stammen, so dass auch in diesem Fall kein dritter Teil 19 von Bilddaten erforderlich ist. Wie zuvor erläutert, besteht das Diagnosewerkzeug neben den Daten 14 aus Software 15 (Programmcode) mit Instruktionen zur Ausführung auf dem Prozessor s. Genauer gesagt umfasst diese Software eine Betriebssoftware 20, mehrere Analysemodule 21, 22, 23 und eine Gesamtergebnisbewertungseinheit 24, wobei die Betriebssoftware 20 die übergeordnete Steuerung der Abläufe im Diagnosewerkzeug übernimmt, insbesondere die einzelnen Analysemodule 21, 22, 23 nacheinander und die Gesamtergebnisbewertungseinheit 24 ansteuert, vergleiche Figur 7.
Bei dem ersten der Analysemodule handelt es sich um Sprachanalysemodul 21 zur Ermittlung von Kennwerten 27 eines ersten Biomarkers, der hier als vokaler Biomarkers eines Sprachsignals 26 der Testperson 11 bezeichnet wird, das in einer Audioaufnahme 26 enthalten ist. Um das Sprachsignal 26 auszulösen und die Audioaufnahme 26 zu gewinnen, umfasst das Sprachanalysemodul 21 eine Sprachsignals-Auslösesteuerung 21a und eine Sprachaufzeichnungseinheit 21b. Zur Gewinnung von Kennwerten des vokalen Biomarkers ist außerdem ein Sprachsignalanalysator 21c Teil des Sprachanalysemodul 21, wie dies schematisch in Figur 3 dargestellt ist.
Das Sprachanalysemodul 21 wird als erstes Analysemodul von der Betriebssoftware 20 ausgelöst, nachdem die Testperson 11 oder eine andere, ihr assistierende Person, wie z.B. ein Erwachsener oder der Flausarzt, das Diagnosewerkzeug aktiviert hat, siehe Figur 7, und gegebenenfalls nach Anforderung des Diagnosewerkzeugs personenspezifische Daten, insbesondere zum Alter,
Geschlecht und der ethnischen Flerkunft eingegeben hat. Es besteht auch die Möglichkeit, dass diese personenspezifischen Daten Teil eines Personenprofils sind, das bereits vor dem Start des Diagnosewerkzeugs vorliegt und von diesem verwendet werden kann.
Die personenspezifischen Daten können über das Eingabemittel 8 von der Testperson 11 vorgegeben werden. Das Diagnosewerkzeugs erwartet hierzu eine entsprechende Eingabe über das Eingabemittel 8, um anschließend anhand der erfolgten Eingabe die Daten 14 auszuwählen. Sofern jedoch in einer einfachen Variante des erfindungsgemäßen Diagnosewerkzeugs nur eine bestimmte Personengruppe, z.B. nur Erwachsene oder nur Kinder, können die Daten speziell auf diese Personengruppe abgestimmt sein und kann auf eine Eingabe der personenspezifischen Daten verzichtet werden. Vorzugsweise sind dann die Daten bzw. Einzelbilder und Einzelvideos geschlechtsneutral und ethnisch-kulturell neutral ausgewählt im Speicher 4 hinterlegt.
Das Sprachanalysemodul 21 ist eingerichtet, zunächst die Sprachsignal- Auslösesteuerung 21a auszuführen. Diese ist wiederum eingerichtet, aus den ersten Bilddaten 16 im Speicher 4 einen Satz 16a, 16b von Einzelbildern oder Einzelvideos, oder aus den Textdaten 17 im Speicher 4 einen Text 17a, 17b zu laden und auf der Bildwiedergabeeinrichtung 7 zur Anzeige zu bringen. Im Falle der Einzelbilder oder Einzelvideos erfolgt dies nacheinander.
Die Auswahl des Satzes 16a, 16b von Einzelbildern oder Einzelvideos oder Textes 17a, 17b erfolgt bevorzugt in Abhängigkeit der personenspezifischen Daten.
Besagen die personenspezifischen Daten, dass die Testperson 11 ein Kind ist bzw. dessen Alter unter einem bestimmten Grenzalter von z.B. 12 Jahren liegt, wird der Satz 16a, 16b von Einzelbildern oder Einzelvideos, anderenfalls der Text 17a, 17b geladen. Diese Bedingung kann noch mit der zusätzlich zu prüfenden Bedingung verknüpft sein, ob die Testperson 11 eine Leseschwäche aufweist, was ebenfalls Teil der personenspezifischen Daten sein kann. Liegt eine solche Leseschwäche vor, wird ebenfalls der Satz 16a, 16b von Einzelbildern oder Einzelvideos verwendet. Des Weiteren kann in Abhängigkeit des Geschlechts und/ oder der ethnischen Herkunft der Testperson 11 die Auswahl eines ersten Satzes 16a oder eines zweiten Satzes 16b an Einzelbildern oder Einzelvideos erfolgen, die in diesem jeweiligen Satz jeweils speziell auf die entsprechende Personengruppe zugeschnitten ist. Ferner kann in Abhängigkeit der ethnischen Herkunft oder der Landessprache der Testperson 11 ein erster Text 17a oder ein zweiter Text 17b ausgewählt werden, der jeweils an die entsprechende Personengruppe angepasst ist.
Die Auswertung der personenspezifischen Daten, genauer gesagt die Prüfung, ob die Testperson 11 das Grenzalter unterschreitet, eine Leseschwäche hat, welchen Geschlechts sie angehört, welche ethnische Herkunft sie hat oder welche Sprache die Testperson 11 spricht oder versteht, respektive die Auswahl des entsprechenden Satzes 16a, 16b von Einzelbildern oder Einzelvideos oder Textes 17a, 17b sind Verfahrensschritte, die die Sprachsignal-Auslösesteuerung 21a ausführt. Anschließend lädt sie den entsprechenden Satz 16a, 16b an Einzelbildern oder Einzelvideos oder den entsprechenden Text 17a, 17b aus dem Speicher 4 und steuert die Bildwiedergabeeinrichtung 7 derart an, dass die Einzelbilder oder Einzelvideos des Satzes 16a, 16b nacheinander oder der Text 17a, 17b auf der Bildwiedergabeeinrichtung 7 angezeigt werden.
Die Einzelbilder und Einzelvideos des Satzes 16a, 16b und der Text 17a, 17b sind dafür vorgesehen, eine sprachliche Äußerung von der Testperson 11 zu erhalten, nachfolgend Sprachsignal 26 genannt. Im Falle der Einzelbilder oder Einzelvideos ist vorgesehen, dass die sprachliche Äußerung eine Einzelwortbenennung des Objektes ist, das auf dem jeweiligen Einzelbild oder in dem jeweiligen Einzelvideo dargestellt ist. Im Falle des Textes 17a, 17b ist vorgesehen, dass die sprachliche Äußerung das Vorlesen dieses Textes 17a, 17b ist. Um dies der Testperson 11 zu vermitteln, kann vorgesehen sein, dass das Diagnosewerkzeug, insbesondere die übergeordnete Betriebssoftware 20 oder das Sprachanalysemodul 21 , vor der Wiedergabe der Einzelbilder oder Einzelvideos des Satzes 16a, 16b oder des Textes 17a, 17b eine entsprechende textliche oder verbale Flandlungsanweisung an die Testperson 11 ausgibt, beispielsweise über die Bildwiedergabeeinrichtung 7 und/ oder einen Lautsprecher.
Beispielsweise kann der Satz 16a, 16b sieben oder mehr Einzelbilder oder Einzelvideos umfassen. Die Wiedergabe der einzelnen Einzelbilder oder Einzelvideos kann jeweils für eine feste zeitliche Dauer erfolgen, z.B. jeweils für 5 oder 6s, so dass nach Ablauf dieser Dauer das nächste Einzelbild oder Einzelvideo wiedergegeben wird, bis alle Einzelbilder oder Einzelvideos wiedergegeben worden sind.
Gleichzeitig mit oder kurz vor Beginn der Wiedergabe der Einzelbilder oder Einzelvideos des Satzes 16a, 16b oder des Textes 17a, 17b auf der Bildwiedergabeeinrichtung 7 aktiviert die Sprachsignal-Auslösesteuerung 21a die Sprachaufzeichnungseinheit 21 b, um die Stimme der Testperson 11 als ein Sprachsignal 26 aufzunehmen. Hierzu schaltet die Sprachaufzeichnungseinheit 21b die Spracheingabeeinrichtung 5 (Mikrofon) ein, nimmt das zeitkontinuierliches Sprachsignal 26 oder Sprachsignale in einer Audioaufnahme 26 auf und speichert diese in einem Audiodatenspeicher 13a für aufzuzeichnende/ aufgezeichnete Sprachsignale ab. Die Audioaufnahme 26 selbst ist dabei digital, wobei eine Digitalisierung des Sprachsignals 26 bzw. dessen Abtastung (Sampling) bereits in der Spracheingabeeinrichtung 5 oder in einem dieser nachgelagerten Analog/ Digitalwandler erfolgen kann, der Teil der Verarbeitungseinheit 3 oder eines separaten digitalen Signalprozessors (DSP) sein kann. Der Audiodatenspeicher 13a kann Teil des nichtflüchtigen Speichers 4 sein. Er kann alternativ ein hierzu separater Speicher im Computersystem 2 oder ein zum Computersystem 2 separater Speicher sein, beispielsweise ein Speicher in einem Netzwerklaufwerk oder in einer Cloud.
Die Sprachaufzeichnungseinheit 21b kann eingerichtet sein, die Aufnahme nach einer festgelegten Dauer zu beenden, um eine Audioaufnahme 27 bestimmter zeitlicher Länge zu erhalten, beispielsweise bei Kindern durchschnittlich 45 Sekunden und bei Erwachsenen durchschnittlich 60 Sekunden. Anschließend kann auch die Spracheingabeeinrichtung 5 ausgeschaltet werden. Alternativ kann das Ausschalten dann erfolgen, wenn das Audiosignal der Spracheingabeeinrichtung 5 für eine bestimmte Zeit nach einem Sprachsignal 26 unterhalb eines bestimmten Grenzwerts liegt, d.h. die Testperson 11 nicht mehr redet.
Gemäß einer anderen Ausführungsvariante kann eine manuelle Auslösung und Beendigung der Audioaufnahme vorgesehen sein. Das Diagnosewerkzeug erhält in diesem Fall eine entsprechende Start- oder Stopp-Eingabe über das Eingabemittel 8.
Des Weiteren kann das Audiosignal für die Dauer der Wiedergabe der Einzelbilder, Einzelvideos oder des Texts ununterbrochen erfolgen, so dass die Aufnahme einmalig gestartet wird, nämlich zu Beginn der Wiedergabe, und einmalig beendet wird, nämlich am Ende der Widergabe. Es ist alternativ möglich, bei jedem Einzelbild oder Einzelvideo eine neue Audioaufnahme zu starten, so dass jedes Sprachsignal 26 in einer eigenen Audioaufnahme enthalten ist. So kann die Aufnahme vor oder zu Beginn der Widergabe jedes Einzelbildes oder Einzelvideos gestartet und anschließend, insbesondere nach Erhalt des Sprachsignals 26 der Testperson 11 beendet werden, entweder nach Ablauf einer festgelegten Zeitspanne oder wenn das Audiosignal der Spracheingabeeinrichtung 5 für eine bestimmte Zeit nach einem Sprachsignal 26 unterhalb eines bestimmten Grenzwerts liegt. Ein Beispiel solcher einzelnen Audioaufnahmen ist in Figur 9 dargestellt.
Figur 9 zeigt die Verläufe der Amplitude bzw. den Schalldruckpegel von acht einzelnen, in je einer Audioaufnahme aufgezeichneten Sprachsignalen 26 über der Zeit. Den Sprachsignalen 26 liegt jeweils ein einzelnes mehr oder weniger langes ausgesprochenes Wort zu Grunde. Die einzelnen Audioaufnahmen können zunächst einzeln weiterverarbeitet oder zu einer Gesamtaufnahme zusammengefasst werden, welche dann weiterverarbeitet wird. In Figur 8 ist die Gesamtheit der Audioaufnahmen mit der Bezugsziffer 27 versehen, unabhängig davon, ob es sich dabei um eine Anzahl einzelner Audioaufnahmen oder um eine einzige Gesamtaufnahme handelt.
Die Audioaufnahme(n) 27 wird/werden anschließend in dem Sprachsignalanalysator 21c ausgewertet, wobei Kennwerte 28 eines vokalen Biomarkers des aufgenommenen Sprachsignals 26 ermittelt werden, vergleiche Figur 8. Welche Sprache und welches Wort die Testperson 11 konkret gesprochen hat, ist hierfür indes ohne Bedeutung. Es kommt folglich nicht darauf an, ob die Benennung des Objekts auf dem jeweiligen Einzelbild oder Einzelvideo korrekt war.
Die Auswertung der Audioaufnahme(n) 27 durch den Sprachsignalanalysator 21c erfolgt dadurch, dass zunächst die vokalen Grundfrequenzen bzw. Tonhöhen in dem in der Audioaufnahme 27 enthaltenen Sprachsignal 26 mit Hilfe künstlicher Intelligenz über der Zeit geschätzt werden. Dies wird als Pitch-Spektrum bezeichnet. Der Sprachsignalanalysator 21c untersucht somit die tonale Grundstruktur des Sprachsignals 26 in der Audioaufnahme 27. Flierzu wird die Audioaufnahme 27 in einem „Deep Convolutional Neural Network“ - Algorithmus verarbeitet, der Teil des Sprachsignalanalysator 21c ist. Das Grundprinzip eines solchen Algorithmus ist in dem Fachaufsatz „Luc Ardaillon, Axel Roebe: Fully-Convolutional Network for Pitch Estimation of Speech Signals” Insterspeech 2019, Sep 2019, Graz, Austria, 10.21437/Interspeech, 2019-2815, hal-02439798“ beschrieben. Ein Beispiel eines Deep Convolutional Neural Network - Algorithmus zur Schätzung des Pitch- Spektrums ist CREPE (Convolutional Representation for Pitch Estimation), das auf einem 6 Faltungsebenen tiefen neuronalen Netzwerk beruht, das ein Audiosignal im Zeitbereich verarbeitet.
Der Deep Convolutional Neural Network - Algorithmus schätzt die Tonhöhe (engl. Pitch) des Audiosignals 26 zu jedem Zeitpunkt, insbesondere innerhalb eines konkreten Frequenzspektrums von 30Flz bis 1000Flz, das alle möglichen Töne der menschlichen Stimme umfasst. Der Verlauf der Tonhöhe über der Zeit wird als Pitch- Spektrum bezeichnet. Figur 10 zeigt die Pitch-Spektren für die acht einzelnen Audioaufnahmen aus Figur 9.
Erfahrungen haben gezeigt, dass die Berücksichtigung des Frequenzbereichs größer 600Flz zu keiner nennenswerten Verbesserung der Analyse des vokalen Biomarkers führt, so dass dieser Frequenzbereich vernachlässigt werden kann. Dies kann beispielsweise durch eine Bandpassfilterung erfolgen, bei der der Frequenzbereich von 30Flz bis 600Flz aus dem Sprachsignal 26 extrahiert wird. Vorzugsweise erfolgt das nach der Tonhöhenschätzung bzw. Ermittlung des Pitch-Spektrums, so dass der weitergehenden Analyse nur der relevante Teil der menschlichen Stimme zugrunde liegt. Flierzu kann ein digitaler Bandpassfilter auf die Audioaufnahme(n) 27 angewendet werden, der ebenfalls ein Bestandteil des Sprachsignalanalysator 21c ist. In einer Ausführungsvariante kann dieser Bandpassfilter feste Grenzfrequenzen aufweisen, insbesondere bei 30Hz und 600Hz. Alternativ kann der Bandpassfilter veränderliche Grenzfrequenzen besitzen, wobei vorgesehen ist, die Minimal- und Maximalfrequenz im Pitch-Spektrum zu bestimmen und anschließend den Bandpassfilter so zu konfigurieren, dass die untere Grenzfrequenz der ermittelten Minimalfrequenz und die obere Grenzfrequenz der ermittelten Maximalfrequenz entspricht.
Vor der Verarbeitung der Audioaufnahme im Deep Convolutional Neural Network - Algorithmus kann außerdem eine Filterung des Sprachsignals 26 derart erfolgen, dass Hintergrundgeräusche wie z.B. die Sprache anderer Personen als der Testperson 11 in dem Sprachsignal 26 eliminiert werden. Hierzu kann ein entsprechender digitaler Filter auf die Audioaufnahme(n) 27 angewendet werden, der ebenfalls ein Bestandteil des Sprachsignalanalysator 21c ist. Digitale Filter dieser Art sind an sich bekannt. Die Herausfilterung von Hintergrundgeräuschen erfolgt sinnvollerweise vor der Tonhöhenschätzung bzw. Ermittlung des Pitch-Spektrums, damit das Ergebnis dieser Schätzung nicht verfälscht wird.
Auf das Pitch-Spektrum der Audioaufnahme(n) wird anschließend eine Histogramm- Analyse angewendet. Ein Histogramm, das das Ergebnis dieser Analyse ist, zeigt Figur 11. Bei der Histogramm-Analyse wird der betrachtete Frequenzbereich, hier der Bereich zwischen 30Hz und 600Hz, in eine Anzahl n gleicher Abschnitte unterteilt, die jeweils einen Container bilden. Anschließend erfolgt eine Zuordnung jeder einzelnen, in der Audioaufnahme über derzeit ermittelten Tonhöhen zu dem entsprechenden Abschnitt bzw. Container. Dies entspricht einer bereichsbezogenen Aufsummierung der Vorkommnisse der einzelnen Tonhöhen. Mit anderen Worten wird für jeden Frequenzabschnitt ermittelt, wie häufig eine seiner Tonhöhen in der Audioaufnahme enthalten ist. Die ermittelte Anzahl jeweils aufsummierter Tonhöhen eines jeden Abschnitts wird anschließend durch die Anzahl insgesamt ermittelter Tonhöhen geteilt. Das Histogramm gibt somit in % an, wie häufig die Tonhöhen bzw. Frequenzen eines bestimmten Frequenzabschnitts in der Audioaufnahme vorkamen. In Falle mehrerer einzelner Audioaufnahmen, wie sie in Figur 9 gezeigt sind, wird hierzu die Gesamtheit aller Audioaufnahmen bzw. die Gesamt aller Pitch-Spektren (Figur 10) betrachtet. Im vorliegenden Beispiel wurde der relevante Frequenzbereich in 12 Abschnitte unterteilt, wobei es auch weniger oder mehr sein können.
Beispiel: Tritt eine Tonhöhe von 320Hz in der Audioaufnahme 27 auf, wird diese dem 7. Abschnitt zugeordnet. Tritt eine weitere Tonhöhe bei 280Hz auf, wird diese dem 6. Abschnitt zugeordnete. Eine Tonhöhe von 340Hz wird erneut dem 7. Abschnitt zugeordnet usw. Tritt dieselbe Tonhöhe, z.B. 320Hz, ein weiteres Mal auf, erfolgt eine erneute Zuordnung zum 7. Abschnitt. Würde es bei diesen vier Tonhöhen bleiben, hätte der 6. Abschnitt eine und der 7. Abschnitt drei Zuordnungen, so dass sich für den Frequenzbereich zwischen 250Hz und 300Hz (6. Abschnitt) eine Häufigkeit von 25% und für den für den Frequenzbereich zwischen 300Hz und 350Hz (7. Abschnitt) eine Häufigkeit von 75% ergibt. Ein Histogramm veranschaulicht diese Häufigkeiten.
In dem Tonhöhen-Histogramm in Figur 11 ist beispielsweise der Frequenzbereich zwischen 200Hz und 250Hz (5. Abschnitt) mit einer Häufigkeit von ca. 13%, der Frequenzbereich zwischen 250Hz und 300Hz (6. Abschnitt) mit einer Häufigkeit von ca. 23,5%, der Frequenzbereich zwischen 300Hz und 350Hz (7. Abschnitt) mit einer Häufigkeit von ca. 26% und der Frequenzbereich zwischen 350Hz und 400Hz (8. Abschnitt) mit einer Häufigkeit von ca. 14% vertreten.
Figuren 12 und 13 zeigen jeweils ein weiteres Tonhöhen-Histogramm als Ergebnis einer Histogramm-Analyse. Dabei gehört das Histogramm in Figur 12 zu einem Sprachsignal einer nachweislich autistischen Testperson 11, wohingegen das Histogramm in Figur 13 zu einem Sprachsignal einer nachweislich nicht autistischen Referenzperson gehört. Das Histogramm liefert eine Aussage über die Tonhöhenvariabilität in der Stimme der Testperson 11 , was ein objektiver Biomarker zur Abgrenzung einer autistischen Person 11 gegenüber einer Referenzperson ohne Autismus ist. Wie die Figuren 12 und 13 im Vergleich miteinander veranschaulichen, variiert die Stimme bezüglich ihrer Tonhöhe bei einer nicht autistischen Person weniger stark, sie ist mehr auf bestimmte Frequenzen beschränkt. Die verwendeten Frequenzen liegen hier in einem vergleichsweise schmalen Frequenzband, nämlich zwischen 250 Hz und 400Hz, und haben dort einen deutlichen Peak, nämlich bei ca. 300 Hz, siehe Figur 13. Demgegenüber ist die Variabilität der Tonhöhe der Stimme bei einer autistischen Person stärker, wie Figur 11 zeigt. Hier erstrecken sich die dominanten Frequenzen über ein deutlich breiteres Frequenzband, nämlich zwischen 50 Hz und 350Hz, siehe Figur 12, und deren Verteilung ist gleichmäßiger, d.h. sie weist keinen deutlich ausgeprägten Peak auf.
Diese Erkenntnis belegen auch die Histogramme autistischer Testpersonen in Figur 14 im Vergleich zu den Histogrammen nicht-autistischer Referenzpersonen in Figur 15. Figuren 14 und 15 zeigen jeweils vier Histogramme. Man erkennt deutlich, dass autistische Personen ein breiteres Tonspektrum verwenden,
Das Tonhöhen-Histogramm kann als vokaler Biomarker verstanden werden. Die Kennwerte dieses Biomarkers sind in diesem Fall durch die Auftrittshäufigkeiten der n Frequenzabschnitte gebildet. Mit anderen Worten liefert die Histogramm-Analyse gemäß Figur 11 zwölf Kennwerte, d.h. für jeden Frequenzabschnitt eine Auftrittshäufigkeit. Das Histogramm bzw. die Kennwerte dieses Biomarkers kann / können anschließend in einer Vorab-Bewertungseinheit 24a daraufhin ausgewertet werden, ob die Testperson 11 nicht autistisch ist, vergleiche Figur 8. Dies ist mit einer Sicherheit von mehr als 95% feststellbar. Der vokale Biomarker ist aber alleine nicht aussagekräftig genug, um eine eindeutig positive Diagnose von Autismus vornehmen zu können, so dass weitere Untersuchungen erforderlich sind, wie sie nachfolgend erläutert werden. Das Ergebnis der Vorab-Bewertungseinheit 24a ist somit die Zwischendiagnose 33, dass die Testperson 11 eindeutig nicht-autistisch ist, oder weiter untersucht werden muss.
Die Vorab-Bewertungseinheit 24a kann ebenfalls Teil des Sprachanalysemoduls 21 sein, vgl. Figur 3, oder aber durch die Gesamtbewertungseinheit 24 gebildet sein, die für die Zwischendiagnose 33 verwendet wird. Es sei angemerkt, dass die Zwischendiagnose 33 durch die Vorab-Bewertungseinheit 24a nicht zwingend erforderlich ist. Vielmehr kann vorgesehen sein, dass jede Testperson 11 alle vom Diagnosewerkzeug angebotenen Analysen durchführt.
Die Vorab-Bewertungseinheit 24a ist ein Algorithmus, der die Kennwerte mit einer multidimensionalen Ebene, auch Hyperebene genannt, vergleicht, die bildlich gesprochen, eine Grenzfläche zwischen Testpersonen mit und Testpersonen ohne Autismus in einem multidimensionalen Datenraum bildet. Der Algorithmus kann ein Machine-Learning-Algorithmus oder vorzugsweise eine Support Vector Machine (SVM) sein. Derartige Algorithmen sind allgemein bekannt, beispielsweise aus Böser, Bernhard E.; Guyon, Isabelle M.; Vapnik, Vladimir N. (1992). "A training algorithm for optimal margin classifiers". Proceedings of the fifth annual workshop on Computational learning theory - COLT '92. p. 144, oder Fradkin, Dmitriy; Muchnik, llya (2006). "Support Vector Machines for Classification". In Abello, J.; Carmode, G. (eds.). Discrete Methods in Epidemiology. DIMACS Series in Discrete Mathematics and Theoretical Computer Science. 70. pp. 13-20. Dabei handelt es sich um ein Modell, das mit Datensätzen vokaler Biomarker einer Vielzahl an Referenzpersonen mit und ohne Autismus trainiert worden ist, so dass das Modell die ermittelten Kennwerte 28 des vokalen Biomarkers der Testperson 11 mit hoher Genauigkeit einer Person mit Autismus oder einer Person ohne Autismus zuordnen kann, wobei die Zuordnungsgenauigkeit bei Testpersonen 11 ohne Autismus mehr als 95% beträgt.
Ist der Ergebnis der Zwischendiagnose 33, dass die Testperson 11 nicht eindeutig nicht autistisch ist, oder wird auf eine Zwischendiagnose 33 verzichtet, folgt nach der Analyse des vokalen Biomarkers die Analyse eines weiteren Biomarkers, entweder in Gestalt der Reaktionszeit der Testperson 11 auf einen Emotionsstimulus, oder in Gestalt der Blickrichtung der Testperson 11 , wobei bevorzugt beide genannten weiteren Biomarker analysiert werden, und wobei es auf eine bestimmte Reihenfolge nicht ankommt.
Gemäß einer Ausführungsvariante aktiviert die Betriebssoftware 20 nach dem Sprachanalysemodul 21 das Emotionsanalysemodul 22, siehe Figur 7. Dies kann automatisch oder aufgrund einer entsprechenden Eingabe der Testperson 11 erfolgen, die das Diagnosewerkzeug erwartet. Das Emotionsanalysemodul 22 umfasst eine Emotions-Auslösungssteuerung 22a, eine
Emotionsbeobachtungseinheit 22b und eine Reaktionsbewertungseinheit 22c, vgl. Figur 4. Das Emotionsanalysemodul 22 misst die Reaktionszeit der Testperson 11 auf einen emotionalen Stimulus, der bei der Testperson 11 durch die Darstellung ausgewählter Bilddaten 18 in Gestalt von Einzelbildern oder Einzelvideos auf der Bildwiedergabeeinrichtung 7 ausgelöst wird, wobei die Messung unter Anwendung einer Gesichtserkennungssoftware und mitfühlender künstlicher Intelligenz (compassionate AI) erfolgt, die in der Lage ist, bestimmte Emotionen in einem Gesicht zu erkennen. Vorzugsweise handelt es sich bei dieser künstlichen Intelligenz um ein sogenanntes „Deep Learning Modell“, das mit repräsentativen Datensätzen zu den zu stimulierenden Emotionen trainiert wurde.
Das Emotionsanalysemodul 22 startet hierzu in einem ersten Schritt die Emotions- Auslösungssteuerung 22a. Diese ist eingerichtet, einen Satz 18a, 18b von Bilddaten 18 aus dem Speicher 4 zu laden und auf der Bildwiedergabeeinrichtung 7 anzuzeigen bzw. anzeigen zu lassen. Wie beim Sprachanalysemodul 21 kann die Auswahl eines Satzes 18a, 18b aus mehreren Sätzen in Abhängigkeit der zuvor genannten personenspezifischen Daten erfolgen, so dass Kinder, oder Mädchen oder Personen einer ersten ethnischen Herkunft einen ersten Satz 18a der Bilddaten 18, und Erwachsene, oder Jungen oder Personen einer zweiten ethnischen Herkunft einen zweiten Satz 18b der Bilddaten 18 gezeigt bekommen. Bei diesen Bilddaten 18 handelt es sich um eine Anzahl an Einzelbildern oder Einzelvideos, die nacheinander auf der Bildwiedergabeeinrichtung 7 gezeigt werden. Ihr Inhalt ist so gewählt, dass er bei der Testperson eine emotionale Reaktion in Gestalt von Freude, Heiterkeit, Trauer, Angst oder Wut auslöst.
Geeigneterweise umfasst der Bilddatensatz 18 insgesamt 6 Einzelbildern und/ oder Einzelvideos die jeweils eine gleiche Anzahl an positiven Emotionen wie Freude oder Heiterkeit und negativen Emotionen wie Trauer, Angst oder Wut stimulieren.
Zeitgleich oder kurz vor der Wiedergabe des ersten Einzelbildes oder Videos aktiviert die Emotions-Auslösungssteuerung 22a die Emotionsbeobachtungseinheit 22b, welche wiederum die Bildaufnahmeeinrichtung 7 aktiviert, um das Gesicht der Testperson 11 bzw. deren Gesichtsausdruck zu erfassen, gegebenenfalls, zumindest temporär, auch aufzunehmen. Die Emotionsbeobachtungseinheit 22b kann in einer Ausführungsvariante eingerichtet sein, das erfasste Gesicht in einer Videoaufnahme aufzuzeichnen und „offline“ zu analysieren, d.h. nachdem der gesamte Satz 18a, 18b an Einzelbildern oder Videos gezeigt worden ist. Alternativ kann eine Echtzeit- Auswertung des von der Bildaufnahmeeinrichtung 7 erfassten Gesichts erfolgen, so dass keine Videoaufnahme abgespeichert werden muss. In Figur 8 ist eine Videoaufnahme 29 dargestellt, die das Ausgangssignal der Bildaufnahmeeinrichtung 7 repräsentiert und entweder eine abgespeicherte Videoaufnahme oder eine Echtzeitaufnahme sein kann, welche der Emotionsbeobachtungseinheit 22b signaltechnisch zugeführt wird.
Die Emotions-Auslösungssteuerung 22a kann mit jeder Wiedergabe eines neuen Einzelbildes oder Einzelvideos eine Startzeitmarke t1 , t2, t3, t4 setzen, die später als Referenz dient. Figur 16 veranschaulicht dies anhand von vier Einzelvideos 18a1, 18a2, 18a3, 18a4 des ersten Satzes 18a der Bilddaten 18, die nacheinander gezeigt werden. Die genannte Gesichtserkennungssoftware mit mitfühlender künstlicher Intelligenz ist Bestandteil der Emotionsbeobachtungseinheit 22b, die die Videoaufnahme 29 daraufhin auswertet, wann sich die Gesichtszüge der Testperson 11 über ein Maß verändern, das eindeutig einer emotionalen Reaktion, insbesondere einer bestimmten erwarteten Emotion zuzuordnen ist. In jedem dieser erkannten Fälle, setzt die Emotionsbeobachtungseinheit 22b eine Reaktionszeitmarke E1, E2, E4. Aus der Differenz zwischen der jeweiligen Reaktionszeitmarke E1, E2, E3, E4 und der entsprechenden zuvor gesetzten Startzeitmarke t1 , t2, t3, t4 als Referenz wird dann für jede der stimulierten Emotionen die Reaktionszeit R1 , R2, R4 ermittelt (Ri = Ei - ti, mit i = 1 , 2, 4). Dies erfolgt in der Reaktionsbewertungseinheit 22c. Bei dem in Figur 16 gezeigten Beispiel ist angenommen, dass die Testperson 11 bei dem dritten Einzelvideo 18a3 keine oder keine ausreichende Emotion zeigt, so dass hier auch keine Reaktionszeitmarke gesetzt werden konnte.
Die der Wiedergabe der einzelnen Einzelbilder oder Einzelvideos 18a1, 18a2, 18a3, 18a4 durch die Emotions-Auslösungssteuerung 22a kann für eine bestimmte festgelegte Dauer erfolgen, wobei die einzelnen Dauern gleich oder unterschiedlich sein können. Somit wird das nächste Einzelbild oder Video gezeigt, wenn die Dauer des vorherigen Bildes abgelaufen ist. Alternativ oder zusätzlich kann das nächste Einzelbild oder Einzelvideo gezeigt werden, sobald oder kurz nachdem die Emotionsbeobachtungseinheit 22b eine Emotion erkannt hat. In diesem Fall gibt die Emotionsbeobachtungseinheit 22b eine Rückmeldung an die Emotions- Auslösungssteuerung 22a, um das nächste Einzelbild oder Einzelvideo zu zeigen.
Da jedoch die Gefahr besteht, dass eine bestimmte Emotion bei der Testperson 11 gar nicht ausgelöst wird, bildet die Beendigung der Wiedergabe eines Einzelbildes oder Einzelvideos nach der entsprechenden Dauer eine notwenige Rückfallposition. Das Nichtstimulieren einer Emotion wird in diesem ebenfalls von der Reaktionsbewertungseinheit 22c vermerkt, z.B. mit dem Wert null.
In einer Ausführungsvariante kann vorgesehen sein, dass die Emotions- Auslösungssteuerung 22a anstelle der Startzeitmarken einen Timer auslöst, wobei anstelle des Setzens der Reaktionszeitmarken die Emotionsbeobachtungseinheit 22b bei der Erkennung einer Emotion den Timer wieder stoppen kann. Der Timerstand wird dann von der Reaktionsbewertungseinheit 22c ausgelesen und abgespeichert, da er die jeweilige Reaktionszeit auf die jeweils stimulierte Emotion darstellt. Sofern eine bestimmte Emotion bei der Testperson 11 nicht ausgelöst wird, kann mit der Wiedergabe des nächsten Einzelbildes oder Einzelvideos oder dem Ende der Wiedergabedauer des letzten Einzelbildes oder Einzelvideos ein Reset des Timers erfolgen. Auch dieser Fall der Nichtstimulierung einer Emotion wird von der Reaktionsbewertungseinheit 22c vermerkt.
Zusätzlich zu der Feststellung einer emotionalen Reaktion kann die Emotionsbeobachtungseinheit 22b eingerichtet sein festzustellen, ob eine positive oder negative Emotion bei der Testperson 11 stimuliert wurde. Diese Feststellung, nachfolgend Reaktionsart genannt, kann in Form einer binären Information +1 oder - 1 dargestellt und mit der entsprechenden Reaktionszeit R1 , R2, R4 verknüpft werden. Sie dient der Plausibilitätsprüfung bzw. ermöglicht, die Kongruenz der emotionalen Reaktion auf die stimulierte Emotion festzustellen.
Es kann somit zusätzlich vorgesehen sein, anhand der Reaktionsart festzustellen, ob die Testperson 11 eine auf die Stimulation zu erwartende Reaktion zeigt. Dies ist in Figur 16 anhand eines Kongruenzindikators K1, K2, K3, K4 veranschaulicht. Dieser ergibt sich aus dem Ergebnis eines Vergleichs, ob die festgestellte Reaktionsart, der stimulierten Emotion entspricht. Dieser Vergleich kann ebenfalls von der Reaktionsbewertungseinheit 22c durchgeführt werden. Sind die Reaktionsart und die stimulierte Emotion jeweils positiv oder jeweils negativ, besteht Kongruenz bzw. Übereinstimmung. Diesen Fall kann der Kongruenzindikator mit dem Wert 1 anzeigen. Bezogen auf Figur 16 reagiert die Testperson 11 auf die durch die ersten beiden Einzelbilder oder Einzelvideos 18a1, 18a2 stimulierten Emotionen erwartungsgemäß, so dass der erste und zweite Kongruenzindikator K1 , K2 jeweils den Wert 1 besitzen. Sind die Reaktionsart und die stimulierte Emotion unterschiedlich, fehlt es an einer Kongruenz bzw. Übereinstimmung. Diesen Fall kann der Kongruenzindikator mit dem Wert 0 oder -1 anzeigen. In Figur 16 ist der Wert -1 gewählt, damit mit dem Kongruenzindikatorwert 0 angezeigt werden kann, dass keine Reaktion erfolgt ist. Dies ist bei dem dritten Einzelbild oder Einzelvideo 18a3 der Fall, bei dem der dritte Kongruenzindikator K3 = 0 ist. In dem Beispiel in Figur 16 reagiert die Testperson 11 auf die durch das vierte Einzelbild oder Einzelvideo 18a4 stimulierte Emotion unerwartet. Hier stimmt die Art der emotionalen Reaktion nicht mit der stimulierten Emotion überein, so dass der vierte Kongruenzindikator K4 den Wert -1 besitzt. Alternativ zu der vorstehend beschriebenen Variante mit Einzelbildern und/ oder Einzelvideos kann vorgesehen sein, dass ein einziges Video von der Emotions- Auslösungssteuerung 22a auf der Bildwiedergabeeinrichtung 7 gezeigt wird, welches die einzelnen Emotionsstimuli zu bestimmten, der Emotions-Auslösungssteuerung 22a bekannten Zeiten enthält. Somit ist das Setzen von Startzeitmarken nicht erforderlich.
Das Emotionsanalysemodul 22 liefert somit für eine Anzahl bei der Testperson 11 stimulierter Emotionen je eine Reaktionszeit Ri, eine Reaktionsart (positive oder negative Emotion, +1, -1) und einen Kongruenzindikator (Werte -1, 0, +1), die in ihrer Gesamtheit die Kennwerte 30 des zweiten Biomarkers bilden, in Figur 8 „Emotionsantwort- Biomarker“ genannt. Nachfolgend ist eine Tabelle dieser Kennwerte dargestellt:
Nach der Ermittlung der Kennwerte 30 des zweiten Biomarkers durch das Emotionsanalysemodul 22 aktiviert die Betriebssoftware 20 das Blickrichtungsanalysemodul 23, das für die Ermittlung von Kennwerten 32 eines dritten Biomarkers der Testperson 11 zuständig ist, siehe Figur 7. Dies kann automatisch oder aufgrund einer entsprechenden Eingabe der Testperson 11 erfolgen, die das Diagnosewerkzeug erwartet. Das Blickrichtungsanalysemodul 23 umfasst eine Blickrichtungslenkung 23a und eine Blickrichtungsbeobachtungseinheit 23b, vgl. Figur 5. Das Blickrichtungsanalysemodul 23 misst und verfolgt die Blickrichtung der Testperson 11 , während sie auf die Bildwiedergabeeinrichtung 7 blickt. Die Bildaufnahmeeinrichtung 6 ist dabei sinnvollerweise relativ zur Bildwiedergabeeinrichtung 7 so angeordnet, dass sie das Gesicht der Testperson 11 erfasst. Das Blickrichtungsanalysemodul 23 startet hierzu in einem ersten Schritt die Blickrichtungslenkung 23a. Diese ist eingerichtet, wenigsten ein Einzelbild 19a oder Video der Bilddaten 16, 18 19 aus dem Speicher 4 zu laden und auf der Bildwiedergabeeinrichtung 7 anzuzeigen bzw. anzeigen zu lassen. Wie beim Sprachanalysemodul 21 und Emotionsanalysemodul 22 kann die Auswahl des wenigstens einen Einzelbildes 19a oder Videos in Abhängigkeit der zuvor genannten personenspezifischen Daten erfolgen.
Um den Blick der Testperson 11 zu lenken, sind verschiedene Ausführungsvarianten denkbar. Im Falle eines Einzelbildes19a wird dieses kleiner auf der Bildwiedergabeeinrichtung 7 wiedergegeben, als ihre Gesamtfläche oder Auflösung ermöglicht, so dass das Einzelbild 19a nur einen Teil des Wiedergabeschirms der Bildwiedergabeeinrichtung 7 ausfüllt. Es wird dann in dieser Form von der Blickrichtungslenkung 23a zeitlich nacheinander an unterschiedlichen Positionen des Wiedergabeschirms dargestellt, wobei das Einzelbild 19a diskret an diesen Positionen nacheinander erscheinen oder kontinuierlich von Position zu Position entlang eines kontinuierlichen Pfads bewegt werden kann. Diese Variante ist in Figur 17 veranschaulicht.
Im Falle des diskreten Erscheinens können anstelle eines einzigen Einzelbildes auch zwei oder mehr unterschiedliche Einzelbilder der Bilddaten 16, 18 19 aus dem Speicher 4 geladen und abwechselnd oder zufällig auf verschiedenen Bildschirmpositionen der Bildwiedergabeeinrichtung 7 wiedergegeben werden.
Ferner ist es möglich, anstelle des oder der Einzelbilder ein oder mehrere Videos zu verwenden, dessen oder deren Wiedergabe auf den einzelnen Positionen nacheinander erfolgt. Somit ist auch die Wiedergabegröße dieses Videos oder dieser Videos kleiner als die Gesamtfläche oder Auflösung der Bildwiedergabeeinrichtung 7.
Die Testperson 11 ist dabei gehalten, dem Wiedergabeort des Einzelbildes oder der Einzelbilder aufmerksam zu folgen. Flierzu kann das Diagnosewerkzeug vorab eine entsprechende Aufforderung auf der Bildwiedergabeeinrichtung 7 oder über einen Lautsprecher ausgeben. Anstelle des einen oder der mehreren Einzelbilder kann die Blickrichtungslenkung 23a ein Video auf der Bildwiedergabeeinrichtung 7 zeigen, und zwar vollflächig, welches derart ausgestaltet ist, den Blick der Testperson 11 über die Bildwiedergabeeinrichtung 7 entlang eines bestimmten Pfades zu lenken. Hierzu kann das Video beispielsweise ein sich gegenüber einem stationären Hintergrund bewegendes Objekts enthalten, wie z.B. ein sich in einem Aquarium bewegender Clownfisch. Alternativ können in dem Video an räumlich unterschiedlichen Stellen zeitlich nacheinander Geschehnisse Vorkommen, die die Aufmerksamkeit der Testperson anziehen. In diesen Fällen benötigt die Blickrichtungslenkung 23a folglich nur dieses eine Video.
Zeitgleich oder kurz vor der Wiedergabe des Einzelbildes oder Videos aktiviert die Blickrichtungslenkung 23a die Blickrichtungsbeobachtungseinheit 23b, welche wiederum die Bildaufnahmeeinrichtung 7 aktiviert, um das Gesicht der Testperson 11 bzw. deren Blickrichtung zu erfassen, gegebenenfalls, zumindest temporär, auch aufzunehmen. Blickrichtungsanalysemodul 23 kann in einer Ausführungsvariante eingerichtet sein, das erfasste Gesicht in einer Videoaufnahme aufzuzeichnen und „offline“ zu analysieren, d.h. nachdem das wenigstens eine Einzelbild oder Video gezeigt worden ist. Bevorzugt erfolgt jedoch eine Echtzeit-Auswertung der Blickrichtung des von der Bildaufnahmeeinrichtung 7 erfassten Gesichts, so dass keine Videoaufnahme dauerhaft abgespeichert werden muss. In Figur 8 ist eine Videoaufnahme 31 dargestellt, die das Ausgangssignal der Bildaufnahmeeinrichtung 7 repräsentiert und entweder eine abgespeicherte Videoaufnahme oder eine Echtzeitaufnahme sein kann, welche der Blickrichtungsbeobachtungseinheit 23b signaltechnisch zugeführt wird.
Die Blickrichtungsbeobachtungseinheit 23b ist durch eine Eye-Tracking Software auf Basis künstlicher Intelligenz gebildet. Eine solche Software ist wohl bekannt, beispielsweise aus Krafka K, Khosla A, Kellnhofer P, Kannan H., „Eye Tracking for Everyone“, IEEE Conference on Computer Vision and Pattern Recognition. 2016; 2176-2184. Sie ermittelt die Blickrichtung der Testperson 11 in Form von x, y Koordinaten des Augenfokus zu jedem Zeitpunkt und abspeichert sie ab, so dass sich über derzeit ein Blickrichtungspfad 35 ergibt, wie er in Figur 18 dargestellt ist. Dieser repräsentiert die Kennwerte 32 des dritten Biomarkers, nachfolgend Blickrichtungs-Biomarker genannt, vgl. auch Figur 8. Die Koordinaten können solche des realen Raumes oder bezogen auf die Wiedergabefläche der Bildwiedergabeeinrichtung 7 sein.
Wie Figur 8 zeigt, werden die Kennwerte 28, 30, 21 der drei Biomarker, genauer gesagt des vokalen Biomarkers, des Emotionsantwort-Biomarkers und des Blickrichtungs-Biomarkers, einer Gesamtergebnisbewertungseinheit 24 zugeführt, die Bestandteil des erfindungsgemäßen Diagnosewerkzeugs ist und die die Kennwerte 28, 30, 21 der Biomarker kombiniert. Wie die Vorab-Bewertungseinheit 24a, ist die Gesamtergebnisbewertungseinheit 24 ein Algorithmus auf Basis künstlicher Intelligenz und in Form eines Modells, das mit Datensätzen der drei Biomarker einer Vielzahl an Referenzpersonen mit und ohne Autismus trainiert worden ist. Genau betrachtet handelt es sich bei dem Algorithmus um einen
Klassifizierungsalgorithmus, der die Biomarker der Testperson mit einem gewissen Wahrscheinlichkeitsgrad als „autistisch“ oder „nicht-autistisch“ klassifiziert. Der Algorithmus kann ein Machine-Learning-Algorithmus oder vorzugsweise eine Support Vector Machine (SVM) sein. Er vergleicht die Gesamtheit aller Kennwerte 28, 30, 21 der drei Biomarker gleichzeitig mit einer eine Grenzfläche zwischen Testpersonen mit und Testpersonen ohne Autismus in einem multidimensionalen Datenraum bildenden Flyperebene, um eine Zuordnung der Gesamtheit der durch die Kennwerte gebildeten Daten entweder zu einer Referenzgruppe aus Personen mit Autismus oder zu einer Referenzgruppe aus Personen ohne Autismus zu erhalten. In Abhängigkeit dieses Zuordnungsergebnisses erfolgt dann als Diagnose 34, dass die Testperson 11 mit einer gewissen Wahrscheinlichkeit autistisch oder nicht autistisch ist.
Durch die unterstützende Verwendung des erfindungsgemäßen Diagnosewerkzeugs in der Diagnose von Autismus kann mit einer Genauigkeit von mehr als 95% festgestellt werden, ob eine Testperson 11 an Autismus leidet. Dabei führt die Auswertung der Biomarker zu einem robusten und vor allem objektiven Ergebnis. Unter der Vielzahl von Personen, die potentiell an Autismus leiden und darauf warten, von einem medizinischen Experten diagnostiziert zu werden, kann durch die Verwendung des Diagnosewerkzeugs ein Beitrag zum Abbau des Diagnoserückstaus erreicht und die Entscheidung erleichtert werden, welche Patenten für die Diagnose durch den medizinischen Experten vorgezogen werden sollten.
Dabei ist ein besonderer Vorteil des Diagnosewerkzeugs, dass sowohl Erwachsene als auch Kinder mit ihm untersucht werden können und die Verwendung des Diagnosewerkzeugs von fast überall und jederzeit möglich ist, insbesondere von zu Hause aus.
Wie in Bezug zu Figur 1 erläutert, ist das softwarebasierte Diagnosewerkzeug Teil eines Diagnosesystems 1. Dieses kann in einer ersten Ausführungsvariante ein Computersystem 2 mit daran angeschlossenen Peripheriegeräten sein, insbesondere einem Mikrofon 5, einer Kamera 6, einem Display/ Monitor und einem Eingabemittel 8. Das Computersystem 2 selbst kann ein Personal Computer mit einem nicht flüchtigen Speicher 4 sein, in dem das Diagnosewerkzeug bestehend aus den zuvor genannten Softwarekomponenten bzw. -module und Daten abgespeichert ist.
In einer zweiten Ausführungsvariante, die in Figur 2 gezeigt ist, kann das Computersystem 2 als Server fungieren, der über das Internet 9 mit einem externen, insbesondere mobilen Gerät 12 erreichbar ist. Die Peripheriegeräte 5, 6, 7, 8 sind in diesem Fall Bestandteil des externen Geräts, das beispielsweise ein Smartphone oder ein Tablet ist. Das Diagnosewerkzeug ist in diesem Fall nach wie vor durch die in dem Speicher 4 des Computersystems 2 gespeicherten Softwarekomponenten bzw. -module und Daten gebildet.
In einer dritten Ausführungsvariante, die in Figur 6 veranschaulicht ist, kann das Diagnosewerkzeug verteilt angeordnet sein, genauer gesagt teilweise in dem Computersystem 2 und teilweise in dem externen Gerät 12 ausgebildet sein. Diese Ausführungsvariante realisiert eine offline Analyse der Biomarker. So kann in dem externen Gerät 12 ein nichtflüchtiger Speicher 4‘ sowie ein hier nicht dargestellter Prozessor vorhanden sein. In dem nichtflüchtigen Speicher 4‘ sind die Bilddaten 16, 18, 19 und die Textdaten 17 einerseits sowie ein Teil 20' der Betriebssoftware und diejenigen Komponenten 21a, 21b, 22a, 23a der Analysemodule 22, 22, 23 gespeichert, die keine hohe Rechenleistung und keinen besonderen Anforderungen an den Prozessor, z.B. einen mehrkernigen Prozessor stellen. Im Speicher 4' ist vom Sprachanalysemodul 21 die Sprachsignal-Auslösesteuerung 21a und die Sprachaufzeichnungseinheit 21b. Sie führen dasselbe Verfahren aus, wie zuvor erläutert, wobei ein Unterschied allerdings darin besteht, dass die Audioaufnahme 27 in dem Audiodatenspeicher 13a gespeichert und nicht auf dem externen Gerät 12 analysiert wird. Außerdem ist im Speicher 4‘ vom Emotionsanalysemodul 22 die Emotions-Auslösesteuerung 22a und vom Blickrichtungsanalysemodul 23 die Blickrichtungslenkung 23a hinterlegt. Diese führen ebenfalls jeweils dasselbe Verfahren aus, wie zuvor erläutert, wobei ein Unterschied darin besteht, dass während der jeweiligen Widergabe der Bilder oder des Bildes eine Videoaufnahme 29, 31 erfolgt, die in dem Videodatenspeicher 13b gespeichert und nicht auf dem externen Gerät 12 analysiert wird. Für die Aufnahme der Videoaufnahmen 29, 31 ist in dem Speicher 4‘ außerdem, analog zur Sprachaufzeichnungseinheit 21b eine Videoaufzeichnungseinheit 25 vorhanden.
Demgegenüber sind seitens des Computersystems 2 in dessen Speicher 4 neben einem zweiten Teil 20' der Betriebssoftware lediglich diejenigen Komponenten der Analysemodule 21 , 22, 23 vorhanden, die die eigentliche Analyse der Biomarker durchführen, nämlich der Sprachsignalanalysator 21 c des Sprachanalysemoduls 21 , die Emotionsbeobachtungseinheit 22b und die Reaktionsbewertungseinheit 22c des Emotionsanalysemoduls 22 und die Blickrichtungsbeobachtungseinheit 23b des Blickrichtungsanalysemoduls 23. Schließlich ist aber auch die Gesamtergebnisbewertungseinheit im Speicher 4 vorhanden. Des Weiteren sind im Speicher 4 des Computersystems 2 auch ein Audiodatenspeicher 13a und ein Videodatenspeicher 13b vorgesehen, in welche die auf dem externen Gerät 12 gespeicherten Audio- und Videoaufnahmen 27, 29, 31 übertragen werden. Dies kann jeweils unmittelbar nach der Abspeicherung der entsprechenden Aufnahme erfolgen oder aber erst nachdem alle Aufnahmen erfolgt sind. Die Auswertung der einzelnen Biomarker und die gemeinsame Bewertung ihrer Kennwerte erfolgt dann weiterhin auf dem Computersystem.
In einer nicht dargestellten, vierten Ausführungsvariante kann in Weiterbildung der dritten Variante vorgesehen sein, dass auch die analysierenden Komponenten 21c, 22b, 22c, 23b der Analysemodule 21, 22, 23 im externen Gerät 12 angeordnet sind, so dass die Ermittlung der Kennwerte 28, 30, 32 der Biomarker ebenfalls im externen Gerät 12 erfolgt. Im Ergebnis werden dann lediglich diese Kennwerte 28, 30, 31 an das Computersystem 2 übertragen, wo sie entsprechend mit der Gesamtergebnisbewertungseinheit 24 gemeinsam ausgewertet werden. Dies ist aus Datenschutzgründen vorteilhaft, weil die Kennwerte der Biomarker keine Identifizierung der Testperson ermöglichen.
In einer fünften Ausführungsvariante ist vorgesehen, dass das Diagnosewerkzeug vollständig im externen Gerät 12 angeordnet ist, so dass das Diagnosesystem 1 nur aus diesem externen Gerät 12 mit den darin bereits integrierten Peripheriegeräten 5, 6, 7, 8 und dem darauf gespeicherten Diagnosewerkzeug gebildet ist. Das Diagnosewerkzeug kann dabei in einer Applikation, kurz App genannt, implementiert sein und auf einem entsprechenden Prozessor des externen Geräts ausgeführt werden. Vorzugsweise ist das externe Gerät ein Smartphone oderTablet.
Bezugszeichenliste Diagnosesystem Computersystem/ Server Verarbeitungseinheit/ Prozessor , 4‘ nichtflüchtiger Speicher Spracheingabeeinrichtung/ Mikrofon Bildaufnahmeeinrichtung/ Kamera Bildwiedergabeeinrichtung/ Display Eingabemittel/ Bedientasten Netzwerk/ Internet 0 Schnittstelle 1 Testperson 2 externes ggf. mobiles Endgerät, Tablet/ Smartphone/ Laptop 3a Audiodatenspeicher für aufzuzeichnende/ aufgezeichnete Sprachelemente3b Videodatenspeicher für aufzuzeichnende/ aufgezeichnete Videoaufnahmen4 Daten 5 Programmcode/ Software 6 erste Bilddaten, zur Sprachauslösung 6a erster Satz wiederzugebender Einzelbilder oder Videos 6b zweiter Satz wiederzugebender Einzelbilder oder Videos 7 Textdaten wiederzugebender Texte 7a erster Satz von Textdaten 7b zweiter Satz von Textdaten 8 zweite Bilddaten, zur Emotionsauslösung 8a erster Satz wiederzugebender Einzelbilder oder Videos 8b zweiter Satz wiederzugebender Einzelbilder oder Videos 8a1, 18a2, 18a3, 18a4 Einzelvidoes 9 dritte Bilddaten, zur Blickrichtungslenkung 9a Einzelbild 0, 20‘, 20“ Betriebssoftware 1 Sprachanalysemodul 1a Sprachsignal-Auslösungssteuerung b Sprachaufzeichnungseinheit c Sprachsignalanalysator Emotionsanalysemodul a Emotions-Auslösungssteuerung b Emotionsbeobachtungseinheit c Reaktionsbewertungseinheit Blickrichtungsanalysemodul a Blickrichtungslenkung b Blickrichtungsbeobachtungseinheit/ Eye-Tracking Gesamtergebnisbewertungseinheit a Vorab-Bewertungseinheit Videoaufzeichnungseinheit Sprachsignal Audioaufnahme Kennwerte des vokalen Biomarkers erste Videoaufnahme Kennwerte des Emotionsantwort-Biomarkers zweite Videoaufnahme Kennwerte des Blickrichtungs-Biomarkers Bewertungsergebnis/ Zwischendiagnose Bewertungsergebnis/ Diagnose Blickrichtungspfad

Claims

Ansprüche
1. Softwarebasiertes Diagnosewerkzeug zur Verwendung in der Diagnose einer chronischen, neurologischen Störung bei einer menschlichen Testperson (11) unter Verwendung künstlicher Intelligenz, gekennzeichnet durch
- eine übergeordnete Betriebssoftware (20, 20‘, 20“),
- ein Sprachanalysemodul (21) zur Ermittlung von Kennwerten (28) eines ersten, und zwar vokalen Biomarkers eines Sprachsignals (26) der Testperson (11),
- wenigstens ein weiteres Modul (22, 23) zur Ermittlung von Kennwerten (30, 32) eines zweiten Biomarkers, und
- eine dem Sprachanalysemodul (21) und dem weiteren Modul (22, 23) nachgeschaltete Gesamtergebnisbewertungseinheit (25), wobei
- die Betriebssoftware (20, 20‘, 20“) eingerichtet ist, das Sprachanalysemodul (21) und das wenigstens eine weitere Modul (22, 23) nacheinander auszulösen und deren ermittelten Kennwerte (28, 30, 32) der Gesamtergebnisbewertungseinheit (25) zuzuführen,
- das Sprachanalysemodul (21) Folgendes umfasst: eine Sprachsignal-Auslösesteuerung (21a), welche eingerichtet ist, einen Satz (16a, 16b) von Einzelbildern und/ oder Einzelvideos (16) oder einen Text (17a, 17b) auf einer Bildwiedergabeeinrichtung (7) für die Testperson (11) darzustellen, um wenigstens ein Sprachsignal (26) bei der Testperson (11 ) in Gestalt einer Benennung eines in dem jeweiligen Einzelbild oder Einzelvideo (16) enthaltenden Objekts oder in Gestalt eines Vorlesens des Textes (17a, 17b) auszulösen, eine Sprachaufzeichnungseinheit (21b), welche eingerichtet ist, das Sprachsignal (26) mit Hilfe einer Spracheingabeeinrichtung (5) in einer Audioaufnahme (27) aufzuzeichnen, und einen Sprachsignalanalysator (21c), der eingerichtet ist, das Sprachsignal (26) in der Audioaufnahme (27) zunächst daraufhin auszuwerten, zu welchem Zeitpunkt welche Tonhöhe vorkommt, und anschließend eine Häufigkeitsverteilung der Tonhöhen über eine Anzahl an Frequenzbändern eines betrachteten Frequenzspektrums zu ermitteln, wobei diese Häufigkeitsverteilung die Kennwerte (28) des ersten Biomarkers bildet, und
- die Gesamtergebnisbewertungseinheit (25) eingerichtet ist, aufgrund der Kennwerte (28, 30, 32) der Biomarker der Testperson (11 ) unter Anwendung eines maschinellen Lernalgorithmus auf Basis künstlicher Intelligenz durch Vergleich mit einer mehrdimensionalen Grenzfläche festzustellen, ob die Testperson (11) die chronische, neurologische Störung aufweist.
2. Diagnosewerkzeug nach Anspruch 1 , dadurch gekennzeichnet, dass das weitere Modul (22, 23) ein Emotionsanalysemodul (22) zur Auswertung der Reaktion der Testperson (11 ) auf einen Emotionsstimulus als zweiter Biomarker ist, und das Emotionsanalysemodul (22) zumindest Folgendes umfasst: eine Emotions-Auslösungssteuerung (22a), welche eingerichtet ist, einen Satz (18a, 18b) von Einzelbildern und/ oder Einzelvideos (18) oder wenigstens ein einzelnes Video auf der Bildwiedergabeeinrichtung (7) darzustellen, um eine Anzahl einzelner Emotionen bei der Testperson (11) zu stimulieren, und eine Emotionsbeobachtungseinheit (21b), welche eingerichtet ist, eine mit Hilfe einer Bildaufnahmeeinrichtung (6) gewonnene Aufnahme des Gesichts der Testperson (11 ) zumindest daraufhin auszuwerten, wann sie eine emotionale Reaktion zeigt, wobei das Emotionsanalysemodul (22) eingerichtet ist, zumindest die jeweilige Reaktionszeit (R1, R2, R4) zwischen der Stimulierung der jeweiligen Emotion und des Auftretens der emotionalen Reaktion zu ermitteln, und wenigstens diese Reaktionszeiten die Kennwerte (30) des zweiten Biomarkers bilden.
3. Diagnosewerkzeug nach Anspruch 1 , dadurch gekennzeichnet, dass das weitere Modul (22, 23) ein Blickrichtungsanalysemodul (23) zur Auswertung der Blickrichtung der Testperson (11 ) als zweiter Biomarker ist, und das Blickrichtungsanalysemodul (23) zumindest Folgendes umfasst: eine Blickrichtungslenkung (23a), welche eingerichtet ist, wenigstens ein Bild (19) oder Video auf der Bildwiedergabeeinrichtung (7) darzustellen, um die Blickrichtung der Testperson (11) zu lenken, und eine Blickrichtungsbeobachtungseinheit (23b), welche eingerichtet ist, aus einer mit Hilfe einer Bildaufnahmeeinrichtung (6) gewonnenen Aufnahme des Gesichts der Testperson (11 ) deren Blickrichtung über der Zeit zu ermitteln, wobei dieser Blickrichtungsverlauf die Kennwerte (32) des zweiten Biomarkers bildet.
4. Diagnosewerkzeug nach Anspruch 2 und 3, dadurch gekennzeichnet, dass das Emotionsanalysemodul (22) ein erstes weiteres Modul (22, 23) und das Blickrichtungsanalysemodul (23) ein zweites weiteres Modul (22, 23) ist, und wenigstens die Reaktionszeiten (R1, R2, R4) auf die Emotionsstimuli Kennwerte des zweiten Biomarkers bilden und die Blickrichtung über der Zeit Kennwerte eines dritten Biomarkers der Testperson (11) bildet, wobei die Gesamtergebnisbewertungseinheit (25) eingerichtet ist, aufgrund der Kennwerte (28, 30, 32) des ersten, zweiten und dritten Biomarkers der Testperson (11) unter Anwendung des maschinellen Lernalgorithmus auf Basis künstlicher Intelligenz durch Vergleich mit einer mehrdimensionalen Grenzfläche festzustellen, ob die Testperson (11) die chronische, neurologische Störung aufweist.
5. Diagnosewerkzeug nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass der Lernalgorithmus eine Support Vector Machine (SVM), ein Random Forest oder ein Deep Convolutional Neuronal Network - Algorithmus ist, wobei der Lernalgorithmus mit einer Anzahl von ersten und zweiten Vergleichsdatensätzen aus Kennwerten der Biomarker trainiert worden ist, wobei die ersten Vergleichsdatensätze einer Gruppe von Referenzpersonen zugeordnet sind, die die chronische, neurologische Störung aufweisen, und die zweiten Vergleichsdatensätze einer Gruppe von Referenzpersonen zugeordnet sind, die die chronische, neurologische Störung nicht aufweisen.
6. Diagnosewerkzeug nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass sie eingerichtet ist, den Satz (16a, 16b) von Einzelbildern und/ oder Einzelvideos (16) oder den Text (17a, 17b) zur Auslösung des Sprachsignals, und/ oder den Satz (18a, 18b) von Einzelbildern und/ oder Einzelvideos (18) oder das zumindest eine Video für die Emotionsstimulierung und/ oder das wenigstens ein Bild (19) oder Video für die Blickrichtungslenkung in Abhängigkeit von personenspezifischen Daten der Testperson (11) auszuwählen und darzustellen, insbesondere dass die Sprachsignal-Auslösesteuerung (21a) eingerichtet ist, in Abhängigkeit des Alters der Testperson (11) entweder den Satz (16a, 16b) von Einzelbildern und/ oder Einzelvideos (16) oder den Text (17a, 17b) auszuwählen und darzustellen.
7. Diagnosewerkzeug nach einem der vorherigen Ansprüche, gekennzeichnet durch einen Bandpassfilter, der eingerichtet ist, das betrachtete Tonhöhenspektrum auf den Bereich zwischen 30 und 600 Hz zu beschränken.
8. Diagnosewerkzeug nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Anzahl an Frequenzbändern zwischen 6 und 18, vorzugsweise bei 12 liegt.
9. Diagnosewerkzeug nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass der Sprachsignalanalysator (21c) einen Deep Convolutional Neuronal Network - Algorithmus, insbesondere CREPE, oder einen PRAAT-Algorithmus umfasst, um die Tonhöhen zu schätzen.
10. Diagnosewerkzeug zumindest nach Anspruch 2, 3 oder 4, dadurch gekennzeichnet, dass die Emotionsbeobachtungseinheit (21b) und/ oder die Blickrichtungsbeobachtungseinheit (23b) eingerichtet sind, die Gesichtsaufnahme in Echtzeit auszuwerten.
11. Diagnosewerkzeug zumindest nach Anspruch 2 oder 4, dadurch gekennzeichnet, dass die Emotionsbeobachtungseinheit (21b) eine Gesichtserkennungssoftware auf Basis einer mitfühlenden künstlichen Intelligenz umfasst, die auf bestimmte Emotionen trainiert ist.
12. Diagnosewerkzeug zumindest nach Anspruch 2 oder 4, dadurch gekennzeichnet, dass die Emotionsbeobachtungseinheit (21b) eingerichtet ist, zusätzlich zum Reaktionszeitpunkt die Reaktionsart auf die jeweils stimulierte Emotion festzustellen, und dass diese Reaktionsart Teil der Kennwerte des zweiten Biomarkers ist.
13. Diagnosewerkzeug zumindest nach Anspruch 2 oder 4, dadurch gekennzeichnet, dass die Emotions-Auslösungssteuerung (22a) eingerichtet ist, zwischen 4 und 12 Emotionen, vorzugsweise 6 Emotionen zu stimulieren.
14. Diagnosewerkzeug zumindest nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die Blickrichtungslenkung (23a) eingerichtet ist, das wenigstens eine Bild (19) oder Video auf diskreten Positionen der Bildwiedergabeeinrichtung (7) nacheinander darzustellen oder entlang eines kontinuierlichen Pfades zu bewegen.
15. Diagnosewerkzeug zumindest nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die Blickrichtungsbeobachtungseinheit (23b) eine Eye- Tracking Software umfasst.
16. Verwendung des Diagnosewerkzeugs nach einem der Ansprüche 1 bis 15 als eine Softwareapplikation für ein tragbares Kommunikationsendgerät, insbesondere ein Smartphone (12) oder Tablet.
17. Verwendung des Diagnosewerkzeugs nach einem der Ansprüche 1 bis 15 als eine Softwareapplikation auf einem Server, der über ein Computernetzwerk (9) von einem Browser auf einem externen Endgerät (12) ansteuerbar ist, um das Diagnosewerkzeug auszuführen.
18. Diagnosesystem zur Verwendung in der Diagnose einer chronischen, neurologischen Störung bei einer menschlichen Testperson (11) unter Verwendung künstlicher Intelligenz, gekennzeichnet durch ein Diagnosewerkzeug nach einem der Ansprüche 1 bis 15, wenigstens einen nicht flüchtigen Speicher (4, 4‘) mit das Diagnosewerkzeug bildenden Programmcode (15) und Daten (14), eine Verarbeitungseinheit (2) zur Ausführung des Programmcodes (15) und Verarbeitung der Daten (14) des Diagnosewerkzeugs sowie die folgenden Peripheriegeräte (5, 6, 7, 8):
- eine Spracheingabeeinrichtung (5) zur Aufnahme wenigstens eines Sprachsignals (26) der Testperson (11 ) für das Diagnosewerkzeug,
- eine Bildaufnahmeeinrichtung (6) zur bildlichen Aufnahme des Gesichts der Testperson (11 ) für das Diagnosewerkzeug,
- eine Bildwiedergabeeinrichtung (7) zur Darstellung von Bilddaten für die Testperson (11) und
- wenigstens ein Eingabemittel (8) zur Vornahme von Eingaben durch die Testperson (11), wobei die Peripheriegeräte (5, 6, 7, 8) mit der Verarbeitungseinheit (2) in Wirkverbindung stehen und das Diagnosewerkzeug eingerichtet ist, die Spracheingabeeinrichtung (5), die Bildaufnahmeeinrichtung (6) und die Bildwiedergabeeinrichtung (7) zumindest mittelbar anzusteuern und die Aufnahmen (27, 29, 31) von der Spracheingabeeinrichtung (5) und der Bildaufnahmeeinrichtung (6) auszuwerten.
19. Diagnosesystem nach Anspruch 18, dadurch gekennzeichnet, dass es ein tragbares Kommunikationsendgerät, insbesondere ein Smartphone (12) oder Tablet ist.
20. Diagnosesystem nach Anspruch 18, dadurch gekennzeichnet, dass die Verarbeitungseinheit (2) Teil eines mit einem Computernetzwerk (9) verbundenen und über einen Browser ansteuerbaren Servers ist, und der nicht flüchtige Speicher (4) mit dem Server in Verbindung steht, und dass die Peripheriegeräte Teil eines externen Endgeräts (12), insbesondere eines tragbaren Kommunikationsendgeräts sind.
21. Diagnosesystem nach Anspruch 20, dadurch gekennzeichnet, dass das externe Endgerät (12) einen weiteren flüchtigen Speicher (4‘) aufweist, wobei das Diagnosewerkzeug teilweise auf dem serverseitigen Speicher (4) und teilweise auf dem endgeräteseitigen Speicher (4‘) gespeichert ist.
22. Verfahren zum Betreiben eines softwarebasierten Diagnosewerkzeugs zur Verwendung in der Diagnose einer chronischen, neurologischen Störung bei einer menschlichen Testperson (11) unter Verwendung künstlicher Intelligenz, umfassend
- eine übergeordnete Betriebssoftware (20, 20‘, 20“),
- ein Sprachanalysemodul (21) zur Ermittlung von Kennwerten (28) eines ersten, und zwar vokalen Biomarkers eines Sprachsignals (26) der Testperson (11),
- wenigstens ein weiteres Modul (22, 23) zur Ermittlung von Kennwerten (30, 32) eines zweiten Biomarkers, und
- eine dem Sprachanalysemodul (21) und dem weiteren Modul (22, 23) nachgeschaltete Gesamtergebnisbewertungseinheit (25), wobei
- die Betriebssoftware (20, 20‘, 20“) das Sprachanalysemodul (21) und das wenigstens eine weitere Modul (22, 23) nacheinander auslöst und deren ermittelte Kennwerte (28, 30, 32) der Gesamtergebnisbewertungseinheit (25) zuführt,
- eine Sprachsignal-Auslösesteuerung (21a) des Sprachanalysemoduls (21) einen Satz (16a, 16b) von Einzelbildern und/ oder Einzelvideos (16) oder einen Text (17a, 17b) auf einer Bildwiedergabeeinrichtung (7) für die Testperson (11) darstellt, um wenigstens ein Sprachsignal (26) bei der Testperson (11 ) in Gestalt einer Benennung eines in dem jeweiligen Einzelbild oder Einzelvideo (16) enthaltenden Objekts oder in Gestalt eines Vorlesens des Textes (17a, 17b) auszulösen,
- eine Sprachaufzeichnungseinheit (21 b) des Sprachanalysemoduls (21 ) das Sprachsignal (26) mit Hilfe einer Spracheingabeeinrichtung (5) in einer Audioaufnahme (27) aufzeichnet, und - ein Sprachsignalanalysator (21c) des Sprachanalysemoduls (21 ) das Sprachsignal (26) in der Audioaufnahme (27) zunächst daraufhin auswertet, zu welchem Zeitpunkt welche Tonhöhe vorkommt, und anschließend eine Häufigkeitsverteilung der Tonhöhen über eine Anzahl an Frequenzbändern eines betrachteten Frequenzspektrums ermittelt, wobei diese Häufigkeitsverteilung die Kennwerte (28) des ersten Biomarkers bildet, und
- die Gesamtergebnisbewertungseinheit (25) aufgrund der Kennwerte (28,
30, 32) der Biomarker der Testperson (11 ) unter Anwendung eines maschinellen Lernalgorithmus auf Basis künstlicher Intelligenz durch Vergleich mit einer mehrdimensionalen Grenzfläche feststellt, ob die Testperson (11) die chronische, neurologische Störung aufweist.
23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, dass das weitere Modul (22, 23) ein Emotionsanalysemodul (22) zur Auswertung der Reaktion der Testperson (11 ) auf einen Emotionsstimulus als zweiter Biomarker ist, und das Emotionsanalysemodul (22) folgende Schritte ausführt:
- eine Emotions-Auslösungssteuerung (22a) des Emotionsanalysemoduls (22) einen Satz (18a, 18b) von Einzelbildern und/ oder Einzelvideos (18) oder wenigstens ein einzelnes Video auf der Bildwiedergabeeinrichtung (7) darstellt, um eine Anzahl einzelner Emotionen bei der Testperson (11 ) zu stimulieren, und
- eine Emotionsbeobachtungseinheit (21b) des Emotionsanalysemoduls (22) eine mit Hilfe einer Bildaufnahmeeinrichtung (6) gewonnene Aufnahme (29) des Gesichts der Testperson (11 ) zumindest daraufhin auswertet, wann sie eine emotionale Reaktion zeigt, und
- das Emotionsanalysemodul (22) zumindest die jeweilige Reaktionszeit (R1 , R2, R4) zwischen der Stimulierung der jeweiligen Emotion und des Auftretens der emotionalen Reaktion ermittelt, wobei wenigstens diese Reaktionszeiten die Kennwerte (30) des zweiten Biomarkers bilden.
24. Verfahren nach Anspruch 22, dadurch gekennzeichnet, dass das weitere Modul (22, 23) ein Blickrichtungsanalysemodul (23) zur Auswertung der Blickrichtung der Testperson (11 ) als zweiter Biomarker ist, und das Blickrichtungsanalysemodul (23) folgende Schritte ausführt: - eine Blickrichtungslenkung (23a) des Blickrichtungsanalysemoduls (23) wenigstens ein Bild (19) oder Video auf der Bildwiedergabeeinrichtung (7) darstellt, um die Blickrichtung der Testperson (11) zu lenken, und
- eine Blickrichtungsbeobachtungseinheit (23b) des Blickrichtungsanalysemoduls (23) aus einer mit Hilfe einer Bildaufnahmeeinrichtung (6) gewonnenen Aufnahme des Gesichts der Testperson (11 ) deren Blickrichtung über der Zeit ermittelt, wobei dieser Blickrichtungsverlauf die Kennwerte (32) des zweiten Biomarkers bildet.
25. Verfahren nach Anspruch 23 und 24, dadurch gekennzeichnet, dass das Emotionsanalysemodul (22) ein erstes weiteres Modul (22, 23) und das Blickrichtungsanalysemodul (23) ein zweites weiteres Modul (22, 23) ist und diese Module (22, 23) nacheinander ausgelöst werden, wobei wenigstens die Reaktionszeiten (R1, R2, R4) auf die Emotionsstimuli Kennwerte des zweiten Biomarkers bilden und die Blickrichtung über der Zeit Kennwerte eines dritten Biomarker der Testperson (11 ) bildet, und wobei die
Gesamtergebnisbewertungseinheit (25) aufgrund der Kennwerte (28, 30, 32) des ersten, zweiten und dritten Biomarkers der Testperson (11) unter Anwendung des maschinellen Lernalgorithmus auf Basis künstlicher Intelligenz durch Vergleich mit einer mehrdimensionalen Grenzfläche feststellt, ob die Testperson (11) die chronische, neurologische Störung aufweist.
EP22732938.0A 2021-05-31 2022-05-30 Softwarebasiertes, sprachbetriebenes und objektives diagnosewerkzeug zur verwendung in der diagnose einer chronischen neurologischen störung Pending EP4346558A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021205548.6A DE102021205548A1 (de) 2021-05-31 2021-05-31 Softwarebasiertes, sprachbetriebenes und objektives Diagnosewerkzeug zur Verwendung in der Diagnose einer chronischen neurologischen Störung
PCT/EP2022/064578 WO2022253742A1 (de) 2021-05-31 2022-05-30 Softwarebasiertes, sprachbetriebenes und objektives diagnosewerkzeug zur verwendung in der diagnose einer chronischen neurologischen störung

Publications (1)

Publication Number Publication Date
EP4346558A1 true EP4346558A1 (de) 2024-04-10

Family

ID=82163363

Family Applications (1)

Application Number Title Priority Date Filing Date
EP22732938.0A Pending EP4346558A1 (de) 2021-05-31 2022-05-30 Softwarebasiertes, sprachbetriebenes und objektives diagnosewerkzeug zur verwendung in der diagnose einer chronischen neurologischen störung

Country Status (3)

Country Link
EP (1) EP4346558A1 (de)
DE (1) DE102021205548A1 (de)
WO (1) WO2022253742A1 (de)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016040673A2 (en) 2014-09-10 2016-03-17 Oregon Health & Science University Animation-based autism spectrum disorder assessment
AU2018350984A1 (en) 2017-10-17 2020-05-07 Satish Rao Machine learning based system for identifying and monitoring neurological disorders
GB2567826B (en) 2017-10-24 2023-04-26 Cambridge Cognition Ltd System and method for assessing physiological state
US20190239791A1 (en) 2018-02-05 2019-08-08 Panasonic Intellectual Property Management Co., Ltd. System and method to evaluate and predict mental condition
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11848079B2 (en) * 2019-02-06 2023-12-19 Aic Innovations Group, Inc. Biomarker identification
KR102643554B1 (ko) 2019-03-22 2024-03-04 코그노아, 인크. 개인 맞춤식 디지털 치료 방법 및 디바이스

Also Published As

Publication number Publication date
WO2022253742A1 (de) 2022-12-08
DE102021205548A1 (de) 2022-12-01

Similar Documents

Publication Publication Date Title
Halim et al. On identification of driving-induced stress using electroencephalogram signals: A framework based on wearable safety-critical scheme and machine learning
CN107224291B (zh) 调度员能力测试***
Gomez-Pilar et al. Neurofeedback training with a motor imagery-based BCI: neurocognitive improvements and EEG changes in the elderly
DE202019005960U1 (de) Verwalten von Atembeschwerden auf Basis von Geräuschen des Atemsystems
Ethridge et al. Risk and resilience in an acute stress paradigm: Evidence from salivary cortisol and time-frequency analysis of the reward positivity
Künecke et al. Facial responsiveness of psychopaths to the emotional expressions of others
EP3755226B1 (de) System und verfahren zur erkennung und messung affektiver zustände
EP3930563A1 (de) Verfahren zur evaluierung von hautläsionen unter verwendung künstlicher intelligenz
CN115376695A (zh) 基于扩展现实的神经心理评估及干预的方法、***和装置
Jones et al. Using time perception to explore implicit sensitivity to emotional stimuli in autism spectrum disorder
DE102022002867A1 (de) Auf physiologischen Informationen des Fahrers basierendes Verfahren und System zur Fahrzeugsteuerungsassistenz
Kaiser et al. EEG beta 2 power as surrogate marker for memory impairment: a pilot study
DE212020000450U1 (de) Technik zur Verwendung bei der Fahrzeugherstellung
Srimaharaj et al. Effective method for identifying student learning ability during classroom focused on cognitive performance
WO2021253139A1 (en) Methods for assessing brain health using behavioural and/or electrophysiological measures of visual processing
Lei Driver mental states monitoring based on brain signals
Amd et al. A derived transformation of emotional functions using self-reports, implicit association tests, and frontal alpha asymmetries
EP4346558A1 (de) Softwarebasiertes, sprachbetriebenes und objektives diagnosewerkzeug zur verwendung in der diagnose einer chronischen neurologischen störung
DE102015109853A1 (de) Assistenz- und Entscheidungssystem und Verfahren zur Auswertung von Elektroenzephalogrammen
Ben Abdessalem et al. Toward Personalizing Alzheimer’s Disease Therapy Using an Intelligent Cognitive Control System
DE102017204068A1 (de) Elektronische Vorrichtung, System, Verfahren und Computerprogramm
Rekrut et al. Classifying Words in Natural Reading Tasks Based on EEG Activity to Improve Silent Speech BCI Training in a Transfer Approach
Park et al. Measuring emotional variables in occupational performance: A scoping review
DE112022002458T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
Leon et al. Right hemisphere damage and prosody.

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20231231

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR