DE112020001332T5 - System zur Bewertung der Stimmwiedergabe - Google Patents

System zur Bewertung der Stimmwiedergabe Download PDF

Info

Publication number
DE112020001332T5
DE112020001332T5 DE112020001332.4T DE112020001332T DE112020001332T5 DE 112020001332 T5 DE112020001332 T5 DE 112020001332T5 DE 112020001332 T DE112020001332 T DE 112020001332T DE 112020001332 T5 DE112020001332 T5 DE 112020001332T5
Authority
DE
Germany
Prior art keywords
data
user
audio data
audio
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020001332.4T
Other languages
English (en)
Inventor
Alexander Jonathan Pinkus
Douglas Gradt
Samuel Elbert Mcgowan
Chad Thompson
Chao Wang
Viktor Rozgic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of DE112020001332T5 publication Critical patent/DE112020001332T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Eine tragbare Vorrichtung mit einem Mikrofon erfasst Audiodaten der Sprache des Trägers. Die Audiodaten werden verarbeitet, um Stimmungsdaten zu bestimmen, die auf den wahrgenommenen emotionalen Inhalt der Sprache hinweisen. Die Stimmungsdaten können zum Beispiel Werte für eine oder mehrere der folgenden Eigenschaften einschließen: Valenz, die auf einer bestimmten Veränderung der Tonhöhe im Laufe der Zeit basiert, Aktivierung, die auf dem Sprechtempo basiert, Dominanz, die auf den Anstiegs- und Abfallmustern der Tonhöhe basiert, und so weiter. Eine vereinfachte Benutzerschnittstelle stellt dem Träger auf der Grundlage der Stimmungsdaten Informationen über den emotionalen Inhalt seiner Sprache bereit. Der Träger kann diese Informationen nutzen, um seinen Gemütszustand zu bewerten, Interaktionen mit anderen zu erleichtern usw.

Description

  • PRIORITÄT
  • Diese Anmeldung beansprucht die Priorität der am 20. März 2019 eingereichten US-Patentanmeldung Nr. 16/359,374 mit dem Titel „System for Assessing Vocal Presentation“, die hiermit durch Bezugnahme in vollem Umfang einbezogen wird.
  • STAND DER TECHNIK
  • Teilnehmer eines Gesprächs können durch den emotionalen Zustand des anderen beeinflusst werden, der durch seine Stimme wahrgenommen wird. Wenn ein Sprecher zum Beispiel aufgeregt ist, kann der Zuhörer diese Aufregung in seiner Sprache wahrnehmen. Ein Sprecher ist sich jedoch möglicherweise nicht bewusst, welchen emotionalen Zustand er mit seiner Sprache bei anderen auslöst. Ein Sprecher ist sich möglicherweise auch nicht bewusst, wie sich seine anderen Aktivitäten auf den emotionalen Zustand auswirken, der durch seine Sprache vermittelt wird. Beispielsweise kann ein Sprecher an den Tagen nach einer unruhigen Nacht nicht bemerken, dass seine Sprache für andere reizbar klingt.
  • Figurenliste
  • Die detaillierte Beschreibung erfolgt unter Bezugnahme auf die beigefügten Figuren. In den Figuren gibt die äußerste linke Ziffer einer Referenznummer die Figur an, in der die Referenznummer zuerst erscheint. Die Verwendung der gleichen Referenznummern in verschiedenen Figuren weist auf ähnliche oder identische Elemente oder Merkmale hin.
    • 1 ist ein veranschaulichendes System, das die Sprache eines Benutzers verarbeitet, um Stimmungsdaten zu bestimmen, die auf einen emotionalen Zustand hinweisen, wie er durch die Sprache vermittelt wird, und um eine Ausgabe zu präsentieren, die sich auf diese Stimmungsdaten bezieht, gemäß einer Implementierung.
    • 2 veranschaulicht ein Blockdiagramm von Sensoren und Ausgabevorrichtungen, die während des Betriebs des Systems verwendet werden können, gemäß einer Implementierung.
    • 3 veranschaulicht ein Blockdiagramm von Rechenvorrichtung(en), wie beispielsweise einer tragbaren Vorrichtung, einem Smartphone oder anderen Vorrichtungen, gemäß einer Implementierung.
    • 4 veranschaulicht Teile eines Gesprächs zwischen einem Benutzer und einer zweiten Person, gemäß einer Implementierung.
    • 5 veranschaulicht ein Flussdiagramm eines Prozesses zur Darstellung von Ausgaben auf der Grundlage von Stimmungsdaten, die aus der Analyse der Sprache eines Benutzers gewonnen wurden, gemäß einer Implementierung.
    • 6 veranschaulicht ein Szenario, in dem Benutzerstatusdaten, wie beispielsweise Informationen über den Gesundheitszustand des Benutzers, mit den Stimmungsdaten kombiniert werden, um eine beratende Ausgabe bereitzustellen, gemäß einer Implementierung.
    • 7 und 8 veranschaulichen mehrere Beispiele für Benutzerschnittstellen, bei denen dem Benutzer eine Ausgabe präsentiert wird, die zumindest teilweise auf den Stimmungsdaten basiert, gemäß einigen Implementierungen.
  • Während die Implementierungen hierin beispielhaft beschrieben werden, wird der Fachmann erkennen, dass die Implementierungen nicht auf die beschriebenen Beispiele oder Figuren beschränkt sind. Es sollte verstanden werden, dass die Figuren und die detaillierte Beschreibung dazu nicht dazu gedacht sind, Implementierungen auf die besondere Form zu beschränken, die offenbart wurde, sondern im Gegenteil, die Absicht ist, alle Modifikationen, Äquivalente und Alternativen abzudecken, die in den Umfang fallen, wie er durch die beigefügten Ansprüche definiert ist. Die hierin verwendeten Überschriften dienen nur der Gliederung und sind nicht dazu gedacht, den Umfang der Beschreibung oder der Ansprüche einzuschränken. In dieser Anmeldung wird das Wort „kann“ im zulässigen Sinne verwendet (d. h. im Sinne von „hat das Potential dazu“) und nicht im zwingenden Sinne (d. h. im Sinne von „muss“). Ebenso bedeuten die Wörter „einschließen“, „einschließlich“ und „schließt ein“, dass sie einschließen, aber nicht darauf beschränkt sind.
  • DETAILLIERTE BESCHREIBUNG
  • Das Wohlbefinden und der emotionale Zustand einer Person sind miteinander verknüpft. Eine schlechte emotionale Verfassung kann sich direkt auf die Gesundheit einer Person auswirken, ebenso wie eine Krankheit oder ein anderes gesundheitliches Ereignis die emotionale Verfassung einer Person beeinflussen kann. Der emotionale Zustand einer Person kann sich auch auf andere auswirken, mit denen sie kommuniziert. Wer zum Beispiel mit jemandem in einem wütenden Ton spricht, kann bei diesem Zuhörer eine ängstliche emotionale Antwort hervorrufen.
  • Informationen über den emotionalen Zustand, den sie zum Ausdruck bringen, können nützlich sein, um einer Person zu helfen. Um beim Beispiel von vorhin zu bleiben, wenn die verärgerte Person mit ihrem Freund spricht, kann der Freund sie darauf hinweisen. Mit diesem Bewusstsein kann die wütende Person dann ihr Verhalten ändern. So nützlich diese Rückmeldung auch sein mag, es ist nicht möglich, einen Freund zu haben, der ständig anwesend ist und einer Person sagen kann, welchen emotionalen Zustand sie in ihrer Stimme ausdrückt.
  • In dieser Offenbarung wird ein System beschrieben, das Audiodaten der Sprache eines Benutzers verarbeitet, um Stimmungsdaten zu bestimmen, die auf den emotionalen Zustand hinweisen, und dem Benutzer eine Ausgabe auf einer Benutzerschnittstelle zu präsentieren. Der Benutzer ermächtigt das System, seine Sprache zu verarbeiten. Der Benutzer kann sich zum Beispiel für die Verwendung anmelden und der Erfassung und Verarbeitung von Audiodaten des Benutzers zustimmen. Die von einem oder mehreren Mikrofonen erfassten Rohdaten werden verarbeitet, um Audiodaten bereitzustellen, die einem bestimmten Benutzer zugeordnet sind. Diese Audiodaten werden dann verarbeitet, um Audiomerkmalsdaten zu bestimmen. Die Audiomerkmalsdaten können zum Beispiel durch ein neuronales Netzwerk verarbeitet werden, um Merkmalsvektoren zu erzeugen, die für die Audiodaten und Änderungen in den Audiodaten repräsentativ sind. Die Audiomerkmalsdaten werden dann verarbeitet, um die Stimmungsdaten für diesen bestimmten Benutzer zu bestimmen. Das System verwirft zum Beispiel Audiodaten, die nicht mit dem jeweiligen Benutzer verbunden sind, und erzeugt die Audiomerkmalsdaten aus den Audiodaten, die mit dem jeweiligen Benutzer verbunden sind. Nachdem die Audiomerkmalsdaten erzeugt wurden, können die Audiodaten des jeweiligen Benutzers verworfen werden.
  • Zur Erfassung der Rohdaten kann eine tragbare Vorrichtung verwendet werden. Die tragbare Vorrichtung kann zum Beispiel ein Band, ein Armband, eine Halskette, einen Ohrring, eine Brosche usw. umfassen. Die tragbare Vorrichtung kann ein oder mehrere Mikrofone und eine Rechenvorrichtung umfassen. Die tragbare Vorrichtung kann mit einer anderen Vorrichtung, wie beispielsweise einem Smartphone, in Verbindung stehen. Die tragbare Vorrichtung kann Audiodaten zur Verarbeitung auf dem Smartphone bereitstellen. Die tragbare Vorrichtung kann Sensoren einschließen, wie beispielsweise einen Monitor für die Herzfrequenz, einen Elektrokardiographen, einen Beschleunigungsmesser usw. Die von diesen Sensoren gewonnenen Daten können dazu verwendet werden, die Benutzerstatusdaten zu bestimmen. So können zum Beispiel mit Hilfe von Beschleunigungsmessern Benutzerstatusdaten erzeugt werden, die angeben, wie viel sich der Benutzer im Laufe des vergangenen Tages bewegt hat.
  • In anderen Implementierungen kann die Funktionalität des beschriebenen Systems von einer einzigen Vorrichtung bereitgestellt oder auf andere Vorrichtungen verteilt werden. Zum Beispiel kann ein Server über ein Netzwerk zugänglich sein, um einige der hierin beschriebenen Funktionen bereitzustellen.
  • Die Stimmungsdaten werden durch die Analyse der Eigenschaften der Sprache des Benutzers bestimmt, wie sie in den Audiomerkmalsdaten zum Ausdruck kommen. Zeitliche Veränderungen der Tonhöhe, des Tempos usw. können auf verschiedene emotionale Zustände hinweisen. Zum Beispiel kann der emotionale Zustand von Sprache, der als „aufgeregt“ beschrieben wird, einer Sprache entsprechen, die ein höheres Tempo hat, während eine langsamere Sprache als „gelangweilt“ beschrieben wird. In einem anderen Beispiel kann ein Anstieg der durchschnittlichen Tonhöhe auf einen emotionalen Zustand „wütend“ hindeuten, während eine durchschnittliche Tonhöhe, die nahe am Wert einer Basislinie liegt, auf einen emotionalen Zustand „ruhig“ hindeuten kann. Verschiedene Techniken können einzeln oder in Kombination verwendet werden, um die Stimmungsdaten zu bestimmen, einschließlich, aber nicht beschränkt auf, Signalanalysetechniken, Klassifizierer, neuronale Netzwerke usw. Die Stimmungsdaten können als numerische Werte, Vektoren, zugehörige Worte usw. bereitgestellt werden.
  • Die aus den Audiodaten des Benutzers hergestellten Stimmungsdaten können verwendet werden, um eine Ausgabe bereitzustellen. Die Ausgabe kann zum Beispiel eine grafische Benutzerschnittstelle (GUI), eine sprachliche Benutzerschnittstelle, eine Leuchtanzeige, einen Klang usw. umfassen, die dem Benutzer von einer Ausgabevorrichtung präsentiert wird. Im weiteren Verlauf des Beispiels können die Stimmungsdaten eine grafische GUI umfassen, die auf dem Display des Telefons angezeigt wird und den Tonfall oder den emotionalen Gesamtzustand des Benutzers anzeigt, wie er durch seine Stimme vermittelt wird, und zwar auf der Grundlage von Audiodaten, die in den letzten 15 Minuten abgetastet wurden. Bei dieser Angabe kann es sich um einen numerischen Farbwert, eine Tabelle oder eine bestimmte Farbe handeln. Die Stimmungsdaten können zum Beispiel verschiedene Werte umfassen, die zur Auswahl einer bestimmten Farbe dienen. Ein Element auf dem Display des Telefons oder eine mehrfarbige Leuchtdiode auf der tragbaren Vorrichtung kann so betrieben werden, dass es diese bestimmte Farbe ausgibt und dem Benutzer einen Hinweis darauf bereitstellt, welchen emotionalen Zustand seine Stimme zu vermitteln scheint.
  • Die Ausgabe kann Stimmungsdaten über verschiedene Zeitspannen enthalten, wie beispielsweise die letzten Minuten, den letzten geplanten Termin, den vergangenen Tag usw. Die Stimmungsdaten können auf Audioaufnahmen von Gesprächen mit anderen Personen, Selbstgesprächen des Benutzers oder einer Kombination davon beruhen. Dadurch kann der Benutzer seine allgemeine Stimmung, sein Verhalten und seine Interaktionen mit anderen besser einschätzen und verändern. Das System kann den Benutzer zum Beispiel warnen, wenn der Klang seiner Sprache darauf hindeutet, dass er sich in einem erregten Zustand befindet, und ihm die Möglichkeit geben, sich zu beruhigen.
  • Das System kann die Stimmungsdaten und die Benutzerstatusdaten verwenden, um Warnungen bereitzustellen. Die Benutzerstatusdaten können zum Beispiel Informationen wie Schlafstunden, Herzfrequenz, Anzahl der zurückgelegten Schritte usw. einschließen. Die über mehrere Tage erfassten Stimmungsdaten und Sensordaten können analysiert und verwendet werden, um zu bestimmen, dass, wenn die Benutzerstatusdaten auf eine Nacht mit mehr als 7 Stunden Ruhezeit hindeuten, die Stimmungsdaten am nächsten Tag anzeigen, dass der Benutzer angenehmer und weniger reizbar ist. Dem Benutzer kann dann auf einer Benutzerschnittstelle eine Ausgabe bereitgestellt werden, die ihn berät und ihm vorschlägt, mehr Ruhe zu suchen. Diese Ratschläge können dem Benutzer helfen, seine Aktivität zu regulieren, Rückmeldungen für eine gesunde Lebensweise bereitzustellen und die Qualität seiner Gesundheit zu maximieren.
  • VERANSCHAULICHENDES SYSTEM
  • 1 ist ein veranschaulichendes System 100, das die Sprache eines Benutzers verarbeitet, um Stimmungsdaten zu bestimmen, die auf einen emotionalen Zustand hinweisen, wie er durch die Sprache vermittelt wird, und um eine Ausgabe zu präsentieren, die sich auf diese Stimmungsdaten bezieht, gemäß einer Implementierung.
  • Der Benutzer 102, der auch als Träger bezeichnet wird, kann eine oder mehrere tragbare Vorrichtungen 104 an oder um sich haben. Die tragbare Vorrichtung 104 kann in verschiedenen physischen Formfaktoren implementiert werden, einschließlich, aber nicht beschränkt auf, die folgenden: Hüte, Stirnbänder, Halsketten, Anhänger, Broschen, Taschen, Armreifen, Armbinden, Armbänder, Armbändchen usw. In dieser Veranschaulichung ist die tragbare Vorrichtung 104 als Armband dargestellt.
  • Die tragbare Vorrichtung 104 kann eine Kommunikationsverbindung 106 verwenden, um die Kommunikation mit einer Rechenvorrichtung 108 aufrechtzuerhalten. Die Rechenvorrichtung 108 kann zum Beispiel ein Telefon, einen Tablet-Computer, einen PC, einen Server, eine internetfähige Vorrichtung, eine sprachgesteuerte Vorrichtung, eine Smart-Home-Vorrichtung usw. einschließen. Die Kommunikationsverbindung 106 kann mindestens einen Abschnitt der Spezifikationen von Bluetooth Low Energy implementieren. Die Daten können vor oder während der Übertragung verschlüsselt und nach oder während des Empfangs entschlüsselt werden.
  • Die tragbare Vorrichtung 104 schließt ein Gehäuse 110 ein. Das Gehäuse 110 umfasst eine oder mehrere Strukturen, die ein Mikrofonarray 112 unterstützen. Das Mikrofonarray 112 kann zum Beispiel zwei oder mehr Mikrofone umfassen, die so angeordnet sind, dass sie Schall von Anschlüssen an verschiedenen Orten des Gehäuses 110 aufnehmen. Wie nachstehend beschrieben, kann ein Mikrofonmuster 114 unter Verwendung eines Algorithmus zur Strahlenbildung eine Verstärkung oder Richtwirkung bereitstellen. Sprache 116 des Benutzers 102 oder anderer Quellen innerhalb der Reichweite des Mikrofonarrays 112 kann von dem Mikrofonarray 112 nachgewiesen werden, und es können Audiorohdaten 118 erfasst werden. In anderen Implementierungen können Audiorohdaten 118 von anderen Vorrichtungen erfasst werden.
  • Ein Sprachaktivitätserkennungsmodul 120 kann verwendet werden, um die Audiorohdaten 118 zu verarbeiten und zu bestimmen, ob Sprache 116 vorhanden ist. So kann das Mikrofonarray 112 zum Beispiel Audiorohdaten 118 erhalten, die Umgebungsgeräusche wie Verkehr, Wind usw. enthalten. Audiorohdaten 118, bei denen nicht davon ausgegangen wird, dass sie Sprache 116 enthalten, können verworfen werden. Der Ressourcenverbrauch wird minimiert, indem Audiorohdaten 118, die keine Sprache 116 enthalten, verworfen werden. Stromverbrauch, Bedarf an Speicher- und Rechenressourcen, Kommunikationsbandbreite usw. werden zum Beispiel dadurch minimiert, dass die weitere Verarbeitung von Audiorohdaten 118, bei denen festgestellt wurde, dass sie wahrscheinlich keine Sprache 116 enthalten, eingeschränkt wird.
  • Das Sprachaktivitätserkennungsmodul 120 kann eine oder mehrere Techniken verwenden, um die Sprachaktivität zu bestimmen. So können zum Beispiel Eigenschaften der Signale in den Audiorohdaten 118 wie Frequenz, Energie, Rate des Nulldurchgangs usw. in Bezug auf Schwellenwerte analysiert werden, um Eigenschaften zu bestimmen, die als wahrscheinlich für menschliche Sprache gelten.
  • Sobald mindestens ein Abschnitt der Audiorohdaten 118 als Sprache 116 bestimmt wurde, kann ein Audiovorverarbeitungsmodul 122 diesen Abschnitt weiter verarbeiten, um erste Audiodaten 124 zu bestimmen. In einigen Implementierungen kann das Audiovorverarbeitungsmodul 122 einen oder mehrere Algorithmen zur Strahlenbildung, Rauschunterdrückungsalgorithmen, Filter usw. anwenden, um die ersten Audiodaten 124 zu bestimmen. Zum Beispiel kann das Audiovorverarbeitungsmodul 122 einen Algorithmus zur Strahlenbildung verwenden, um eine Richtwirkung oder Verstärkung bereitzustellen und das Signal-Rausch-Verhältnis (SNR) der Sprache 116 des Benutzers 102 in Bezug auf die Sprache 116 oder das Rauschen anderer Quellen zu verbessern.
  • Die tragbare Vorrichtung 104 kann einen oder mehrere Sensoren 126 einschließen, die Sensordaten 128 erzeugen. Die Sensoren 126 können zum Beispiel Beschleunigungsmesser, Pulsoximeter usw. einschließen. Die Sensoren 126 werden in 2 näher erläutert.
  • Das Audiovorverarbeitungsmodul 122 kann während des Vorgangs Informationen von einem oder mehreren Sensoren 126 verwenden. So können zum Beispiel Sensordaten 128 von einem Beschleunigungsmesser verwendet werden, um die Orientierung der tragbaren Vorrichtung 104 zu bestimmen. Auf der Grundlage der Orientierung kann der Algorithmus zur Strahlenbildung so betrieben werden, dass er ein Mikrofonmuster 114 bereitstellt, das einen Ort einschließt, an dem sich der Kopf des Benutzers 102 voraussichtlich befinden wird.
  • Ein Datenübertragungsmodul 130 kann eine Kommunikationsschnittstelle 132 verwenden, um die ersten Audiodaten 124, Sensordaten 128 oder andere Daten über die Kommunikationsverbindung 106 an die Rechenvorrichtung 108 zu senden. Zum Beispiel kann das Datenübertragungsmodul 130 bestimmen, dass ein Speicher innerhalb der tragbaren Vorrichtung 104 eine vorbestimmte Menge an gespeicherten ersten Audiodaten 124 erreicht hat. Die Kommunikationsschnittstelle 132 kann eine Vorrichtung mit Bluetooth Low Energy umfassen, die als Antwort auf Befehle vom Datenübertragungsmodul 130 betrieben wird, um die gespeicherten ersten Audiodaten 124 an die Rechenvorrichtung 108 zu senden.
  • In einigen Implementierungen können die ersten Audiodaten 124 vor der Übertragung über die Kommunikationsverbindung 106 verschlüsselt werden. Die Verschlüsselung kann vor der Speicherung im Speicher der tragbaren Vorrichtung 104, vor der Übertragung über die Kommunikationsverbindung 106 oder vor beidem erfolgen. Nach dem Empfang können die ersten Audiodaten 124 entschlüsselt werden.
  • Die Kommunikation zwischen der tragbaren Vorrichtung 104 und der Rechenvorrichtung 108 kann dauerhaft oder intermittierend sein. So kann die tragbare Vorrichtung 104 zum Beispiel erste Audiodaten 124 bestimmen und speichern, auch wenn die Kommunikationsverbindung 106 zur Rechenvorrichtung 108 nicht verfügbar ist. Zu einem späteren Zeitpunkt, wenn die Kommunikationsverbindung 106 verfügbar ist, können die ersten Audiodaten 124 an die Rechenvorrichtung 108 gesendet werden.
  • Die tragbare Vorrichtung 104 kann eine oder mehrere Ausgabevorrichtungen 134 einschließen. Die Ausgabevorrichtungen 134 können zum Beispiel eine Leuchtdiode, eine haptische Ausgabevorrichtung, einen Lautsprecher usw. einschließen. Die Ausgabevorrichtungen 134 werden in 2 ausführlicher beschrieben.
  • Die Rechenvorrichtung 108 kann eine Kommunikationsschnittstelle 132 einschließen. Die Kommunikationsschnittstelle 132 der Rechenvorrichtung 108 kann zum Beispiel eine Vorrichtung für Bluetooth Low Energy, eine Netzwerkschnittstelle für WiFi usw. umfassen. Die Rechenvorrichtung 108 empfängt die ersten Audiodaten 124 von der tragbaren Vorrichtung 104 über die Kommunikationsverbindung 106.
  • Die Rechenvorrichtung 108 kann ein Rundenerkennungsmodul 136 verwenden, um zu bestimmen, dass Abschnitte der ersten Audiodaten 124 mit verschiedenen Lautsprechern verbunden sind. Wie in 4 näher beschrieben, ist eine „Runde“ ein zusammenhängender Abschnitt der Sprache einer einzelnen Person, wenn mehr als eine Person spricht. Eine erste Runde kann beispielsweise mehrere Sätze einschließen, die von einer ersten Person gesprochen werden, während eine zweite Runde eine Antwort der zweiten Person einschließt. Das Rundenerkennungsmodul 136 kann eine oder mehrere Eigenschaften in den ersten Audiodaten 124 verwenden, um zu bestimmen, dass eine Runde gelaufen ist. Zum Nachweis einer Runde kann zum Beispiel eine Sprechpause 116, eine Änderung der Tonhöhe, eine Änderung der Signalamplitude usw. herangezogen werden. Wenn die Pause zwischen den Worten 350 Millisekunden überschreitet, können Daten bestimmt werden, die auf eine Runde hinweisen.
  • In einer Implementierung kann das Rundenerkennungsmodul 136 Prozesse der ersten Audiodaten 124 verarbeiten, um zu bestimmen, ob die Person, die am Anfang des Segments spricht, mit der Person, die am Ende spricht, identisch ist. Die ersten Audiodaten 124 können in Segmente und Untersegmente unterteilt werden. Zum Beispiel kann jedes Segment sechs Sekunden lang sein, mit einem ersten Untersegment, das die ersten zwei Sekunden des Segments einschließt, und einem zweiten Untersegment, das die letzten zwei Sekunden des Segments einschließt. Die Daten im ersten Untersegment werden verarbeitet, um einen ersten Satz von Merkmalen zu bestimmen, und die Daten im zweiten Untersegment werden verarbeitet, um einen zweiten Satz von Merkmalen zu bestimmen. Segmente können überlappen, derart, dass mindestens einige Daten zwischen aufeinanderfolgenden Segmenten dupliziert werden. Wenn bestimmt wird, dass der erste Satz von Merkmalen und der zweite Satz von Merkmalen innerhalb eines Schwellenwerts voneinander abweichen, kann davon ausgegangen werden, dass sie von derselben Person gesprochen wurden. Wenn der erste Satz von Merkmalen und der zweite Satz von Merkmalen nicht innerhalb des Schwellenwerts voneinander liegen, kann davon ausgegangen werden, dass sie von verschiedenen Personen gesprochen wurden. Ein Segment, das das Sprechen von zwei verschiedenen Personen einschließt, kann als Pause zwischen einem Sprecher und einem anderen bezeichnet werden. In dieser Implementierung können diese Pausen zwischen den Sprechern verwendet werden, um die Grenzen einer Runde zu bestimmen. So kann zum Beispiel bestimmt werden, dass eine Runde beginnt und endet, wenn ein Segment das Sprechen von zwei verschiedenen Personen einschließt.
  • In einigen Ausführungsformen kann das Rundenerkennungsmodul 136 in Verbindung mit oder als Teil eines Spracherkennungsmoduls 138 arbeiten, wie nachstehend beschrieben. Wenn das Spracherkennungsmodul 138 zum Beispiel feststellt, dass ein erstes Segment von einem ersten Benutzer und ein zweites Segment von einem zweiten Benutzer gesprochen wird, können Daten bestimmt werden, die auf eine Runde hinweisen.
  • Das Spracherkennungsmodul 138 kann auf Benutzerprofildaten 140 zugreifen, um zu bestimmen, ob die ersten Audiodaten 124 mit dem Benutzer 102 verbunden sind. Die Benutzerprofildaten 140 können zum Beispiel Informationen über die Sprache 116 umfassen, die der Benutzer 102 während eines Anmeldeprozesses bereitstellt. Während der Anmeldung kann der Benutzer 102 eine Probe seiner Sprache 116 bereitstellen, die dann verarbeitet wird, um Merkmale zu bestimmen, die dazu verwendet werden können, zu erkennen, ob die Sprache 116 wahrscheinlich von diesem Benutzer 102 stammt.
  • Das Spracherkennungsmodul 138 kann mindestens einen Abschnitt der ersten Audiodaten 124 verarbeiten, der als eine bestimmte Runde gekennzeichnet ist, um zu bestimmen, ob der Benutzer 102 der Sprecher ist. Zum Beispiel können die ersten Audiodaten 124 der ersten Runde vom Spracherkennungsmodul 138 verarbeitet werden, um ein Konfidenzniveau von 0,97 zu bestimmen, dass es sich bei der ersten Runde um den sprechenden Benutzer 102 handelt. Es kann ein Konfidenzschwellenwert von 0,95 festgelegt werden. In Fortsetzung des Beispiels können die ersten Audiodaten 124 der zweiten Runde vom Spracherkennungsmodul 138 verarbeitet werden, das ein Konfidenzniveau von 0,17 bestimmt, dass die zweite Runde vom sprechenden Benutzer 102 stammt.
  • Zweite Audiodaten 142 werden bestimmt, die den Abschnitt bzw. die Abschnitte der ersten Audiodaten 124 umfassen, die als Sprache 116 des Benutzers 102 bestimmt wurden. Die zweiten Audiodaten 142 können zum Beispiel aus der Sprache 116 bestehen, die ein Konfidenzniveau aufweist, das über dem Schwellenwert von 0,95 liegt. Infolgedessen lassen die zweiten Audiodaten 142 die Sprache 116 aus anderen Quellen aus, wie beispielsweise einer Person, die sich mit dem Benutzer 102 unterhält.
  • Ein Audiomerkmalsmodul 144 bestimmt aus den zweiten Audiodaten 142 Audiomerkmalsdaten 146. Das Audiomerkmalsmodul 144 kann zum Beispiel ein oder mehrere Systeme wie Signalauswertung, Klassifikatoren, neuronale Netzwerke usw. verwenden, um die Audiomerkmalsdaten 146 zu erzeugen. Die Audiomerkmalsdaten 146 können Werte, Vektoren usw. umfassen. Das Audiomerkmalsmodul 144 kann zum Beispiel ein faltungsbasiertes neuronales Netzwerk verwenden, das als Eingabe die zweiten Audiodaten 142 akzeptiert und als Ausgabe Vektoren in einem Vektorraum bereitstellt. Die Audiomerkmalsdaten 146 können Merkmale wie beispielsweise den Anstieg der Tonhöhe über die Zeit, die Sprachkadenz, die Energieintensität pro Phonem, die Dauer einer Runde usw. darstellen.
  • Ein Merkmalsauswertungsmodul 148 bestimmt aus den Audiomerkmalsdaten 146 die Stimmungsdaten 150. Die menschliche Sprache ist ein komplexes Zusammenspiel biologischer Systeme auf Seiten der sprechenden Person. Diese biologischen Systeme werden durch den physischen und emotionalen Zustand der Person beeinflusst. Infolgedessen kann die Sprache 116 des Benutzers 102 Veränderungen aufweisen. Eine ruhige Person klingt zum Beispiel anders als eine aufgeregte Person. Dies kann als „emotionale Prosodie“ bezeichnet werden und ist unabhängig von der Bedeutung der verwendeten Worte. In einigen Implementierungen kann das Merkmalsauswertungsmodul 148 zum Beispiel die Audiomerkmalsdaten 146 verwenden, um die emotionale Prosodie zu bewerten, ohne den tatsächlichen Inhalt der verwendeten Worte zu bewerten.
  • Das Merkmalsauswertungsmodul 148 bestimmt auf der Basis der Audiomerkmalsdaten 146 die Stimmungsdaten 150, die auf einen möglichen emotionalen Zustand des Benutzers 102 hinweisen. Das Merkmalsauswertungsmodul 148 kann verschiedene Werte bestimmen, die als repräsentativ für den emotionalen Zustand angesehen werden. In einigen Implementierungen können diese Werte repräsentativ für emotionale Primitive sein. (Siehe Kehrein, Roland. (2002). The prosody of authentic emotions. 27. 10.1055/s-2003-40251.). Die emotionalen Primitive können zum Beispiel Valenz, Aktivierung und Dominanz einschließen. Es kann ein Valenzwert bestimmt werden, der für eine bestimmte Veränderung der Tonhöhe der Stimme des Benutzers im Laufe der Zeit repräsentativ ist. Bestimmte Valenzwerte, die auf bestimmte Änderungen der Tonhöhe hinweisen, können mit bestimmten emotionalen Zuständen in Verbindung gebracht werden. Es kann ein Aktivierungswert bestimmt werden, der repräsentativ für das Sprechtempo des Benutzers im Zeitverlauf ist. Wie bei den Valenzwerten können bestimmte Aktivierungswerte mit bestimmten emotionalen Zuständen verbunden sein. Es kann ein Dominanzwert bestimmt werden, der repräsentativ für die Anstiegs- und Abfallmuster der Tonhöhe der Stimme des Benutzers im Zeitverlauf ist. Wie bei den Valenzwerten können bestimmte Dominanzwerte mit bestimmten emotionalen Zuständen verbunden sein. Unterschiedliche Werte von Valenz, Aktivierung und Dominanz können mit bestimmten Emotionen korrespondieren. (Siehe Grimm, Michael (2007). Primitives-based evaluation and estimation of emotions in speech. Speech Communication 49 (2007) 787-800.)
  • Das Merkmalsauswertungsmodul 148 kann auch andere Techniken verwenden. Zum Beispiel kann das Merkmalsauswertungsmodul 148 MFCC-Koeffizienten (Mel Frequency Cepstral Coefficients) von mindestens einem Abschnitt der zweiten Audiodaten 142 bestimmen. Der MFCC kann dann verwendet werden, um eine emotionale Klasse zu bestimmen, die dem Abschnitt zugeordnet ist. Die emotionale Klasse kann eine oder mehrere der Kategorien wütend, glücklich, traurig oder neutral einschließen. (Siehe Rozgic, Viktor, et. al, (2012). Emotion Recognition using Acoustic and Lexical Features. 13. Jahreskonferenz der International Speech Communication Association 2012, INTERSPEECH 2012. 1.).
  • In anderen Implementierungen kann das Merkmalsauswertungsmodul 148 die Auswertung der gesprochenen Worte und ihrer Bedeutung einschließen. Zum Beispiel kann ein automatisches Spracherkennungssystem (ASR) verwendet werden, um den Text der gesprochenen Worte zu bestimmen. Diese Informationen können dann zur Bestimmung der Stimmungsdaten 150 verwendet werden. Zum Beispiel kann das Vorhandensein von Worten in den zweiten Audiodaten 142, die mit einer positiven Konnotation verbunden sind, wie Komplimente oder Lob, verwendet werden, um die Stimmungsdaten 150 zu bestimmen. In einem anderen Beispiel können Wortstämme mit bestimmten Stimmungskategorien in Verbindung gebracht werden. Die Wortstämme können unter Verwendung von ASR bestimmt werden, und die jeweilige Stimmungslage wird kategorisiert. (Siehe Rozgic, Viktor, et. al, (2012). Emotion Recognition using Acoustic and Lexical Features. 13. Jahreskonferenz der International Speech Communication Association 2012, INTERSPEECH 2012. 1.). Andere Techniken können verwendet werden, um den emotionalen Zustand mindestens teilweise anhand der Bedeutung der vom Benutzer gesprochenen Worte zu bestimmen.
  • Die von dem Merkmalsauswertungsmodul 148 bestimmten Stimmungsdaten 150 können als ein oder mehrere numerische Werte, Vektoren, Worte usw. ausgedrückt werden. Die Stimmungsdaten 150 können zum Beispiel einen zusammengesetzten Einzelwert umfassen, wie beispielsweise einen numerischen Wert, eine Farbe usw. Zum Beispiel kann eine gewichtete Summe der Werte für Valenz, Aktivierung und Dominanz verwendet werden, um einen Gesamtstimmungsindex oder „Tonwert“ oder „Stimmungswert“ zu erzeugen. In einem anderen Beispiel können die Stimmungsdaten 150 einen oder mehrere Vektoren in einem n-dimensionalen Raum umfassen. In einem anderen Beispiel können die Stimmungsdaten 150 assoziierte Worte umfassen, die durch bestimmte Kombinationen anderer Werte bestimmt werden, wie beispielsweise Valenz-, Aktivierungs- und Dominanzwerte. Die Stimmungsdaten 150 können Werte umfassen, die nicht normativ sind. Ein Stimmungswert, der als negative Zahl ausgedrückt wird, ist beispielsweise nicht unbedingt repräsentativ für ein Gefühl, das als schlecht angesehen wird.
  • In die Rechenvorrichtung 108 kann ein Sensordatenauswertungsmodul 152 eingeschlossen sein. Das Sensordatenauswertungsmodul 152 kann die Sensordaten 128 verarbeiten und Benutzerstatusdaten 154 erzeugen. Die von den Sensoren 126 der tragbaren Vorrichtung 104 erhaltenen Sensordaten 128 können beispielsweise Informationen über Bewegungen umfassen, die von einem Beschleunigungsmesser erhalten werden, Pulsraten, die von einem Pulsoximeter erhalten werden, usw. Die Benutzerstatusdaten 154 können Informationen wie die Gesamtbewegung der tragbaren Vorrichtung 104 während bestimmter Zeitintervalle, Pulsraten während bestimmter Zeitintervalle usw. umfassen. Die Benutzerstatusdaten 154 können Informationen bereitstellen, die repräsentativ für den physiologischen Zustand des Benutzers 102 sind.
  • Ein Beratungsmodul 156 kann die Stimmungsdaten 150 und die Benutzerstatusdaten 154 verwenden, um Beratungsdaten 158 zu bestimmen. Die Stimmungsdaten 150 und die Benutzerstatusdaten 154 können jeweils eine Zeitstempelinformation einschließen. Stimmungsdaten 150 für einen ersten Zeitraum können mit Benutzerstatusdaten 154 für einen zweiten Zeitraum verknüpft werden. Historische Daten können verwendet werden, um Trends zu bestimmen. Diese Trends können dann vom Beratungsmodul 156 verwendet werden, um die Beratungsdaten 158 zu bestimmen. Beispielsweise können Trenddaten darauf hinweisen, dass, wenn die Benutzerstatusdaten 154 anzeigen, dass der Benutzer 102 weniger als 7 Stunden pro Nacht schläft, sein Gesamttonwert am nächsten Tag unter seiner persönlichen Basislinie liegt. Infolgedessen kann das Beratungsmodul 156 Beratungsdaten 158 erzeugen, um den Benutzer 102 darüber zu informieren und mehr Ruhe vorzuschlagen.
  • In einigen Implementierungen können die Beratungsdaten 158 Sprachempfehlungen einschließen. Diese Sprachempfehlungen können Vorschläge einschließen, wie der Benutzer 102 sein Sprechen steuern kann, um die offensichtlichen Emotionen, die durch sein Sprechen dargestellt werden, zu verändern oder abzumildern. In einigen Implementierungen können die Sprachempfehlungen dem Benutzer 102 raten, langsamer zu sprechen, eine Pause zu machen, tiefer zu atmen, einen anderen Tonfall vorzuschlagen usw. Zeigen die Stimmungsdaten 150 beispielsweise an, dass der Benutzer 102 verärgert zu sein scheint, kann die Empfehlung 158 lauten, dass der Benutzer 102 zehn Sekunden lang aufhört zu sprechen und dann mit ruhigerer Stimme weiterspricht. In einigen Implementierungen können die Sprachempfehlungen mit bestimmten Zielen verknüpft werden. Der Benutzer 102 möchte zum Beispiel selbstbewusster und selbstsicherer klingen. Der Benutzer 102 kann Eingaben bereitstellen, die diese Ziele angeben, wobei diese Eingaben zur Festlegung von Mindestschwellenwerten für die Verwendung durch das Beratungsmodul 156 verwendet werden. Das Beratungsmodul 156 kann die Stimmungsdaten 150 in Bezug auf diese Mindestschwellenwerte analysieren, um die Beratungsdaten 158 bereitzustellen. Um das Beispiel fortzusetzen, wenn die Stimmungsdaten 150 anzeigen, dass die Sprache des Benutzers 102 unter den Mindestschwellenwerten lag, können die Beratungsdaten 158 den Benutzer 102 informieren und auch Maßnahmen vorschlagen.
  • Die Rechenvorrichtung 108 kann aus einem oder mehreren der Stimmungsdaten 150 oder den Beratungsdaten 158 Ausgabedaten 160 erzeugen. Die Ausgabedaten 160 können zum Beispiel Anweisungen in HTML (Hypertext Markup Language) umfassen, die, wenn sie von einer Browser-Engine verarbeitet werden, ein Bild einer grafischen Benutzerschnittstelle (GUI) erzeugen. In einem anderen Beispiel können die Ausgabedaten 160 eine Anweisung umfassen, einen bestimmten Schall abzuspielen, einen Summer zu betätigen oder eine Leuchte so zu betreiben, dass sie eine bestimmte Farbe in einer bestimmten Intensität darstellt.
  • Die Ausgabedaten 160 können dann verwendet werden, um eine oder mehrere Ausgabevorrichtungen 134 zu bedienen. Um die Beispiele fortzusetzen, kann die grafische Benutzeroberfläche auf einer Display-Vorrichtung angezeigt werden, ein Summer kann betätigt werden, das Licht kann leuchten usw., um die Ausgabe 162 bereitzustellen. Die Ausgabe 162 kann eine Benutzerschnittstelle 164 einschließen, wie beispielsweise die hier abgebildete GUI, die mit Hilfe mehrerer Schnittstellenelemente 166 Informationen über die Stimmung des gestrigen Tages und der vorherigen Stunde bereitstellt. In diesem Beispiel wird die Stimmung als Hinweis auf einen typischen Bereich der mit dem Benutzer 102 verbundenen Stimmung dargestellt. In einigen Implementierungen kann die Stimmung in Form von Zahlenwerten ausgedrückt werden, und in der Benutzerschnittstelle können Schnittstellenelemente 166 mit bestimmten Farben, die mit diesen Zahlenwerten verbunden sind, dargestellt werden. Wenn beispielsweise die Stimmung des Benutzers 102 einen oder mehrere Werte aufweist, die den typischen Bereich des Benutzers 102 für eine mit Glücklichsein assoziierte Metrik überschreiten, kann ein grün gefärbtes Schnittstellenelement 166 angezeigt werden. Wenn dagegen die Stimmung des Benutzers 102 einen oder mehrere Werte aufweist, die üblicherweise unter dem typischen Bereich des Benutzers 102 liegen, kann ein blau gefärbtes Schnittstellenelement 166 angezeigt werden. Der typische Bereich kann üblicherweise mit einem oder mehreren Verfahren bestimmt werden. Beispielsweise kann der typische Bereich auf minimalen Stimmungswerten oder maximalen Stimmungswerten basieren, kann in Bezug auf einen Durchschnitt oder eine lineare Regressionslinie festgelegt werden usw.
  • Das System kann die Ausgabe 162 auf der Grundlage von Daten bereitstellen, die in verschiedenen Zeitintervallen gewonnen wurden. Die Benutzerschnittstelle 164 veranschaulicht zum Beispiel die Stimmung des gestrigen Tages und der letzten Stunde. Das System 100 kann Informationen über die Stimmung in anderen Zeiträumen darstellen. Beispielsweise können die Stimmungsdaten 150 in Echtzeit oder nahezu in Echtzeit dargestellt werden, indem Audiorohdaten 118 verwendet werden, die in den letzten n Sekunden gewonnen wurden, wobei n größer als Null ist.
  • Es ist zu verstehen, dass die verschiedenen Funktionen, Module und Vorgänge, die in diesem System 100 beschrieben sind, auch von anderen Vorrichtungen ausgeführt werden können. Das Beratungsmodul 156 kann zum Beispiel auf einem Server ausgeführt werden.
  • 2 veranschaulicht ein Blockdiagramm 200 von Sensoren 126 und Ausgabevorrichtungen 134, die von der tragbaren Vorrichtung 104, der Rechenvorrichtung 108 oder anderen Vorrichtungen während des Betriebs des Systems 100 verwendet werden können, gemäß einer Implementierung. Wie vorstehend unter Bezugnahme auf 1 beschrieben, können die Sensoren 126 Sensordaten 128 erzeugen.
  • Der eine oder die mehreren Sensoren 126 können in eine Rechenvorrichtung, wie die tragbare Vorrichtung 104, die Rechenvorrichtung 108 usw., integriert oder in diese eingebaut sein. Die Sensoren 126 können zum Beispiel bei der Herstellung in die tragbare Vorrichtung 104 eingebaut werden. In anderen Implementierungen können die Sensoren 126 Teil einer anderen Vorrichtung sein. Die Sensoren 126 können zum Beispiel eine externe Vorrichtung umfassen, die mit der Rechenvorrichtung 108 über Bluetooth, Wi-Fi, 3G, 4G, 5G, LTE, ZigBee, Z-Wave oder eine andere drahtlose oder drahtgebundene Kommunikationstechnologie kommuniziert.
  • Der eine oder die mehreren Sensoren 126 können eine oder mehrere Tasten 126(1) einschließen, die so konfiguriert sind, dass sie Eingaben des Benutzers 102 annehmen. Die Tasten 126(1) können mechanische, kapazitive, optische oder andere Mechanismen umfassen. Die Tasten 126(1) können zum Beispiel mechanische Schalter umfassen, die so konfiguriert sind, dass sie eine durch eine Berührung des Benutzers 102 ausgeübte Kraft aufnehmen, um ein Eingabesignal zu erzeugen. In einigen Implementierungen können Eingaben von einem oder mehreren Sensoren 126 verwendet werden, um die Erfassung der Audiorohdaten 118 einzuleiten. Zum Beispiel kann die Aktivierung einer Taste 126(1) die Erfassung der Audiorohdaten 118 einleiten.
  • Ein Blutdrucksensor 126(2) kann so konfiguriert sein, dass er Sensordaten 128 bereitstellt, die den Blutdruck des Benutzers 102 anzeigen. Der Blutdrucksensor 126(2) kann zum Beispiel eine Kamera umfassen, die Bilder von Blutgefäßen aufnimmt und den Blutdruck bestimmt, indem sie die Veränderungen im Durchmesser der Blutgefäße im Laufe der Zeit analysiert. In einem anderen Beispiel kann der Blutdrucksensor 126(2) einen Sensorwandler umfassen, der in Kontakt mit der Haut des Benutzers 102 in der Nähe eines Blutgefäßes steht.
  • Ein Pulsoximeter 126(3) kann so konfiguriert sein, dass es Sensordaten 128 bereitstellt, die eine kardiale Pulsrate und Daten über die Sauerstoffsättigung des Blutes des Benutzers 102 anzeigen. Beispielsweise kann das Pulsoximeter 126(3) eine oder mehrere Leuchtdioden (LEDs) und entsprechende Detektoren verwenden, um Veränderungen der scheinbaren Farbe des Blutes des Benutzers 102 zu bestimmen, die sich aus der Bindung von Sauerstoff an das Hämoglobin im Blut ergeben, wodurch Informationen über die Sauerstoffsättigung bereitgestellt werden. Zeitliche Veränderungen der scheinbaren Reflexion des von den LEDs ausgestrahlten Lichts können zur Bestimmung des Herzpulses verwendet werden.
  • Die Sensoren 126 können einen oder mehrere Berührungssensoren 126(4) einschließen. Die Berührungssensoren 126(4) können resistive, kapazitive, Oberflächenkapazitäten, projizierte Kapazitäten, gegenseitige Kapazitäten, optische, interpolierende kraftsensitive Widerstände (IFSR) oder andere Mechanismen verwenden, um die Position einer Berührung oder Beinaheberührung des Benutzers 102 zu bestimmen. Der IFSR kann zum Beispiel ein Material umfassen, das so konfiguriert ist, dass es den elektrischen Widerstand als Antwort auf eine aufgebrachte Kraft ändert. Der Ort dieser Veränderung des elektrischen Widerstands innerhalb des Materials kann die Position der Berührung anzeigen.
  • Ein oder mehrere Mikrofone 126(5) können so konfiguriert werden, dass sie Informationen über den in der Umgebung vorhandenen Schall erfassen. In einigen Implementierungen können mehrere Mikrofone 126(5) verwendet werden, um das Mikrofonarray 112 zu bilden. Wie vorstehend beschrieben, kann das Mikrofonarray 112 Techniken zur Strahlenbildung implementieren, um eine Richtwirkung der Verstärkung bereitzustellen.
  • Ein Temperatursensor (oder Thermometer) 126(6) kann Informationen bereitstellen, die die Temperatur eines Objekts anzeigen. Der Temperatursensor 126(6) in der Rechenvorrichtung kann so konfiguriert sein, dass er die Temperatur der Umgebungsluft in der Nähe des Benutzers 102, die Körpertemperatur des Benutzers 102 usw. misst. Der Temperatursensor 126(6) kann einen Silizium-Bandlücken-Temperatursensor, einen Thermistor, ein Thermoelement oder eine andere Vorrichtung umfassen. In einigen Implementierungen kann der Temperatursensor 126(6) einen Infrarotdetektor umfassen, der so konfiguriert ist, dass er die Temperatur anhand von Wärmestrahlung bestimmt.
  • Die Sensoren 126 können einen oder mehrere Lichtsensoren 126(7) einschließen. Die Lichtsensoren 126(7) können so konfiguriert sein, dass sie Informationen über die Beleuchtungsbedingungen in der Umgebung bereitstellen, wie beispielsweise ein bestimmtes Niveau der Beleuchtungsstärke. Die Lichtsensoren 126(7) können für Wellenlängen empfindlich sein, einschließlich, aber nicht eingeschränkt auf, Infrarot-, sichtbares oder ultraviolettes Licht. Im Gegensatz zu einer Kamera kann der Lichtsensor 126(7) üblicherweise eine Folge von Amplitudenabtastwerten und Farbdaten bereitstellen, während die Kamera eine Folge von zweidimensionalen Bildern von Abtastwerten (Pixeln) bereitstellt.
  • Ein oder mehrere RFID-Lesegeräte (Radio Frequency Identification) 126(8), NFC-Systeme (Near Field Communication) usw. können ebenfalls als Sensoren 126 eingeschlossen werden. Der Benutzer 102, Objekte in der Umgebung der Rechenvorrichtung, Orte innerhalb eines Gebäudes usw. können mit einem oder mehreren RF-Tags ausgestattet sein. Die RF-Tags sind so konfiguriert, dass sie ein RF-Signal aussenden. In einer Implementierung kann der RF-Tag ein RFID-Tag sein, der so konfiguriert ist, dass er das RF-Signal bei Aktivierung durch ein externes Signal aussendet. Das externe Signal kann zum Beispiel ein RF-Signal oder ein Magnetfeld umfassen, das so konfiguriert ist, dass es den RFID-Tag aktiviert. In einer anderen Implementierung kann das RF-Tag einen Sender und eine Stromquelle umfassen, die für die Stromversorgung des Senders konfiguriert ist. Der RF-Tag kann zum Beispiel einen Sender mit Bluetooth Low Energy (BLE) und eine Batterie umfassen. In anderen Implementierungen kann das Tag andere Techniken verwenden, um seine Anwesenheit anzuzeigen. Ein akustisches Tag kann zum Beispiel so konfiguriert sein, dass es ein Ultraschallsignal erzeugt, das von entsprechenden akustischen Empfängern zum Nachweis erfasst wird. In einer anderen-Implementierung kann das Tag so konfiguriert sein, dass es ein optisches Signal aussendet.
  • Ein oder mehrere RF-Empfänger 126(9) können auch als Sensoren 126 eingeschlossen werden. In einigen Implementierungen können die RF-Empfänger 126(9) Teil von Sendeempfänger-Baugruppen sein. Die RF-Empfänger 126(9) können so konfiguriert sein, dass sie RF-Signale erfassen, die mit Wi-Fi, Bluetooth, ZigBee, Z-Wave, 3G, 4G, LTE oder anderen drahtlosen Datenübertragungstechnologien verbunden sind. Die RF-Empfänger 126(9) können Informationen bereitstellen, die mit den über Funkfrequenzen übertragenen Daten, der Signalstärke der RF-Signale usw. zusammenhängen. So können beispielsweise Informationen von den RF-Empfängern 126(9) verwendet werden, um die Bestimmung des Ortes der Rechenvorrichtung zu erleichtern usw.
  • Die Sensoren 126 können einen oder mehrere Beschleunigungsmesser 126(10) einschließen. Die Beschleunigungsmesser 126(10) können Informationen bereitstellen, wie beispielsweise die Richtung und Größe einer aufgezwungenen Beschleunigung, die Neigung relativ zur lokalen Vertikalen usw. Daten wie die Rate der Beschleunigung, die Bestimmung von Richtungsänderungen, Geschwindigkeit, Neigung usw. können mit den Beschleunigungsmessern 126(10) bestimmt werden.
  • Ein Gyroskop 126(11) stellt Informationen bereit, die die Drehung eines daran befestigten Objekts anzeigen. Das Gyroskop 126(11) kann zum Beispiel anzeigen, ob die Vorrichtung gedreht wurde.
  • Ein Magnetometer 126(12) kann verwendet werden, um eine Orientierung durch die Messung von Umgebungsmagnetfeldern, wie beispielsweise des Erdmagnetfeldes, zu bestimmen. Beispielsweise kann die Ausgabe des Magnetometers 126(12) verwendet werden, um zu bestimmen, ob die Vorrichtung, die den Sensor 126 enthält, wie beispielsweise die Rechenvorrichtung 108, ihre Orientierung geändert oder sich anderweitig bewegt hat. In anderen Implementierungen kann das Magnetometer 126(12) so konfiguriert sein, dass es von einer anderen Vorrichtung erzeugte Magnetfelder erkennt.
  • Ein Glukosesensor 126(13) kann verwendet werden, um eine Glukosekonzentration im Blut oder im Gewebe des Benutzers 102 zu bestimmen. Der Glukosesensor 126(13) kann zum Beispiel ein Nahinfrarotspektroskop umfassen, das die Konzentration von Glukose oder Glukosemetaboliten in Geweben bestimmt. In einem anderen Beispiel kann der Glukosesensor 126(13) einen chemischen Detektor umfassen, der die Anwesenheit von Glukose oder Glukosemetaboliten an der Oberfläche der Haut des Benutzers misst.
  • Ein Ortssensor 126(14) ist so konfiguriert, dass er Informationen bereitstellt, die einen Ort angeben. Der Ort kann relativ oder absolut sein. Ein relativer Ort kann zum Beispiel „Küche“, „Schlafzimmer“, „Konferenzraum“ usw. anzeigen. Im Vergleich dazu wird ein absoluter Ort in Bezug auf einen Referenzpunkt oder ein Datum ausgedrückt, wie beispielsweise eine Straßenadresse, eine Geolokalisierung, die Koordinaten umfasst, die die geografische Breite und Länge, ein Raster usw. angeben. Der Ortssensor 126(14) kann funknavigationsbasierte Systeme wie terrestrische oder satellitengestützte Navigationssysteme einschließen, ist aber nicht darauf beschränkt. Das satellitengestützte Navigationssystem kann einen oder mehrere GPS-Empfänger (Global Positioning System), einen GLONASS-Empfänger (Global Navigation Satellite System), einen Galileo-Empfänger, einen BDS-Empfänger (BeiDou Navigation Satellite System), ein indisches regionales Navigationssatellitensystem usw. einschließen. In einigen Implementierungen kann der Ortssensor 126(14) entfallen oder in Verbindung mit einer externen Ressource betrieben werden, wie beispielsweise einem Betreiber eines zellularen Netzwerks, der Standortinformationen bereitstellt, oder Bluetooth-Beacons.
  • Ein Fingerabdrucksensor 126(15) ist für die Erfassung von Fingerabdruckdaten konfiguriert. Der Fingerabdrucksensor 126(15) kann einen optischen, Ultraschall-, kapazitiven, resistiven oder anderen Detektor verwenden, um ein Bild oder eine andere Darstellung der Merkmale eines Fingerabdrucks zu erhalten. Der Fingerabdrucksensor 126(15) kann zum Beispiel einen kapazitiven Sensor umfassen, der so konfiguriert ist, dass er ein Bild des Fingerabdrucks des Benutzers 102 erzeugt.
  • Ein Näherungssensor 126(16) kann so konfiguriert sein, dass er Sensordaten 128 bereitstellt, die das Vorhandensein oder Nichtvorhandensein eines Objekts, den Abstand zum Objekt und/oder Eigenschaften des Objekts anzeigen. Der Näherungssensor 126(16) kann optische, elektrische, Ultraschall-, elektromagnetische oder andere Techniken verwenden, um das Vorhandensein eines Objekts zu bestimmen. Der Näherungssensor 126(16) kann zum Beispiel einen kapazitiven Näherungssensor umfassen, der so konfiguriert ist, dass er ein elektrisches Feld bereitstellt und eine Änderung der elektrischen Kapazität aufgrund der Anwesenheit oder Abwesenheit eines Objekts innerhalb des elektrischen Feldes bestimmt.
  • Ein Bildsensor 126(17) umfasst ein bildgebendes Element zur Aufnahme von Bildern im sichtbaren Licht, im Infrarot, im Ultraviolett usw. Der Bildsensor 126(17) kann zum Beispiel ein komplementäres Metalloxid-Bildelement (CMOS) oder eine ladungsgekoppelte Vorrichtung (CCD) umfassen.
  • Die Sensoren 126 können auch andere Sensoren 126(S) einschließen. Die anderen Sensoren 126(S) können zum Beispiel Dehnungsmessstreifen, Manipulationsschutzindikatoren usw. einschließen. Zum Beispiel können Dehnungsmessstreifen oder Dehnungssensoren in die tragbare Vorrichtung 104 eingebettet und so konfiguriert sein, dass sie Informationen bereitstellen, die anzeigen, dass mindestens ein Abschnitt der tragbaren Vorrichtung 104 gedehnt oder verschoben wurde, derart, dass die tragbare Vorrichtung 104 an- oder abgelegt worden sein kann.
  • In einigen Implementierungen können die Sensoren 126 Hardwareprozessoren, Speicher und andere Elemente einschließen, die zur Ausführung verschiedener Funktionen konfiguriert sind. Außerdem können die Sensoren 126 so konfiguriert sein, dass sie über ein Netzwerk kommunizieren oder direkt mit den anderen Vorrichtungen koppeln.
  • Die Rechenvorrichtung kann eine oder mehrere Ausgabevorrichtungen 134 einschließen oder mit ihnen koppeln. Die Ausgabevorrichtungen 134 sind so konfiguriert, dass sie Signale erzeugen, die vom Benutzer 102 wahrgenommen oder von den Sensoren 126 zum Nachweis erfasst werden können, oder eine Kombination davon.
  • Die haptischen Ausgabevorrichtungen 134(1) sind so konfiguriert, dass sie dem Benutzer 102 ein Signal bereitstellen, das zu einer taktilen Wahrnehmung führt. Die haptischen Ausgabevorrichtungen 134(1) können einen oder mehrere Mechanismen wie elektrische Stimulation oder mechanische Verschiebung verwenden, um das Signal bereitzustellen. Die haptischen Ausgabevorrichtungen 134(1) können zum Beispiel so konfiguriert sein, dass sie ein moduliertes elektrisches Signal erzeugen, das eine scheinbare taktile Empfindung in einem oder mehreren Fingern des Benutzers 102 herstellt. In einem anderen Beispiel können die haptischen Ausgabevorrichtungen 134(1) piezoelektrische oder rotierende motorische Vorrichtungen umfassen, die so konfiguriert sind, dass sie eine Vibration bereitstellen, die vom Benutzer 102 wahrgenommen werden kann.
  • Eine oder mehrere Audiovorrichtungen 134(2) sind so konfiguriert, dass sie eine akustische Ausgabe bereitstellen. Die akustische Ausgabe schließt einen oder mehrere Infraschalltöne, hörbare Töne oder Ultraschalltöne ein. Die Ausgabevorrichtungen 134(2) können einen oder mehrere Mechanismen verwenden, um die akustische Ausgabe zu erzeugen. Diese Mechanismen können Folgendes einschließen, sind aber nicht darauf beschränkt: Schwingspulen, piezoelektrische Elemente, magnetostriktive Elemente, elektrostatische Elemente usw. Zum Beispiel kann ein piezoelektrischer Summer oder ein Lautsprecher verwendet werden, um eine akustische Ausgabe durch eine Audiovorrichtung 134(2) bereitzustellen.
  • Die Display-Vorrichtungen 132(3) können so konfiguriert sein, dass sie eine Ausgabe bereitstellen, die vom Benutzer 102 gesehen oder von einem lichtempfindlichen Detektor wie dem Bildsensor 126(17) oder dem Lichtsensor 126(7) nachgewiesen werden kann. Die Ausgabe kann monochrom oder in Farbe erfolgen. Die Display-Vorrichtungen 132(3) können emittierend, reflektierend oder beides sein. Eine Display-Vorrichtung mit Emission (132(3)), wie beispielsweise mit LEDs, ist so konfiguriert, dass sie während des Betriebs Licht aussendet. Im Vergleich dazu ist eine reflektierende Display-Vorrichtung 132(3), die beispielsweise ein elektrophoretisches Element verwendet, auf das Umgebungslicht angewiesen, um ein Bild darzustellen. Zur Beleuchtung von Display-Vorrichtungen 132(3), die nicht emittierend sind, können Hintergrund- oder Frontlichter verwendet werden, um die Sichtbarkeit der Ausgabe bei geringem Niveau der Umgebungsbeleuchtung bereitzustellen.
  • Die Display-Mechanismen der Display-Vorrichtungen 132(3) können mikroelektromechanische Systeme (MEMS), räumliche Lichtmodulatoren, Elektrolumineszenz-Displays, Quantenpunkt-Displays, Flüssigkristall-Displays auf Silizium (LCOS), cholesterische Displays, interferometrische Displays, Flüssigkristall-Displays, elektrophoretische Displays, LED-Displays usw. einschließen, sind aber nicht darauf beschränkt. Diese Display-Mechanismen sind so konfiguriert, dass sie Licht emittieren, einfallendes Licht aus einer anderen Quelle modulieren oder beides. Die Display-Vorrichtungen 132(3) können als Tafeln, Projektoren usw. betrieben werden.
  • Die Display-Vorrichtungen 132(3) können so konfiguriert sein, dass sie Bilder darstellen. Die Display-Vorrichtungen 132(3) können zum Beispiel ein pixeladressierbares Display umfassen. Das Bild kann mindestens eine zweidimensionale Anordnung von Pixeln oder eine Vektordarstellung eines mindestens zweidimensionalen Bildes umfassen.
  • In einigen Implementierungen können die Display-Vorrichtungen 132(3) so konfiguriert sein, dass sie auch Nicht-Bilddaten bereitstellen, wie beispielsweise Text oder numerische Zeichen, Farben usw. Zum Beispiel kann eine segmentierte elektrophoretische Display-Vorrichtung 132(3), eine segmentierte LED usw. verwendet werden, um Informationen wie Buchstaben oder Zahlen darzustellen. Die Display-Vorrichtungen 132(3) können auch so konfiguriert werden, dass die Farbe des Segments variiert, wie beispielsweise bei der Verwendung mehrfarbiger LED-Segmente.
  • Es können auch andere Ausgabevorrichtungen 134(T) vorhanden sein. Die anderen Ausgabevorrichtungen 134(T) können zum Beispiel Duftspender einschließen.
  • 3 veranschaulicht ein Blockdiagramm einer Rechenvorrichtung 300, die zur Unterstützung des Betriebs des Systems 100 konfiguriert ist. Wie vorstehend beschrieben, kann es sich bei der Rechenvorrichtung 300 um die tragbare Vorrichtung 104, die Rechenvorrichtung 108 usw. handeln.
  • Eine oder mehrere Stromversorgungen 302 sind so konfiguriert, dass sie elektrische Energie bereitstellen, die für den Betrieb der Komponenten in der Rechenvorrichtung 300 geeignet ist. In einigen Implementierungen kann die Stromversorgung 302 eine wiederaufladbare Batterie, eine Brennstoffzelle, eine photovoltaische Zelle, eine Schaltlogik zur Stromaufbereitung, einen drahtlosen Stromempfänger usw. umfassen.
  • Die Rechenvorrichtung 300 kann einen oder mehrere Hardwareprozessoren 304 (Prozessoren) einschließen, die zur Ausführung einer oder mehrerer gespeicherter Anweisungen konfiguriert sind. Die Prozessoren 304 können einen oder mehrere Kerne umfassen. Eine oder mehrere Uhren 306 können Informationen bereitstellen, die Datum, Uhrzeit, Ticks usw. anzeigen. So kann der Prozessor 304 zum Beispiel Daten von der Uhr 306 verwenden, um einen Zeitstempel zu erzeugen, eine vorprogrammierte Aktion auszulösen usw.
  • Die Rechenvorrichtung 300 kann eine oder mehrere Kommunikationsschnittstellen 132 einschließen, wie beispielsweise Eingabe-/Ausgabe-Schnittstellen (E/A) 308, Netzwerkschnittstellen 310 usw. Die Kommunikationsschnittstellen 132 ermöglichen es der Rechenvorrichtung 300 oder ihren Komponenten, mit anderen Vorrichtungen oder Komponenten zu kommunizieren. Die Kommunikationsschnittstellen 132 können eine oder mehrere E/A-Schnittstellen 308 einschließen. Die E/A-Schnittstellen 308 können Schnittstellen wie Inter-Integrated Circuit (I2C), Serial Peripheral Interface Bus (SPI), Universal Serial Bus (USB), wie vom USB Implementers Forum verkündet, RS-232 usw. umfassen.
  • Die E/A-Schnittstelle(n) 308 können mit einer oder mehreren E/A-Vorrichtungen 312 gekoppelt sein. Die E/A-Vorrichtungen 312 können Eingabevorrichtungen wie einen oder mehrere der Sensoren 126 einschließen. Die E/A-Vorrichtungen 312 können auch Ausgabevorrichtungen 134 einschließen, wie beispielsweise eine oder mehrere Audiovorrichtungen 134(2), eine Display-Vorrichtung 134(3) usw. In einigen Ausführungsformen können die E/A-Vorrichtungen 312 physisch in die Rechenvorrichtung 300 integriert oder extern platziert sein.
  • Die Netzwerkschnittstellen 310 sind so konfiguriert, dass sie die Kommunikation zwischen der Rechenvorrichtung 300 und anderen Vorrichtungen, wie den Sensoren 126, Routern, Zugriffsnetzwerken usw. bereitstellen. Die Netzwerkschnittstellen 310 können Vorrichtungen einschließen, die so konfiguriert sind, dass sie mit drahtgebundenen oder drahtlosen persönlichen Bereichsnetzwerken (PANs), lokalen Bereichsnetzwerken (LANs), Weitverkehrsnetzwerken (WANs) usw. koppeln. Die Netzwerkschnittstellen 310 können zum Beispiel Vorrichtungen einschließen, die mit Ethernet, Wi-Fi, Bluetooth, ZigBee, 4G, 5G, LTE usw. kompatibel sind.
  • Die Rechenvorrichtung 300 kann auch einen oder mehrere Busse oder andere interne Kommunikationshardware oder -software einschließen, die die Übertragung von Daten zwischen den verschiedenen Modulen und Komponenten der Rechenvorrichtung 300 ermöglichen.
  • Wie in 3 dargestellt, schließt die Rechenvorrichtung 300 einen oder mehrere Speicher 314 ein. Der Speicher 314 umfasst ein oder mehrere computerlesbare Speichermedien (CRSM). Das CRSM kann ein elektronisches Speichermedium, ein magnetisches Speichermedium, ein optisches Speichermedium, ein Quantenspeichermedium, ein mechanisches Computerspeichermedium usw. sein. Der Speicher 314 stellt die Speicherung von computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen und anderen Daten für den Betrieb der Rechenvorrichtung 300 bereit. Es sind einige beispielhafte Funktionsmodule dargestellt, die im Speicher 314 gespeichert sind, obwohl dieselbe Funktionalität alternativ auch in Hardware, Firmware oder als System auf einem Chip (SOC) implementiert werden kann.
  • Der Speicher 314 kann mindestens ein Betriebssystemmodul (OS) 316 einschließen. Das OS-Modul 316 ist so konfiguriert, dass es Hardware-Ressourcenvorrichtungen wie die E/A-Schnittstellen 308, die Netzwerkschnittstellen 310 und die E/A-Vorrichtungen 312 verwaltet und verschiedene Dienstleistungen für Anwendungen oder Module bereitstellt, die auf den Prozessoren 304 ausgeführt werden. Das OS-Modul 316 kann eine Variante des FreeBSD-Betriebssystems, wie es vom FreeBSD-Projekt propagiert wird, ein anderes UNIX- oder UNIX-ähnliches Betriebssystem, eine Variante des Linux-Betriebssystems, wie es von Linus Torvalds propagiert wird, das Windows-Betriebssystem der Microsoft Corporation aus Redmond, Washington, USA, das Android-Betriebssystem der Google Corporation aus Mountain View, Kalifornien, USA, das iOS-Betriebssystem der Apple Corporation aus Cupertino, Kalifornien, USA, oder andere Betriebssysteme implementieren.
  • In dem Speicher 314 können auch ein Datenspeicher 318 und eines oder mehrere der folgenden Module gespeichert sein. Diese Module können als Vordergrundanwendungen, Hintergrundaufgaben, Daemons usw. ausgeführt werden. Der Datenspeicher 318 kann eine flache Datei, eine Datenbank, eine verknüpfte Liste, einen Baum, einen ausführbaren Code, ein Skript oder eine andere Datenstruktur zum Speichern von Informationen verwenden. In einigen Implementierungen kann der Datenspeicher 318 oder ein Abschnitt des Datenspeichers 318 auf eine oder mehrere andere Vorrichtungen einschließlich der Rechenvorrichtungen 300, an das Netzwerk angeschlossene Speichervorrichtungen usw. verteilt werden.
  • Ein Kommunikationsmodul 320 kann so konfiguriert sein, dass es die Kommunikation mit einer oder mehreren anderen Rechenvorrichtungen 300, den Sensoren 126 usw. herstellt. Die Kommunikation kann authentifiziert, verschlüsselt usw. sein. Das Kommunikationsmodul 320 kann auch die Kommunikationsschnittstellen 132 steuern. Das Kommunikationsmodul 320 kann zum Beispiel Daten verschlüsseln und entschlüsseln.
  • Im Speicher 314 kann auch ein Datenerfassungsmodul 322 gespeichert sein. Das Datenerfassungsmodul 322 ist so konfiguriert, dass es Audiorohdaten 118, Sensordaten 128 usw. erfasst. In einigen Implementierungen kann das Datenerfassungsmodul 322 so konfiguriert sein, dass es den einen oder die mehreren Sensoren 126, das Mikrofonarray 112 usw. betreibt. So kann das Datenerfassungsmodul 322 zum Beispiel bestimmen, dass die Sensordaten 128 ein Auslöseereignis erfüllen. Das Auslöseereignis kann Werte von Sensordaten 128 für einen oder mehrere Sensoren 126 umfassen, die einen Schwellenwert überschreiten. Wenn zum Beispiel ein Pulsoximeter 126(3) an der tragbaren Vorrichtung 104 anzeigt, dass der Puls des Benutzers 102 einen Schwellenwert überschritten hat, kann das Mikrofonarray 112 betrieben werden, um Audiorohdaten 118 zu erfassen.
  • In einem anderen Beispiel kann das Datenerfassungsmodul 322 auf der tragbaren Vorrichtung 104 Anweisungen von der Rechenvorrichtung 108 erhalten, Audiorohdaten 118 in einem festgelegten Intervall, zu einem geplanten Zeitpunkt usw. zu erhalten. Zum Beispiel kann die Rechenvorrichtung 108 alle 540 Sekunden Anweisungen zur Erfassung von Audiorohdaten 118 für 60 Sekunden senden. Die Audiorohdaten 118 können dann mit dem Sprachaktivitätserkennungsmodul 120 verarbeitet werden, um zu bestimmen, ob Sprache 116 vorhanden ist. Wenn Sprache 116 nachgewiesen wird, können die ersten Audiodaten 124 erhalten und dann an die Rechenvorrichtung 108 gesendet werden.
  • Ein Benutzerschnittstellenmodul 324 stellt eine Benutzerschnittstelle mit einer oder mehreren der E/A-Vorrichtungen 312 bereit. Das Benutzerschnittstellenmodul 324 kann verwendet werden, um Eingaben vom Benutzer 102 zu erhalten, dem Benutzer 102 Informationen zu präsentieren usw. Zum Beispiel kann das Benutzerschnittstellenmodul 324 eine grafische Benutzerschnittstelle auf der Display-Vorrichtung 134(3) darstellen und Benutzereingaben über den Berührungssensor 126(4) annehmen.
  • Ein oder mehrere andere Module 326, wie das Sprachaktivitätserkennungsmodul 120, das Audiovorverarbeitungsmodul 122, das Datenübertragungsmodul 130, das Rundenerkennungsmodul 136, das Spracherkennungsmodul 138, das Audiomerkmalsmodul 144, das Merkmalsauswertungsmodul 148, das Sensordatenauswertungsmodul 152, das Beratungsmodul 156 usw. können ebenfalls im Speicher 314 gespeichert werden.
  • Die Daten 328 können in dem Datenspeicher 318 gespeichert werden. Die Daten 328 können zum Beispiel eines oder mehrere der folgenden Elemente umfassen: Audiorohdaten 118, erste Audiodaten 124, Sensordaten 128, Benutzerprofildaten 140, zweite Audiodaten 142, Stimmungsdaten 150, Benutzerstatusdaten 154, Beratungsdaten 158, Ausgabedaten 160 usw.
  • Ein oder mehrere Erfassungsparameter 330 können in dem Speicher 314 gespeichert werden. Die Erfassungsparameter 330 können Parameter wie Abtastrate, Abtastfrequenz, Bildgröße usw. umfassen.
  • Die Schwellwertdaten 332 können im Speicher 314 gespeichert werden. Zum Beispiel können die Schwellwertdaten 332 einen oder mehrere Schwellenwerte festlegen, die vom Sprachaktivitätserkennungsmodul 120 verwendet werden, um zu bestimmen, ob die Audiorohdaten 118 Sprache 116 einschließen.
  • Die Rechenvorrichtung 300 kann historische Daten 334 verwalten. Die historischen Daten 334 können verwendet werden, um Informationen über Trends oder Veränderungen im Laufe der Zeit bereitzustellen. Die historischen Daten 334 können zum Beispiel eine Angabe der Stimmungsdaten 150 auf stündlicher Basis für die letzten 90 Tage umfassen. In einem anderen Beispiel können die historischen Daten 334 die Benutzerstatusdaten 154 für die letzten 90 Tage umfassen.
  • In dem Datenspeicher 318 können auch andere Daten 336 gespeichert werden.
  • In verschiedenen Implementierungen können verschiedene Rechenvorrichtungen 300 unterschiedliche Fähigkeiten oder Kapazitäten haben. Zum Beispiel kann die Rechenvorrichtung 108 im Vergleich zur tragbaren Vorrichtung 104 über eine wesentlich höhere Kapazität des Prozessors 304 und des Speichers 314 verfügen. In einer Implementierung kann die tragbare Vorrichtung 104 die ersten Audiodaten 124 bestimmen und die ersten Audiodaten 124 an die Rechenvorrichtung 108 senden. In einer anderen Implementierung kann die tragbare Vorrichtung 104 die Stimmungsdaten 150, Beratungsdaten 158 usw. erzeugen. Andere Kombinationen der Verteilung von Datenverarbeitung und Funktionalität können in anderen Implementierungen verwendet werden.
  • 4 veranschaulicht mit 400 Teile eines Gesprächs zwischen dem Benutzer 102 und einer zweiten Person, gemäß einer Implementierung. In dieser Figur nimmt die Zeit 402 auf der Seite nach unten zu. Ein Gespräch 404 kann die von einer oder mehreren Personen erzeugten Sprache 116 umfassen. Wie hierin dargestellt, kann der Benutzer 102 zum Beispiel mit einer zweiten Person sprechen. In einer anderen Implementierung kann das Gespräch 404 die Sprache 116 des Benutzers 102 umfassen, der zu sich selbst spricht. Mehrere Runden 406(1)-(4) des Gesprächs 404 sind hierin veranschaulicht. Eine Runde 406 kann zum Beispiel einen zusammenhängenden Abschnitt der Sprache 116 von einer einzelnen Person umfassen. In diesem Beispiel ist die erste Runde 406(1) der Benutzer 102, der sagt: „Hallo, danke, dass Sie heute gekommen sind“, während die zweite Runde 406(2) die zweite Person ist, die mit „Danke, dass Sie mich eingeladen haben. Ich freue mich auf...“ antwortet. Die erste Runde 406(1) besteht aus einem einzigen Satz, während die zweite Runde 406(2) aus mehreren Sätzen besteht.
  • Das System 100 erfasst die Audiorohdaten 118, aus denen dann die ersten Audiodaten 124 bestimmt werden. Die ersten Audiodaten 124 sind hier als Blöcke veranschaulicht, wobei die Schattierung den jeweiligen Sprecher angibt. Ein Block kann zum Beispiel für einen bestimmten Zeitraum, einen Satz von einem oder mehreren Einzelbildern von Audiodaten usw. stehen.
  • Das Rundenerkennungsmodul 136 kann verwendet werden, um die Grenzen der einzelnen Runden 406 zu bestimmen. Zum Beispiel kann das Rundenerkennungsmodul 136 eine Runde 406 auf der Basis einer Änderung des Schalls des Sprechenden, auf der Basis der Zeit usw. bestimmen.
  • Das Spracherkennungsmodul 138 wird verwendet, um zu bestimmen, ob es sich bei dem Abschnitt der ersten Audiodaten 124, wie beispielsweise einer bestimmten Runde 406, um Sprache 116 des Benutzers 102 handelt. Beim Bestimmen der zweiten Audiodaten 142 werden die Audiodaten der Runden 406, die nicht dem Benutzer 102 zugeordnet sind, weggelassen. Infolgedessen können die zweiten Audiodaten 142 aus Audiodaten bestehen, die als Sprache 116 des Benutzers 102 angesehen werden. Das System 100 ist somit nicht in der Lage, die Sprache 116 der zweiten Person zu verarbeiten.
  • Die zweiten Audiodaten 142 werden verarbeitet und die Stimmungsdaten 150 bestimmt. Die Stimmungsdaten 150 können für verschiedene Abschnitte der zweiten Audiodaten 142 bestimmt werden. Die Stimmungsdaten 150 können zum Beispiel für eine bestimmte Runde 406 bestimmt werden, wie hierin veranschaulicht. In einem anderen Beispiel können die Stimmungsdaten 150 auf der Grundlage von Audiodaten aus mehr als einer Runde 406 bestimmt werden. Wie vorstehend beschrieben, können die Stimmungsdaten 150 in Form eines oder mehrerer Valenzwerte, Aktivierungswerte, Dominanzwerte usw. ausgedrückt werden. Diese Werte können verwendet werden, um einen einzelnen Wert zu bestimmen, wie beispielsweise einen Tonwert oder einen Stimmungsindex. Die Stimmungsdaten 150 können ein oder mehrere zugehörige Worte 408, zugehörige Symbole, zugehörige Farben usw. einschließen. So kann zum Beispiel die Kombination aus Valenzwert, Aktivierungswert und Dominanzwert einen mehrdimensionalen Raum beschreiben. Verschiedene Volumina innerhalb dieses Raums können mit bestimmten Worten verbunden sein. In diesem mehrdimensionalen Raum kann beispielsweise ein Valenzwert von +72, ein Aktivierungswert von 57 und ein Dominanzwert von 70 einen Punkt beschreiben, der in einem Volumen liegt, das mit den Worten „professionell“ und „angenehm“ verbunden ist. In einem anderen Beispiel kann sich der Punkt innerhalb eines Volumens befinden, das mit einer bestimmten Farbe, einem Symbol usw. verbunden ist.
  • In anderen Implementierungen können andere Techniken verwendet werden, um Stimmungsdaten 150 aus Audiomerkmalsdaten 146 zu bestimmen, die aus den zweiten Audiodaten 142 gewonnen wurden. Zum Beispiel kann ein maschinelles Lernsystem, das einen oder mehrere Klassifikatoren, neuronale Netzwerke usw. umfasst, so trainiert werden, dass es bestimmte Audiomerkmale in den Audiomerkmalsdaten 146 mit bestimmten assoziierten Worten 408, assoziierten Symbolen, assoziierten Farben usw. verknüpft.
  • 5 veranschaulicht ein Flussdiagramm 500 eines Prozesses zur Darstellung von Ausgaben 162 auf der Grundlage von Stimmungsdaten 150, die aus der Analyse der Sprache eines Benutzers 116 gewonnen wurden, gemäß einer Implementierung. Der Prozess kann von einer oder mehreren der tragbaren Vorrichtung 104, der Rechenvorrichtung 108, einem Server oder einer anderen Vorrichtung durchgeführt werden.
  • Bei 502 werden die Audiorohdaten 118 erfasst. Es kann bestimmt werden, wann die Audiorohdaten 118 erfasst werden sollen. Zum Beispiel kann das Datenerfassungsmodul 322 der tragbaren Vorrichtung 104 so konfiguriert sein, dass es das Mikrofonarray 112 betreibt und die Audiorohdaten 118 erfasst, wenn ein Zeitmesser 520 abläuft, wenn eine aktuelle Zeit auf der Uhr 306 einer geplanten Zeit entspricht, wie in 522 dargestellt, basierend auf Sensordaten 128, wie in 524 dargestellt usw. Die Sensordaten 128 können zum Beispiel die Betätigung einer Taste 126(1), eine Bewegung des Beschleunigungsmessers 126(10), die einen Schwellenwert überschreitet usw. anzeigen. In einigen Implementierungen können Kombinationen verschiedener Faktoren verwendet werden, um zu bestimmen, wann die Erfassung der Audiorohdaten 118 beginnen soll. Zum Beispiel kann das Datenerfassungsmodul 322 alle 540 Sekunden Audiorohdaten 118 erfassen, wenn die Sensordaten 128 anzeigen, dass sich die tragbare Vorrichtung 104 an einem bestimmten Ort befindet, der vom Benutzer 102 genehmigt wurde.
  • Bei 504 werden die ersten Audiodaten 124 bestimmt. Zum Beispiel können die Audiorohdaten 118 durch das Sprachaktivitätserkennungsmodul 120 verarbeitet werden, um zu bestimmen, ob Sprache 116 vorhanden ist. Wenn bestimmt wird, dass keine Sprache 116 vorhanden ist, können die Audiorohdaten ohne Sprache verworfen werden. Wird für eine bestimmte Zeitspanne keine Sprache 116 bestimmt, kann die Erfassung der Audiorohdaten 118 beendet werden. Die Audiorohdaten 118, die Sprache 116 enthalten, können durch das Audiovorverarbeitungsmodul 122 verarbeitet werden, um die ersten Audiodaten 124 zu bestimmen. Zum Beispiel kann ein Algorithmus zur Strahlenbildung verwendet werden, um ein Mikrofonmuster 114 herzustellen, bei dem das Signal-Rausch-Verhältnis für die Sprache 116 des Benutzers 102 verbessert wird.
  • Bei 506 wird mindestens ein Abschnitt der ersten Audiodaten 124 bestimmt, der mit einer ersten Person verbunden ist. Zum Beispiel kann das Rundenerkennungsmodul 136 bestimmen, dass ein erster Abschnitt der ersten Audiodaten 124 die erste Runde 406(1) umfasst.
  • Bei 508 werden die Benutzerprofildaten 140 bestimmt. So können zum Beispiel die Benutzerprofildaten 140 für den bei der tragbaren Vorrichtung 104 registrierten Benutzer 102 aus dem Speicher abgerufen werden. Die Benutzerprofildaten 140 können Informationen umfassen, die von dem Benutzer 102 während eines Anmeldeprozesses erhalten werden. Während des Anmeldeprozesses kann der Benutzer 102 Sprachproben seiner Sprache 116 bereitstellen, die dann verwendet werden, um Eigenschaften zu bestimmen, die für die Sprache 116 des Benutzers kennzeichnend sind. Die Benutzerprofildaten 140 können zum Beispiel durch die Verarbeitung der bei der Anmeldung erhaltenen Sprache 116 mit einem faltungsbasierten neuronalen Netzwerk erzeugt werden, das so trainiert ist, dass es Merkmalsvektoren bestimmt, die für die Sprache 116 repräsentativ sind, sowie durch einen Klassifikator, der Algorithmen zur Signalanalyse anwendet usw.
  • Bei 510 werden auf der Grundlage der Benutzerprofildaten 140 die zweiten Audiodaten 142 bestimmt. Die zweiten Audiodaten 142 umfassen den Abschnitt bzw. die Abschnitte der ersten Audiodaten 124, die dem Benutzer 102 zugeordnet sind. Die zweiten Audiodaten 142 können zum Beispiel den Abschnitt der ersten Audiodaten 124 umfassen, in dem eine Runde 406 eine Stimme enthält, die innerhalb eines bestimmten Niveaus den Benutzerprofildaten 140 entspricht.
  • Bei 512 werden die Audiomerkmalsdaten 146 anhand der zweiten Audiodaten 142 bestimmt. Das Audiomerkmalsmodul 144 kann eine oder mehrere Techniken verwenden, wie beispielsweise eine oder mehrere Techniken der Signalanalyse 526, einen oder mehrere Klassifikatoren 528, ein oder mehrere neuronale Netzwerke 530 usw. Die Techniken der Signalanalyse 526 können Informationen über die Frequenz, das Timing, die Energie usw. der in den zweiten Audiodaten 142 dargestellten Signale bestimmen. Das Audiomerkmalsmodul 144 kann ein oder mehrere neuronale Netzwerke 530 verwenden, die trainiert werden, um Audiomerkmalsdaten 146 wie Vektoren in einem mehrdimensionalen Raum zu bestimmen, die für die Sprache 116 repräsentativ sind.
  • Bei 514 werden die Audiomerkmalsdaten 146 verwendet, um die Stimmungsdaten 150 zu bestimmen. Das Merkmalsauswertungsmodul 148 kann eine oder mehrere Techniken verwenden, wie beispielsweise einen oder mehrere Klassifikatoren 532, neuronale Netzwerke 534, automatische Spracherkennung 536, semantische Analyse 538 und so weiter, um die Stimmungsdaten 150 zu bestimmen. Zum Beispiel können die Audiomerkmalsdaten 146 von einem Klassifikator 532 verarbeitet werden, um Stimmungsdaten 150 herzustellen, die entweder den Wert „glücklich“ oder „traurig“ anzeigen. In einem anderen Beispiel können die Audiomerkmalsdaten 146 von einem oder mehreren neuronalen Netzwerken 534 verarbeitet werden, die darauf trainiert wurden, bestimmte Audiomerkmale mit bestimmten emotionalen Zuständen zu assoziieren.
  • Die Bestimmung der Stimmungsdaten 150 kann repräsentativ für die emotionale Prosodie sein. In anderen Implementierungen können die gesprochenen Worte und ihre Bedeutung verwendet werden, um die Stimmungsdaten 150 zu bestimmen. Zum Beispiel kann die automatische Spracherkennung 536 die Worte in der Sprache 116 bestimmen, während die semantische Auswertung 538 bestimmt, was die Absicht dieser Worte ist. So kann zum Beispiel die Verwendung bestimmter Worte, wie Komplimente, Schimpfwörter, Beleidigungen usw., zur Bestimmung der Stimmungsdaten 150 herangezogen werden.
  • Bei 516 werden die Ausgabedaten 160 auf der Basis der Stimmungsdaten 150 erzeugt. So können die Ausgabedaten 160 zum Beispiel Anweisungen umfassen, die eine Display-Vorrichtung 134(3) anweisen, einen numerischen Wert, eine bestimmte Farbe oder ein anderes Schnittstellenelement 166 in einer Benutzerschnittstelle 164 darzustellen.
  • Bei 518 wird die Ausgabe 162 auf der Basis der Ausgabedaten 160 präsentiert. Die Benutzerschnittstelle 164 wird beispielsweise auf der Display-Vorrichtung 134(3) der Rechenvorrichtung 108 dargestellt.
  • 6 veranschaulicht ein Szenario 600, in dem Benutzerstatusdaten 154, wie beispielsweise Informationen über den Gesundheitszustand des Benutzers, mit den Stimmungsdaten 150 kombiniert werden, um eine beratende Ausgabe bereitzustellen, gemäß einer Implementierung.
  • Bei 602 werden die Sensordaten 128 von einem oder mehreren Sensoren 126 bestimmt, die mit dem Benutzer 102 verbunden sind. So können zum Beispiel nach der Genehmigung durch den Benutzer 102 die Sensoren 126 in der tragbaren Vorrichtung 104, der Rechenvorrichtung 108, internetfähigen Vorrichtungen usw. zur Erfassung von Sensordaten 128 verwendet werden.
  • Bei 604 werden die Sensordaten 128 verarbeitet, um die Benutzerstatusdaten 154 zu bestimmen. Die Benutzerstatusdaten 154 können Informationen über den Benutzer 102 enthalten, wie beispielsweise seinen biomedizinischen Status, seine Bewegung, die Verwendung anderer Vorrichtungen usw. Die in dieser Figur veranschaulichten Benutzerstatusdaten 154 schließen zum Beispiel Informationen über die Anzahl der zurückgelegten Schritte und die Anzahl der geschlafenen Stunden für Montag, Dienstag und Mittwoch ein. Um das Beispiel fortzusetzen, hat der Benutzer 102 am Dienstag nur 6,2 Stunden geschlafen und nicht so viele Schritte gemacht.
  • Bei 606 werden die Stimmungsdaten 150 bestimmt. Wie vorstehend beschrieben, wird die Sprache 116 des Benutzers 102 in einem Prozess verarbeitet, um Informationen über den emotionalen Zustand zu bestimmen, der in der Stimme des Benutzers zum Ausdruck kommt. Die hierin veranschaulichten Stimmungsdaten 150 schließen beispielsweise die Durchschnittswerte für die Valenz, die durchschnittliche Aktivierung und die durchschnittliche Dominanz für Montag, Dienstag und Mittwoch ein. In Fortsetzung des Beispiels zeigen die Stimmungsdaten 150, dass der Benutzer 102 am Dienstag eine negative durchschnittliche Valenz, eine verringerte durchschnittliche Aktivierung und eine erhöhte durchschnittliche Dominanz erlebte.
  • Bei 608 bestimmt das Beratungsmodul 156 Beratungsdaten 158 mindestens teilweise auf der Grundlage der Stimmungsdaten 150 und der Benutzerstatusdaten 154. Wenn der Benutzer 102 zum Beispiel weniger als 7 Stunden Schlaf bekommt, liegt sein emotionaler Gesamtzustand, wie er durch seine Sprache 116 angezeigt wird, außerhalb des typischen Bereichs des Benutzers 102, verglichen mit Tagen, an denen er mehr als 7 Stunden Schlaf bekommt. Die Beratungsdaten 158 können dann verwendet werden, um Ausgabedaten 160 zu erzeugen. Die Ausgabedaten 160 können zum Beispiel einen Hinweis umfassen, in dem der Benutzer 102 gefragt wird, ob er daran erinnert werden möchte, ins Bett zu gehen.
  • Bei 610 wird die erste Ausgabe 162 auf der Grundlage der Ausgabedaten 160 präsentiert. Zum Beispiel kann auf der Display-Vorrichtung 134(3) der Rechenvorrichtung 108 eine Ausgabe 162(1) in Form einer grafischen Benutzerschnittstelle angezeigt werden, die den Benutzer 102 fragt, ob er eine Erinnerung zum Schlafengehen hinzufügen möchte.
  • Bei 612 Sekunden wird die Ausgabe 162 präsentiert. Zum Beispiel kann später am Abend zur festgelegten Zeit auf der Display-Vorrichtung 134(3) eine Erinnerung angezeigt werden, die den Benutzer 102 auffordert, zu Bett zu gehen.
  • Durch die Verwendung des Systems 100 kann das allgemeine Wohlbefinden des Benutzers 102 verbessert werden. Wie in dieser Veranschaulichung dargestellt, informiert das System 100 den Benutzer 102 über einen Zusammenhang zwischen seiner Ruhezeit und seiner Stimmung am nächsten Tag. Wenn der Benutzer 102 daran erinnert wird, sich auszuruhen, und der Benutzer 102 diese Erinnerung befolgt, kann sich die Stimmung des Benutzers 102 am nächsten Tag verbessern.
  • 7 und 8 veranschaulichen mehrere Beispiele für Benutzerschnittstellen 164 von Ausgaben 162, die dem Benutzer 102 präsentiert werden und die zumindest teilweise auf den Stimmungsdaten 150 basieren, gemäß einigen Implementierungen. Die Stimmungsdaten 150 können nichtnormativ sein. Die Ausgabe 162 kann so konfiguriert werden, dass Schnittstellenelemente 166 dargestellt werden, die eine normative Darstellung vermeiden. Die Ausgabe 162 kann zum Beispiel die Stimmung des Benutzers im Verhältnis zu seinem typischen Bereich oder seiner Basislinie wiedergeben, im Vergleich zu der Angabe, dass er „glücklich“ oder „traurig“ ist.
  • Eine erste Benutzerschnittstelle 702 stellt eine Dashboard-Darstellung dar, in der mehrere Elemente 704-710 Informationen auf der Grundlage der Stimmungsdaten 150 und der Benutzerstatusdaten 154 bereitstellen. Das Benutzerschnittstellenelement 704 zeigt einen Stimmungswert für die letzte Stunde an. Zum Beispiel kann der Stimmungswert auf der Basis eines oder mehrerer Werte, die in den Stimmungsdaten 150 ausgedrückt werden, aggregiert werden. Die Stimmungswerte können nichtnormativ sein oder so gestaltet werden, dass eine normative Bewertung vermieden wird. So können zum Beispiel numerische Stimmungswerte in einem Bereich von 1 bis 16 und nicht von 1 bis 100 angegeben werden, um eine normative Bewertung zu minimieren, dass ein Stimmungswert von „100“ besser ist als ein Stimmungswert von „35“. Die Stimmungsdaten 150 können sich auf eine Basislinie oder einen typischen Bereich beziehen, der mit dem Benutzer 102 verbunden ist. Das Benutzerschnittstellenelement 706 zeigt einen Bewegungswert an, der die Bewegung des Benutzers 102 in der letzten Stunde anzeigt. Das Benutzerschnittstellenelement 708 zeigt einen Schlafiniert für die vorangegangene Nacht an. Der Schlafwert kann zum Beispiel auf der Schlafdauer, der Bewegung während des Schlafs usw. basieren. Das Benutzerschnittstellenelement 710 zeigt auf der Basis der Stimmungsdaten 150 zusammenfassende Informationen an, die darauf hinweisen, dass die Gesamtstimmung des Benutzers 102 an diesem Morgen zu einem bestimmten Zeitpunkt über seinem typischen Bereich lag.
  • Eine zweite Benutzerschnittstelle 712 zeigt Liniendiagramme, die die historischen Daten 334 der letzten 24 Stunden darstellen. Das Benutzerschnittstellenelement 714 zeigt ein Liniendiagramm der Stimmungswerte der letzten 24 Stunden. Das Benutzerschnittstellenelement 716 zeigt ein Liniendiagramm der Herzfrequenz über die letzten 24 Stunden an. Die Benutzerschnittstelle 718 zeigt ein Liniendiagramm der Bewegungen der letzten 24 Stunden an. Die zweite Benutzerschnittstelle 712 ermöglicht es dem Benutzer 102, diese verschiedenen Datensätze zu vergleichen und zu bestimmen, ob es eine Übereinstimmung zwischen ihnen gibt. Die Benutzerschnittstelle 720 umfasst zwei Bedienelemente, mit denen der Benutzer 102 die Zeitspanne oder das Datum für die in den Diagrammen dargestellten Daten ändern kann.
  • Eine dritte Benutzerschnittstelle 722 stellt Informationen über die Stimmung in Form von Farben auf der Benutzerschnittstelle dar. Das Benutzerschnittstellenelement 724 zeigt in der Benutzerschnittstelle 722 einen farbigen Bereich an, dessen Farbe für die allgemeine Stimmung der letzten Stunde steht. Die Stimmungsdaten 150 können zum Beispiel einen Stimmungsindex von 97 anzeigen, der auf der in der letzten Stunde geäußerten Sprache 116 basiert. Die Farbe Grün kann mit Stimmungsindexwerten zwischen 90 und 100 assoziiert werden. In diesem Beispiel führt der Stimmungsindex von 97 dazu, dass das Element der Benutzerschnittstelle 724 grün ist.
  • Ein Detailbereich schließt mehrere Benutzerschnittstellenelemente 726-730 ein, die farbige Indikatoren für bestimmte emotionale Primitive bereitstellen, die in den Stimmungsdaten 150 angegeben sind. Das Benutzerschnittstellenelement 726 stellt zum Beispiel eine Farbe dar, die auf der Basis des Valenzwertes ausgewählt wird, das Benutzerschnittstellenelement 728 stellt eine Farbe dar, die auf der Basis des Aktivierungswertes ausgewählt wird, und das Benutzerschnittstellenelement 730 stellt eine Farbe dar, die auf der Basis des Dominanzwertes ausgewählt wird.
  • 8 zeigt eine Benutzerschnittstelle 802, in der historische Stimmungsdaten in einem Balkendiagramm dargestellt sind. In dieser Benutzerschnittstelle 802 kann der Benutzer 102 über eine Zeitsteuerung 804 auswählen, welche Zeitspanne der Stimmungsdaten 150 er einsehen möchte, beispielsweise einen Tag „1D“, eine Woche „1W“ oder einen Monat „1M“. Ein Grafikelement 806 stellt Informationen auf der Grundlage der Stimmungsdaten 150 für die ausgewählte Zeitspanne dar. Das Grafikelement 806 kann zum Beispiel einen durchschnittlichen allgemeinen Stimmungsindex für jeden Tag, einen minimalen und maximalen Stimmungsindex für jeden Tag usw. darstellen. In dieser Veranschaulichung wird das Diagrammelement 806 jeden Tag durch einen Balken dargestellt, der ein Tagesminimum und ein Tagesmaximum der Gesamtstimmung für diesen Tag anzeigt. Im Diagrammelement 806 sind auch eine obere und eine untere Grenze eines typischen Stimmungsbereichs für den Benutzer 102 als gestrichelte Linien dargestellt.
  • Eine Steuerung 808 ermöglicht es dem Benutzer 102, eine Live-Prüfung durchzuführen und die Erfassung von Audiorohdaten 118 zur anschließenden Verarbeitung und Erzeugung von Stimmungsdaten 150 einzuleiten. Nachdem der Benutzer 102 die Steuerung 808 aktiviert hat, kann die Benutzerschnittstelle 802 zum Beispiel eine Ausgabe 162 wie eine numerische Ausgabe des Stimmungsindexes, ein Benutzerschnittstellenelement mit einer Farbe, die auf den Stimmungsdaten 150 basiert, und so weiter präsentieren. In einer anderen Implementierung kann die Live-Prüfung durch den Benutzer 102 eingeleitet werden, der eine Steuerung auf der tragbaren Vorrichtung 104 bedient. So kann der Benutzer 102 beispielsweise eine Taste auf der tragbaren Vorrichtung 104 drücken, die die Erfassung von Audiorohdaten 118 einleitet, die anschließend verarbeitet werden.
  • Die Benutzerschnittstelle 810 stellt Informationen über Stimmungsdaten 150 bereit, die mit einem bestimmten Termin verbunden sind. Die vom System 100 gespeicherten oder ihm zugänglichen Daten 328 können Termindaten wie den Terminkalender des Benutzers einschließen. Die Termindaten können eine oder mehrere der folgenden Angaben einschließen: Termintyp, Gegenstand des Termins, Ort des Termins, Startzeit des Termins, Endzeit des Termins, Dauer des Termins, Daten der Teilnehmer des Termins oder andere Daten. Die Teilnehmerdaten können zum Beispiel Daten umfassen, die auf die eingeladenen Teilnehmer des Termins hinweisen.
  • Die Termindaten können zur Planung der Erfassung von Audiorohdaten 118 verwendet werden. Beispielsweise kann der Benutzer 102 das System 100 so konfigurieren, dass es während bestimmter Termine Audiorohdaten 118 sammelt. Die Benutzerschnittstelle 810 zeigt die Kalenderansicht mit Termindetails 812 wie Zeit, Ort, Gegenstand usw. an. Die Benutzerschnittstelle 810 schließt auch eine Stimmungsanzeige 814 ein, die zugehörige Wörter 408 der Stimmungsdaten 150 für die mit dem Termin verbundene Zeitspanne anzeigt. So wirkte der Benutzer 102 bei diesem Termin beispielsweise „professionell“ und „autoritär“. Außerdem gibt es eine Herzfrequenzanzeige 816, die den durchschnittlichen Puls während der Dauer des Termins anzeigt. Es sind auch Bedienelemente 818 vorhanden, mit denen der Benutzer 102 die auf der Stimmungsanzeige 814 dargestellten Informationen speichern oder verwerfen kann. Der Benutzer 102 kann die Informationen zum Beispiel zum späteren Nachschlagen speichern.
  • 8 zeigt auch eine Benutzerschnittstelle 820 mit einer Zeitsteuerung 822 und einem Darstellungselement 824. Mit der Zeitsteuerung 822 kann der Benutzer 102 auswählen, welche Zeitspanne der Stimmungsdaten 150 er einsehen möchte, wie beispielsweise „jetzt“, einen Tag „1D“, eine Woche „1W” usw. Das Darstellungselement 824 stellt Informationen entlang einer oder mehrerer Achsen dar, die auf den Stimmungsdaten 150 für die ausgewählte Zeitspanne basieren. Das hierin dargestellte Darstellungselement 824 schließt zum Beispiel zwei zueinander orthogonale Achsen ein. Jede Achse kann einer bestimmten Metrik entsprechen. Die horizontale Achse gibt zum Beispiel die Valenz an, während die vertikale Achse die Aktivierung angibt. Indikatoren, wie beispielsweise ein Kreis, können die Stimmungsdaten für den ausgewählten Zeitraum in Bezug auf diese Achsen anzeigen. In einer Implementierung kann die Darstellung des Darstellungselements 824 derart sein, dass ein typischer Wert, der mit dem Benutzer 102 assoziiert wird, als Mittelpunkt des Diagramms, Ursprung, Schnittpunkt der Achsen usw. dargestellt wird. Bei dieser Implementierung kann der Benutzer 102 durch Beobachtung der relativen Verschiebung der Indikatoren, die auf Stimmungsdaten 150 basieren, erkennen, wie sich seine Stimmung für die ausgewählte Zeitspanne von seiner typischen Stimmung unterscheidet.
  • In diesen Veranschaulichungen werden die verschiedenen Zeitspannen, wie beispielsweise die vorangegangene Stunde, die vorangegangenen 24 Stunden usw., nur zur Veranschaulichung und nicht unbedingt als Einschränkung verwendet. Es ist zu verstehen, dass auch andere Zeitspannen verwendet werden können. So können dem Benutzer 102 zum Beispiel Bedienelemente bereitgestellt werden, die die Auswahl verschiedener Zeitspannen ermöglichen. Obwohl grafische Benutzerschnittstellen abgebildet sind, können selbstverständlich auch andere Benutzerschnittstellen verwendet werden. So kann zum Beispiel eine vokale Benutzerschnittstelle verwendet werden, um dem Benutzer 102 Informationen bereitzustellen. In einem anderen Beispiel kann eine haptische Ausgabevorrichtung 134(1) eine haptische Ausgabe an den Benutzer 102 bereitstellen, wenn ein oder mehrere Werte in den Stimmungsdaten 150 einen oder mehrere Schwellenwerte überschreiten.
  • Die hierin beschriebenen Prozesse können in Hardware, Software oder einer Kombination davon implementiert werden. Im Zusammenhang mit Software stellen die beschriebenen Vorgänge computerausführbare Anweisungen dar, die auf einem oder mehreren nichttransitorischen computerlesbaren Speichermedien gespeichert sind und bei Ausführung durch einen oder mehrere Prozessoren die genannten Vorgänge ausführen. Im Allgemeinen schließen computerausführbare Anweisungen Routinen, Programme, Objekte, Komponenten, Datenstrukturen und dergleichen ein, die bestimmte Funktionen ausführen oder bestimmte abstrakte Datentypen implementieren. Ein Fachmann wird leicht erkennen, dass bestimmte Schritte oder Vorgänge, die in den vorstehenden Figuren veranschaulicht sind, eliminiert, kombiniert oder in einer anderen Reihenfolge durchgeführt werden können. Alle Schritte oder Vorgänge können seriell oder parallel durchgeführt werden. Die Reihenfolge, in der die Betriebe beschrieben werden, ist nicht als Einschränkung zu verstehen.
  • Ausführungsformen können als Softwareprogramm oder Computerprogrammprodukt bereitgestellt werden, das ein nichttransitorisches, computerlesbares Speichermedium enthält, auf dem Anweisungen (in komprimierter oder unkomprimierter Form) gespeichert sind, die zur Programmierung eines Computers (oder einer anderen elektronischen Vorrichtung) zur Durchführung der hierin beschriebenen Prozesse oder Verfahren verwendet werden können. Bei dem computerlesbaren Speichermedium kann es sich um ein elektronisches Speichermedium, ein magnetisches Speichermedium, ein optisches Speichermedium, ein Quantenspeichermedium oder mehrere davon handeln. Die computerlesbaren Speichermedien können zum Beispiel Laufwerke, optische Platten, Festwertspeicher (ROMs), Speicher mit wahlfreiem Zugriff (RAMs), löschbare programmierbare ROMs (EPROMs), elektrisch löschbare programmierbare ROMs (EEPROMs), Flash-Speicher, magnetische oder optische Karten, Festkörperspeicher oder andere Arten von physischen Medien einschließen, die zur Speicherung elektronischer Anweisungen geeignet sind, sind aber nicht darauf beschränkt. Ferner können die Ausführungsformen auch als Computerprogrammprodukt bereitgestellt werden, das ein vorübergehendes maschinenlesbares Signal (in komprimierter oder unkomprimierter Form) einschließt. Beispiele für transitorische maschinenlesbare Signale, ob mit einem Träger moduliert oder unmoduliert, schließen, ohne darauf beschränkt zu sein, Signale ein, auf die ein Computersystem oder eine Maschine, die ein Computerprogramm beherbergt oder ausführt, zugreifen kann, einschließlich Signale, die über ein oder mehrere Netzwerke übertragen werden. Das vorübergehende maschinenlesbare Signal kann zum Beispiel die Übertragung von Software über das Internet umfassen.
  • Einzelne Instanzen dieser Programme können auf einer beliebigen Anzahl separater Computersysteme ausgeführt oder auf diese verteilt werden. Obwohl bestimmte Schritte als von bestimmten Vorrichtungen, Softwareprogrammen, Prozessen oder Entitäten ausgeführt beschrieben wurden, muss dies nicht der Fall sein, und eine Vielzahl von alternativen Implementierungen wird von einem Fachmann verstanden werden.
  • Darüber hinaus wird ein Fachmann leicht erkennen, dass die vorstehend beschriebenen Techniken in einer Vielzahl von Vorrichtungen, Umgebungen und Situationen eingesetzt werden können. Obwohl der Gegenstand in einer Sprache beschrieben wurde, die sich auf strukturelle Merkmale oder methodische Handlungen bezieht, ist der in den beigefügten Ansprüchen definierte Gegenstand nicht notwendigerweise auf die beschriebenen spezifischen Merkmale oder Handlungen beschränkt. Vielmehr werden die spezifischen Merkmale und Handlungen als veranschaulichende Formen der Implementierung der Ansprüche offenbart.
  • KLAUSELN
    1. 1. System, das Folgendes umfasst:
      • eine tragbare Vorrichtung, die Folgendes umfasst:
        • ein Mikrofonarray;
        • eine erste Bluetooth-Kommunikationsschnittstelle;
        • einen ersten Speicher, der erste computerausführbare Anweisungen speichert;
      • und einen ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um:
        • Audiorohdaten unter Verwendung des Mikrofonarrays zu erfassen;
        • erste Audiodaten zu bestimmen, die mindestens einen Abschnitt der Audiorohdaten umfassen, der repräsentativ für Sprache ist;
        • die ersten Audiodaten zu verschlüsseln;
        • unter Verwendung der ersten Bluetooth-Kommunikationsschnittstelle die
        verschlüsselten ersten Audiodaten an eine zweite Vorrichtung zu senden;
      • wobei die zweite Vorrichtung Folgendes umfasst:
        • eine Display-Vorrichtung;
        • eine zweite Bluetooth-Kommunikationsschnittstelle;
        • einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und
        • einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um:
          • unter Verwendung der zweiten Bluetooth-Kommunikationsschnittstelle die verschlüsselten ersten Audiodaten von der tragbaren Vorrichtung zu empfangen;
          • die verschlüsselten ersten Audiodaten zu entschlüsseln;
          • zweite Audiodaten zu bestimmen, die einen Abschnitt der ersten Audiodaten umfassen, der von einem Träger gesprochen wird;
          • unter Verwendung der zweiten Audiodaten einen ersten Satz von Audiomerkmalen zu bestimmen;
          • unter Verwendung des ersten Satzes von Audiomerkmalen Stimmungsdaten zu bestimmen, die auf eine oder mehrere Eigenschaften der Sprache des Trägers hinweisen; und
          • eine grafische Benutzerschnittstelle mit der Display-Vorrichtung zu präsentieren, die einen emotionalen Zustand anzeigt, der bestimmt wird, um durch die Sprache des Trägers übermittelt zu werden.
    2. 2. System nach Klausel 1, wobei die eine oder mehrere Eigenschaften der Sprache Folgendes umfassen:
      • einen Valenzwert, der für eine bestimmte Veränderung der Tonhöhe der Stimme des Trägers im Laufe der Zeit repräsentativ ist;
      • einen Aktivierungswert, der für das Sprechtempo des Trägers über die Zeit repräsentativ ist; und
      • einen Dominanzwert, der repräsentativ für das Ansteigen und Abfallen der Tonhöhe der Stimme des Trägers im Laufe der Zeit ist;
      • Bestimmen eines Stimmungswerts auf der Grundlage des Valenzwerts, des Aktivierungswerts und des Dominanzwerts;
      • Bestimmen einer Farbe, die mit dem Stimmungswert verbunden ist; und
      • wobei die grafische Benutzerschnittstelle ein Element umfasst, das mit der Farbe dargestellt wird.
    3. 3. System, das Folgendes umfasst:
      • eine erste Vorrichtung, die Folgendes umfasst:
        • eine Ausgabevorrichtung;
        • eine erste Kommunikationsschnittstelle;
        • einen ersten Speicher, der erste computerausführbare Anweisungen speichert;
      • und einen ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um:
        • unter Verwendung der ersten Kommunikationsschnittstelle erste Audiodaten zu empfangen;
        • Benutzerprofildaten zu bestimmen, die auf das Sprechen eines ersten Benutzers hinweisen;
        • zweite Audiodaten zu bestimmen, die einen Abschnitt der ersten Audiodaten umfassen, der den Benutzerprofildaten entspricht;
        • einen ersten Satz von Audiomerkmalen der zweiten Audiodaten zu bestimmen;
        • unter Verwendung des ersten Satzes von Audiomerkmalen Stimmungsdaten zu bestimmen;
        • Ausgabedaten auf der Grundlage der Stimmungsdaten zu bestimmen; und
        • unter Verwendung der Ausgabevorrichtung eine erste Ausgabe auf der Grundlage mindestens eines Abschnitts der Ausgabedaten zu präsentieren.
    4. 4. System nach Klausel 3, das ferner Folgendes umfasst:
      • eine zweite Vorrichtung, die Folgendes umfasst:
        • ein Mikrofon;
        • eine zweite Kommunikationsschnittstelle;
        • einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und
        • einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um:
          • Audiorohdaten unter Verwendung des Mikrofons zu erfassen;
          • unter Verwendung eines Algorithmus zum Nachweis von Sprachaktivität mindestens einen Abschnitt der Audiorohdaten zu bestimmen, der für Sprache repräsentativ ist; und
          • unter Verwendung der zweiten Kommunikationsschnittstelle die ersten Audiorohdaten, die mindestens einen Abschnitt der Audiorohdaten umfassen, der für Sprache repräsentativ ist, an die erste Vorrichtung zu senden.
    5. 5. System nach einer der Klauseln 3 oder 4, das ferner Folgendes umfasst:
      • eine zweite Vorrichtung, die Folgendes umfasst:
        • einen oder mehrere Sensoren, die eines oder mehrere der folgenden Elemente umfassen:
          • einen Monitor für die Herzfrequenz,
          • ein Oximeter,
          • einen Elektrokardiographen,
          • eine Kamera oder
          • einen Beschleunigungsmesser,
        • eine zweite Kommunikationsschnittstelle;
        • einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und
        • einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um:
          • Sensordaten auf der Grundlage der von einem oder mehreren Sensoren gelieferten Daten zu bestimmen;
          • unter Verwendung der zweiten Kommunikationsschnittstelle mindestens
        • einen Abschnitt der Sensordaten an die erste Vorrichtung zu senden; und
      • den ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um:
        • die Ausgabedaten mindestens teilweise auf der Grundlage eines Vergleichs zwischen den Stimmungsdaten, die mit den ersten Audiodaten verbunden sind, die während eines ersten Zeitraums erhalten wurden, und den Sensordaten, die während eines zweiten Zeitraums erhalten wurden, zu bestimmen.
    6. 6. System nach einer der Klauseln 3 bis 5, das ferner Folgendes umfasst:
      • den ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um:
        • mindestens einen Abschnitt der Stimmungsdaten zu bestimmen, der einen Schwellenwert überschreitet;
        • zweite Ausgabedaten zu bestimmen;
        • unter Verwendung der ersten Kommunikationsschnittstelle die zweiten Ausgabedaten an eine zweite Vorrichtung zu senden;
      • wobei die zweite Vorrichtung Folgendes umfasst:
        • eine Struktur, um die zweite Vorrichtung in der Nähe des ersten Benutzers zu halten;
        • eine zweite Ausgabevorrichtung;
        • eine zweite Kommunikationsschnittstelle;
        • einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und
        • einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um:
          • unter Verwendung der zweiten Kommunikationsschnittstelle die zweiten Ausgabedaten zu empfangen; und
          • unter Verwendung der zweiten Ausgabevorrichtung eine zweite Ausgabe auf der Grundlage mindestens eines Abschnitts der zweiten Ausgabedaten zu präsentieren.
    7. 7. System nach einer der Klauseln 3 bis 6, das ferner Folgendes umfasst:
      • eine zweite Vorrichtung, die Folgendes umfasst:
        • mindestens ein Mikrofon;
        • eine zweite Kommunikationsschnittstelle;
        • einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und
        • einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um:
          • unter Verwendung des mindestens einen Mikrofons die ersten Audiodaten zu erfassen; und
          • unter Verwendung der zweiten Kommunikationsschnittstelle die ersten Audiodaten an die erste Vorrichtung zu senden.
    8. 8. System nach einer der Klauseln 3 bis 7, wobei die Stimmungsdaten eines oder mehrere der folgenden Elemente umfassen:
      • einen Valenzwert, der für eine bestimmte Veränderung der Tonhöhe der Stimme des ersten Benutzers im Laufe der Zeit repräsentativ ist;
      • einen Aktivierungswert, der für das Sprechtempo des ersten Benutzers über die Zeit repräsentativ ist; oder
      • einen Dominanzwert, der repräsentativ für das Ansteigen und Abfallen der Tonhöhe der Stimme des ersten Benutzers im Laufe der Zeit ist.
    9. 9. System nach einer der Klauseln 3 bis 8, wobei die erste Vorrichtung ferner Folgendes umfasst:
      • eine Display-Vorrichtung; und
      • wobei die Stimmungsdaten auf einem oder mehreren von einem Valenzwert, einem Aktivierungswert oder einem Dominanzwert beruhen; und
      • den ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um:
        • einen Farbwert zu bestimmen, der auf dem Valenzwert, dem Aktivierungswert oder dem Dominanzwert oder mehreren davon basiert; und
        • als Ausgabedaten eine grafische Benutzerschnittstelle zu bestimmen, die mindestens ein Element mit dem Farbwert umfasst.
    10. 10. System nach einer der Klauseln 3 bis 9, das ferner Folgendes umfasst:
      • den ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um:
        • ein oder mehrere Worte zu bestimmen, die mit den Stimmungsdaten verbunden sind; und
        • wobei die erste Ausgabe das eine oder die mehreren Worte umfasst.
    11. 11. Verfahren, das Folgendes umfasst:
      • Erfassen erster Audiodaten;
      • Bestimmen erster Benutzerprofildaten, die auf die Sprache eines ersten Benutzers hinweisen;
      • Bestimmen eines Abschnitts der ersten Audiodaten, der den ersten Benutzerprofildaten entspricht;
      • Bestimmen, unter Verwendung des Abschnitts der ersten Audiodaten, der den ersten Benutzerprofildaten entspricht, eines ersten Satzes von Audiomerkmalen;
      • Bestimmen von Stimmungsdaten unter Verwendung des ersten Satzes von Audiomerkmalen;
      • Bestimmen von Ausgabedaten auf der Grundlage der Stimmungsdaten; und Präsentation einer ersten Ausgabevorrichtung auf der Grundlage mindestens eines Abschnitts der Ausgabedaten.
    12. 12. Verfahren nach Klausel 11, das ferner Folgendes umfasst:
      • Bestimmen, innerhalb des Abschnitts der ersten Audiodaten, eines ersten Zeitpunkts, zu dem der erste Benutzer zu sprechen beginnt; und
      • Bestimmen, innerhalb des Abschnitts der ersten Audiodaten, eines zweiten Zeitpunkts, zu dem der erste Benutzer das Sprechen beendet; und
      • wobei das Bestimmen des ersten Satzes von Audiomerkmalen einen Abschnitt der ersten Audiodaten verwendet, der sich von der ersten Zeit bis zur zweiten Zeit erstreckt.
    13. 13. Verfahren nach Klausel 11 oder 12, das ferner Folgendes umfasst:
      • Bestimmen von Termindaten, die eines oder mehrere der folgenden Elemente umfassen:
        • Terminart,
        • Gegenstand des Termins,
        • Ort des Termins,
        • Startzeit des Termins,
        • Endzeit des Termins,
        • Termindauer, oder
        • Terminteilnehmerdaten;
      • Bestimmen erster Daten, die eine oder mehrere Bedingungen bestimmen, unter denen die Erfassung der ersten Audiodaten zulässig ist; und
      • wobei das Erfassen der ersten Audiodaten auf einen Vergleich zwischen mindestens einem Abschnitt der Termindaten und mindestens einem Abschnitt der ersten Daten reagiert.
    14. 14. Verfahren nach einer der Klauseln 11 bis 13, das ferner Folgendes umfasst:
      • Bestimmen von Termindaten, die eines oder mehrere der folgenden Elemente umfassen:
        • Startzeit des Termins,
        • Endzeit des Termins, oder
        • Termindauer;
      • Bestimmen, dass die ersten Audiodaten zwischen der Startzeit des Termins und der Endzeit des Termins erfasst wurden; und
      • wobei die erste Ausgabe Informationen über einen mit den Termindaten verbundenen Termin enthält.
    15. 15. Verfahren nach einer der Klauseln 11 bis 14, das ferner Folgendes umfasst:
      • Bestimmen, dass der erste Benutzer während der Erfassung der ersten Audiodaten in der Nähe eines zweiten Benutzers ist oder mit diesem in Verbindung steht; und
      • wobei die Ausgabedaten auf eine Interaktion zwischen dem ersten Benutzer und dem zweiten Benutzer hindeuten.
    16. 16. Verfahren nach einer der Klauseln 11 bis 15, wobei:
      • die Stimmungsdaten auf eine oder mehrere Emotionen des ersten Benutzers hindeuten; und
      • die Ausgabedaten Sprachempfehlungen an den ersten Benutzer umfassen.
    17. 17. Verfahren nach einer der Klauseln 11 bis 16, das ferner Folgendes umfasst:
      • Bestimmen einer Punktzahl, die dem ersten Benutzer zugeordnet ist, basierend auf den Stimmungsdaten; und
      • wobei die Ausgabedaten mindestens teilweise auf der Bewertung beruhen.
    18. 18. Verfahren nach einer der Klauseln 11 bis 17, das ferner Folgendes umfasst:
      • Erfassen von Sensordaten von einem oder mehreren Sensoren, die mit dem ersten Benutzer verbunden sind;
      • Bestimmen von Benutzerstatusdaten basierend auf den Sensordaten; und Vergleichen der Benutzerstatusdaten mit den Stimmungsdaten.
    19. 19. Verfahren nach einer der Klauseln 11 bis 18, wobei die Stimmungsdaten einen oder mehrere Werte umfassen; und wobei die Ausgabedaten eine grafische Darstellung umfassen, in der der eine oder die mehreren Werte mit einer oder mehreren Farben verbunden sind.
    20. 20. Verfahren nach einer der Klauseln 11 bis 19, wobei die Stimmungsdaten einen oder mehrere Werte umfassen; und Bestimmen eines oder mehrerer Worte, die mit dem einen oder den mehreren Werten verbunden sind; und wobei die Ausgabedaten das eine oder die mehreren Worte umfassen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 16/359374 [0001]
  • Zitierte Nicht-Patentliteratur
    • Dominanz können mit bestimmten Emotionen korrespondieren. (Siehe Grimm, Michael (2007). Primitives-based evaluation and estimation of emotions in speech. Speech Communication 49 (2007) 787-800.) [0036]
    • (Siehe Rozgic, Viktor, et. al, (2012). Emotion Recognition using Acoustic and Lexical Features. 13. Jahreskonferenz der International Speech Communication Association 2012, INTERSPEECH 2012. 1.) [0037, 0038]

Claims (15)

  1. Ein System, umfassend: eine erste Vorrichtung, umfassend: eine Ausgabevorrichtung; eine erste Kommunikationsschnittstelle; einen ersten Speicher, der erste computerausführbare Anweisungen speichert; und einen ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um: unter Verwendung der ersten Kommunikationsschnittstelle erste Audiodaten zu empfangen; Benutzerprofildaten zu bestimmen, die auf das Sprechen eines ersten Benutzers hinweisen; zweite Audiodaten zu bestimmen, die einen Abschnitt der ersten Audiodaten umfassen, der den Benutzerprofildaten entspricht; einen ersten Satz von Audiomerkmalen der zweiten Audiodaten zu bestimmen; unter Verwendung des ersten Satzes von Audiomerkmalen Stimmungsdaten zu bestimmen; Ausgabedaten auf der Grundlage der Stimmungsdaten zu bestimmen; und unter Verwendung der Ausgabevorrichtung eine erste Ausgabe auf der Grundlage mindestens eines Abschnitts der Ausgabedaten zu präsentieren.
  2. Das System nach Anspruch 1, das ferner Folgendes umfasst: eine zweite Vorrichtung, umfassend: ein Mikrofon; eine zweite Kommunikationsschnittstelle; einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um: Audiorohdaten unter Verwendung des Mikrofons zu erfassen; unter Verwendung eines Algorithmus zum Nachweis von Sprachaktivität mindestens einen Abschnitt der Audiorohdaten zu bestimmen, der für Sprache repräsentativ ist; und unter Verwendung der zweiten Kommunikationsschnittstelle die ersten Audiorohdaten, die mindestens einen Abschnitt der Audiorohdaten umfassen, der für Sprache repräsentativ ist, an die erste Vorrichtung zu senden.
  3. Das System nach Anspruch 1, ferner umfassend: eine zweite Vorrichtung, umfassend: einen oder mehrere Sensoren, die eines oder mehrere der folgenden Elemente umfassen: einen Monitor für die Herzfrequenz, ein Oximeter, einen Elektrokardiographen, eine Kamera oder einen Beschleunigungsmesser, eine zweite Kommunikationsschnittstelle; einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um: Sensordaten auf der Grundlage der von einem oder mehreren Sensoren gelieferten Daten zu bestimmen; unter Verwendung der zweiten Kommunikationsschnittstelle mindestens einen Abschnitt der Sensordaten an die erste Vorrichtung zu senden; und den ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um: die Ausgabedaten mindestens teilweise auf der Grundlage eines Vergleichs zwischen den Stimmungsdaten, die mit den ersten Audiodaten verbunden sind, die während eines ersten Zeitraums erhalten wurden, und den Sensordaten, die während eines zweiten Zeitraums erhalten wurden, zu bestimmen.
  4. Das System nach Anspruch 1, ferner umfassend: den ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um: mindestens einen Abschnitt der Stimmungsdaten zu bestimmen, der einen Schwellenwert überschreitet; zweite Ausgabedaten zu bestimmen; unter Verwendung der ersten Kommunikationsschnittstelle die zweiten Ausgabedaten an eine zweite Vorrichtung zu senden; wobei die zweite Vorrichtung Folgendes umfasst: eine Struktur, um die zweite Vorrichtung in der Nähe des ersten Benutzers zu halten; eine zweite Ausgabevorrichtung; eine zweite Kommunikationsschnittstelle; einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um: unter Verwendung der zweiten Kommunikationsschnittstelle die zweiten Ausgabedaten zu empfangen; und unter Verwendung der zweiten Ausgabevorrichtung eine zweite Ausgabe auf der Grundlage mindestens eines Abschnitts der zweiten Ausgabedaten zu präsentieren.
  5. Das System nach Anspruch 1, ferner umfassend: eine zweite Vorrichtung, die Folgendes umfasst: mindestens ein Mikrofon; eine zweite Kommunikationsschnittstelle; einen zweiten Speicher, der zweite computerausführbare Anweisungen speichert; und einen zweiten Hardwareprozessor, der die zweiten computerausführbaren Anweisungen ausführt, um: unter Verwendung des mindestens einen Mikrofons die ersten Audiodaten zu erfassen; und unter Verwendung der zweiten Kommunikationsschnittstelle die ersten Audiodaten an die erste Vorrichtung zu senden.
  6. Das System nach Anspruch 1, wobei die Stimmungsdaten eines oder mehrere der folgenden Elemente umfassen: einen Valenzwert, der für eine bestimmte Veränderung der Tonhöhe der Stimme des ersten Benutzers im Laufe der Zeit repräsentativ ist; einen Aktivierungswert, der für das Sprechtempo des ersten Benutzers über die Zeit repräsentativ ist; oder einen Dominanzwert, der repräsentativ für das Ansteigen und Abfallen der Tonhöhe der Stimme des ersten Benutzers im Laufe der Zeit ist.
  7. Das System nach Anspruch 1, die erste Vorrichtung ferner umfassend: eine Display-Vorrichtung; und wobei die Stimmungsdaten auf einem Valenzwert, einem Aktivierungswert und/oder einem Dominanzwert beruhen; und den ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um: einen Farbwert zu bestimmen, der auf dem Valenzwert, dem Aktivierungswert und/oder dem Dominanzwert oder mehreren davon basiert; und als Ausgabe eine grafische Benutzerschnittstelle zu bestimmen, die mindestens ein Element mit dem Farbwert umfasst.
  8. Das System nach Anspruch 1, ferner umfassend: den ersten Hardwareprozessor, der die ersten computerausführbaren Anweisungen ausführt, um: ein oder mehrere Worte zu bestimmen, die mit den Stimmungsdaten verbunden sind; und wobei die erste Ausgabe das eine oder die mehreren Worte umfasst.
  9. Ein Verfahren, umfassend: Erfassen erster Audiodaten; Bestimmen erster Benutzerprofildaten, die auf die Sprache eines ersten Benutzers hinweisen; Bestimmen eines Abschnitts der ersten Audiodaten, der den ersten Benutzerprofildaten entspricht; Bestimmen, unter Verwendung des Abschnitts der ersten Audiodaten, der den ersten Benutzerprofildaten entspricht, eines ersten Satzes von Audiomerkmalen; Bestimmen von Stimmungsdaten unter Verwendung des ersten Satzes von Audiomerkmalen; Bestimmen von Ausgabedaten auf der Grundlage der Stimmungsdaten; und Präsentation einer ersten Ausgabevorrichtung auf der Grundlage mindestens eines Abschnitts der Ausgabedaten.
  10. Das Verfahren nach Anspruch 9, ferner umfassend: Bestimmen, innerhalb des Abschnitts der ersten Audiodaten, eines ersten Zeitpunkts, zu dem der erste Benutzer zu sprechen beginnt; und Bestimmen, innerhalb des Abschnitts der ersten Audiodaten, eines zweiten Zeitpunkts, zu dem der erste Benutzer das Sprechen beendet; und wobei das Bestimmen des ersten Satzes von Audiomerkmalen einen Abschnitt der ersten Audiodaten verwendet, der sich von der ersten Zeit bis zur zweiten Zeit erstreckt.
  11. Das Verfahren nach Anspruch 9, ferner umfassend: Bestimmen von Termindaten, die eines oder mehrere der folgenden Elemente umfassen: Terminart, Gegenstand des Termins, Ort des Termins, Startzeit des Termins, Endzeit des Termins, Termindauer, oder Terminteilnehmerdaten; Bestimmen erster Daten, die eine oder mehrere Bedingungen bestimmen, unter denen die Erfassung der ersten Audiodaten zulässig ist; und wobei das Erfassen der ersten Audiodaten auf einen Vergleich zwischen mindestens einem Abschnitt der Termindaten und mindestens einem Abschnitt der ersten Daten reagiert.
  12. Das Verfahren nach Anspruch 9, ferner umfassend: Bestimmen von Termindaten, die eines oder mehrere der folgenden Elemente umfassen: Startzeit des Termins, Endzeit des Termins, oder Termindauer; Bestimmen, dass die ersten Audiodaten zwischen der Startzeit des Termins und der Endzeit des Termins erfasst wurden; und wobei die erste Ausgabe Informationen über einen mit den Termindaten verbundenen Termin enthält.
  13. Das Verfahren nach Anspruch 9, ferner umfassend: Bestimmen, dass der erste Benutzer während der Erfassung der ersten Audiodaten in der Nähe eines zweiten Benutzers ist oder mit diesem in Verbindung steht; und wobei die Ausgabedaten auf eine Interaktion zwischen dem ersten Benutzer und dem zweiten Benutzer hindeuten.
  14. Das Verfahren nach Anspruch 9, ferner umfassend: Erfassen von Sensordaten von einem oder mehreren Sensoren, die mit dem ersten Benutzer verbunden sind; Bestimmen von Benutzerstatusdaten basierend auf den Sensordaten; und Vergleichen der Benutzerstatusdaten mit den Stimmungsdaten.
  15. Das Verfahren nach Anspruch 9, wobei die Stimmungsdaten einen oder mehrere Werte umfassen; und wobei die Ausgabedaten eine grafische Darstellung umfassen, in der der eine oder die mehreren Werte mit einer oder mehreren Farben oder einem oder mehreren Wörtern verbunden sind.
DE112020001332.4T 2019-03-20 2020-03-17 System zur Bewertung der Stimmwiedergabe Pending DE112020001332T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/359,374 US20200302952A1 (en) 2019-03-20 2019-03-20 System for assessing vocal presentation
US16/359,374 2019-03-20
PCT/US2020/023141 WO2020190938A1 (en) 2019-03-20 2020-03-17 System for assessing vocal presentation

Publications (1)

Publication Number Publication Date
DE112020001332T5 true DE112020001332T5 (de) 2021-12-02

Family

ID=70228864

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020001332.4T Pending DE112020001332T5 (de) 2019-03-20 2020-03-17 System zur Bewertung der Stimmwiedergabe

Country Status (6)

Country Link
US (1) US20200302952A1 (de)
KR (1) KR20210132059A (de)
CN (1) CN113454710A (de)
DE (1) DE112020001332T5 (de)
GB (1) GB2595390B (de)
WO (1) WO2020190938A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11335360B2 (en) * 2019-09-21 2022-05-17 Lenovo (Singapore) Pte. Ltd. Techniques to enhance transcript of speech with indications of speaker emotion
US20210085233A1 (en) * 2019-09-24 2021-03-25 Monsoon Design Studios LLC Wearable Device for Determining and Monitoring Emotional States of a User, and a System Thereof
US11039205B2 (en) 2019-10-09 2021-06-15 Sony Interactive Entertainment Inc. Fake video detection using block chain
US20210117690A1 (en) * 2019-10-21 2021-04-22 Sony Interactive Entertainment Inc. Fake video detection using video sequencing
US11636850B2 (en) * 2020-05-12 2023-04-25 Wipro Limited Method, system, and device for performing real-time sentiment modulation in conversation systems
EP4002364A1 (de) * 2020-11-13 2022-05-25 Framvik Produktion AB Bewertung des emotionalen zustandes eines benutzers
WO2023278442A1 (en) * 2021-06-28 2023-01-05 Distal Reality LLC Techniques for haptics communication
US11824819B2 (en) 2022-01-26 2023-11-21 International Business Machines Corporation Assertiveness module for developing mental model

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3267872A1 (de) * 2015-03-09 2018-01-17 Koninklijke Philips N.V. System, vorrichtung und verfahren zur fernüberwachung des wohlbefindens eines benutzers mit einer wearable-vorrichtung
US10835168B2 (en) * 2016-11-15 2020-11-17 Gregory Charles Flickinger Systems and methods for estimating and predicting emotional states and affects and providing real time feedback
US20170351330A1 (en) * 2016-06-06 2017-12-07 John C. Gordon Communicating Information Via A Computer-Implemented Agent
US9812151B1 (en) * 2016-11-18 2017-11-07 IPsoft Incorporated Generating communicative behaviors for anthropomorphic virtual agents based on user's affect

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
(Siehe Rozgic, Viktor, et. al, (2012). Emotion Recognition using Acoustic and Lexical Features. 13. Jahreskonferenz der International Speech Communication Association 2012, INTERSPEECH 2012. 1.)
Dominanz können mit bestimmten Emotionen korrespondieren. (Siehe Grimm, Michael (2007). Primitives-based evaluation and estimation of emotions in speech. Speech Communication 49 (2007) 787-800.)

Also Published As

Publication number Publication date
CN113454710A (zh) 2021-09-28
GB2595390B (en) 2022-11-16
GB202111812D0 (en) 2021-09-29
WO2020190938A1 (en) 2020-09-24
GB2595390A (en) 2021-11-24
KR20210132059A (ko) 2021-11-03
US20200302952A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
DE112020001332T5 (de) System zur Bewertung der Stimmwiedergabe
US10901508B2 (en) Fused electroencephalogram and machine learning for precognitive brain-computer interface for computer control
US11009952B2 (en) Interface for electroencephalogram for computer control
DE60119414T2 (de) Tragbare Vorrichtung zur Lebensunterstützung
Perrett et al. Frameworks of analysis for the neural representation of animate objects and actions
RU2613580C2 (ru) Способ и система для оказания помощи пациенту
Fang et al. Duration-dependent fMRI adaptation and distributed viewer-centered face representation in human visual cortex
US10716487B2 (en) Sub-dermally implanted electroencephalogram sensor
US10839712B2 (en) Monitoring learning performance using neurofeedback
DE112014006082T5 (de) Pulswellenmessvorrichtung, Mobilvorrichtung, medizinisches Ausrüstungssystem und biologisches Informations-Kommunikationssystem
Rousselet et al. Modelling single-trial ERP reveals modulation of bottom-up face visual processing by top-down task constraints (in some subjects)
CN104871160A (zh) 用于感觉和认知剖析的***和方法
CN112163518B (zh) 情绪监测的情绪建模方法及情绪监测调节***
US10952680B2 (en) Electroencephalogram bioamplifier
US20200205712A1 (en) Assessment of risk for major depressive disorder from human electroencephalography using machine learned model
KR20210103372A (ko) 대화형 뇌-컴퓨터 인터페이스 기반 스마트 홈 제어 방법 및 서버
US20190357792A1 (en) Sensibility evaluation apparatus, sensibility evaluation method and method for configuring multi-axis sensibility model
CN110520041A (zh) 脑波数据分析***、信息处理终端、电子设备以及用于认知症检查的信息的呈现方法
DE102015208144A1 (de) Erhöhen der Genauigkeit eines physiologischen Signals, Erhalten von einem Video eines Patienten
CN116578731B (zh) 多媒体信息处理方法、***、计算机设备和存储介质
CN109620265A (zh) 识别方法及相关装置
Papanicolaou et al. The role of the primary sensory cortices in early language processing
US11869535B1 (en) Character-level emotion detection
Macdonald et al. Mobile sensing in aging research.
Nawasalkar et al. Analytical and Comparative Study on effect of Indian Classical Music on human body using EEG based signals