DE102018111896A1

DE102018111896A1 - Bereitstellen einer Ausgabe, die mit einem Dialekt verknüpft ist

Info

Publication number: DE102018111896A1
Application number: DE102018111896.1A
Authority: DE
Inventors: Ryan Charles Knudson; Roderick Echols
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2017-05-31
Filing date: 2018-05-17
Publication date: 2018-12-06
Also published as: CN108986802A; US20180350343A1; GB201808018D0; US10943601B2; GB2564241A

Abstract

Eine Ausführungsform stellt ein Verfahren bereit, das umfasst: Empfangen einer hörbaren Nutzereingabe auf einem Informationshandhabungsgerät; Bestimmen, unter Verwenden eines Prozessors, eines Dialekts, der mit der hörbaren Nutzereingabe verknüpft ist; und basierend auf dem Bestimmen, Bereitstellen einer Ausgabe, die mit dem Dialekt verknüpft ist. Weitere Aspekte werden beschrieben und beansprucht.

Description

HINTERGRUND
Informationshandhabungsgeräte („Geräte“), zum Beispiel Smartphones, Tabletgeräte, smarte Lautsprecher, Laptop und Personalcomputer und dergleichen, können in der Lage sein, Kommando- oder Frageeingaben zu empfangen und in Reaktion auf die Eingaben Ausgaben bereitzustellen. Ein allgemeines Verfahren zum Bereitstellen einer Eingabe in ein Gerät ist ein Bereitstellen einer Spracheingabe an das Gerät (z.B. zu einem Spracheingabemodul, das in einem Personal Assistant eingebaut ist, usw.). Um nachfolgend die Spracheingabe zu bearbeiten, kann ein Gerät danach eine antwortende Ausgabe bereitstellen (z.B. eine hörbare Ausgabe, die durch einen oder mehrere Lautsprecher usw. bereitgestellt wird). Allgemein können Nutzer zum Angeben der Ausgabe aus einer begrenzten Anzahl von Spracharten auswählen, zum Beispiel unterschiedliche Sprachen (z.B. Chinesisch, Spanisch, Englisch usw.), verschiedenen Länder, die mit der gleichen oder ähnlichen Sprachen assoziiert sind (z.B. Britisches Englisch, Amerikanisches Englisch usw.), und dergleichen.
KURZE ZUSAMMENFASSUNG
Zusammenfassend stellt ein Aspekt ein Verfahren bereit, umfassend: Empfange, einer hörbaren Nutzereingabe an einem Informationshandhabungsgerät; Bestimmen, unter Verwenden eines Prozessors, eines Dialekts, der mit der hörbaren Nutzereingabe verknüpft ist; und basierend auf der Bestimmung, Bereitstellen einer Ausgabe, die mit dem Dialekt verknüpft ist.
Ein anderer Aspekt stellt ein Informationshandhabungsgerät bereit, umfassend: einen Prozessor; ein Speichergerät, das Instruktionen speichert, die durch den Prozessor ausführbar sind, zum: Empfangen einer hörbaren Nutzereingabe; Bestimmen eines Dialekts, der mit der hörbaren Nutzereingabe verknüpft ist; und basierend auf dem Bestimmen, Bereitstellen einer Ausgabe, die mit dem Dialekt verknüpft ist.
Der weitere Aspekt stellt ein Produkt bereit, umfassend: ein Speichergerät, das einen Code speichert, wobei der Code durch einen Prozessor ausführbar ist und umfasst: einen Code, der eine hörbare Nutzereingabe empfängt; einen Code, der einen Dialekt, der mit der hörbaren Nutzereingabeverknüpft ist, bestimmt; und einen Code, der, basierend auf dem Code, der den Dialekt bestimmt, eine Ausgabe bereitstellt, die mit dem Dialekt verknüpft ist.
Das Vorhergehende ist eine Zusammenfassung und kann somit Vereinfachungen, Verallgemeinerungen und Auslassungen von Details enthalten; konsequenterweise werden diejenigen, die mit der Technik vertraut sind, erkennen, dass die Zusammenfassung nur darstellend ist und diese nicht darauf abzielt, in irgendeiner Weise begrenzend zu sein.
Für ein besseres Verständnis der Ausführungsformen, zusammen mit anderen und weiteren Merkmalen und Vorteilen davon, wird auf die nachfolgende Beschreibung in Verbindung mit den begleitenden Zeichnungen Bezug genommen. Der Rahmen der Erfindung wird in den anhängenden Ansprüchen aufgezeigt.
Figurenliste

1 zeigt ein Beispiel einer Informationshandhabungs-Geräteschaltung.
2 zeigt ein anderes Beispiel einer Informationshandhabungs-Geräteschaltung.
3 zeigt ein beispielhaftes Verfahren des Bereitstellens einer Ausgabe, die mit einem Dialekt der empfangenen hörbaren Nutzereingabe verknüpft ist.

DETAILLIERTE BESCHREIBUNG
Es ist ohne weiteres verständlich, dass die Komponenten der Ausführungsformen, wie sie hierin allgemein beschrieben und in den Figuren gezeigt werden, zusätzlich zu den beschriebenen beispielhaften Ausführungsformen in einer weiten Vielzahl von unterschiedlichen Konfigurationen angeordnet und konstruiert sein können. Somit ist die nachfolgende detaillierte Beschreibung von beispielhaften Ausführungsformen, wie sie in den Figuren dargestellt werden, nicht dazu geeignet, den Rahmen der Ausführungsformen wie beansprucht zu begrenzen, sondern nur beispielhafte Ausführungsformen darzustellen.
Eine Bezugnahme in dieser gesamten Spezifikation auf eine „einzelne Ausführungsform“ oder „eine Ausführungsform“ (oder ähnliches) bedeutet, dass ein bestimmtes Merkmal, eine Struktur oder ein Kennzeichen, das in Verbindung mit der Ausführungsform beschrieben wird, wenigstens in einer Ausführungsform enthalten ist. Somit bezieht sich das Auftreten der Phrasen „in einer einzelnen Ausführungsform“ oder „in einer Ausführungsform“ oder dergleichen an unterschiedlichen Stellen in dieser Spezifikation nicht notwendigerweise auf die gleiche Ausführungsform.
Weiterhin können die beschriebenen Merkmale, Strukturen oder Kennzeichen in irgendeiner geeigneten Weise in einer oder mehreren Ausführungsformen kombiniert werden. In der nachfolgenden Beschreibung wird eine Vielzahl spezieller Details bereitgestellt, um ein gründliches Verständnis der Ausführungsformen zu geben. Ein Fachmann des relevanten Standes der Technik wird jedoch erkennen, dass die unterschiedlichen Ausführungsformen ohne einen oder mehrere der spezifischen Details, oder mit oder ohne Verfahren, Komponenten, Materialien, usw., ausgeführt werden können. In anderen Beispielen werden bekannte Strukturen, Materialien oder Verfahren nicht im Detail gezeigt oder beschrieben, um Verschleierungen zu vermeiden.
Eine Untersuchung hat gezeigt, dass sich Leute besser fühlen und ein größeres Vertrauensgefühl zeigen, wenn sie mit anderen Leuten interagieren, welche den gleichen regionalen Dialekt teilen. Eine Person aus einem Südweststaat (z.B. Texas usw.) kann sich besser fühlen, wenn sie mit einem anderen Individuum aus dem gleichen Südweststaat interagiert, als wenn sie mit einer Person aus einem Nordoststaat (z.B. Massachusetts usw.) interagiert. Um diesen Punkt weiter herauszuheben, verwenden Anzeigen oft einen Dialekt, der Konzepte nachahmt (z.B. die Präsentation eines Inhalts in einem Dialekt des speziellen Verbrauchers), wenn beabsichtigt wird, Produkte an einen Konsumenten zu verkaufen, der an einem spezifischen geografischen Bereich örtlich gebunden ist.
Nutzer benutzen häufig Geräte, um eine Vielzahl unterschiedlicher Kommandos oder Anfragen auszuführen. Ein Verfahren, um mit einem Gerät zusammenzuarbeiten, ist eine Digital Assistant Software zu benutzen, die auf dem Gerät verwendet wird (z.B. Siri® für Apple®, Cortana® für Windows®, Alexa® für Amazon®, usw.). Digital Assistants sind in der Lage, Ausgaben bereitzustellen (z.B. hörbare Ausgaben, visuelle Ausgaben usw.), die auf eine Vielzahl von unterschiedlichen Arten von Nutzereingaben reagieren (z.B. Spracheingaben, Texteingaben, Gesteneingaben, usw.). Üblicherweise kann ein Nutzer aus einer N-Anzahl von vorbestimmten Dialekten wählen (z.B. verknüpft mit den hauptsächlichen Dialektbereichen usw.), um diese auf eine Ausgabe anzuwenden, die durch den Digital Assistant bereitgestellt wird. Zum Beispiel kann ein Nutzer auswählen, eine Ausgabe in Nordamerikanischem Englisch, Südamerikanischem Englisch, Mittelamerikanischem Englisch usw. zu empfangen.
Derzeit existierende auswählbare Dialekte umfassen jedoch nur breite Verallgemeinerungen der Hauptdialektbereiche und ermöglichen nicht, eine Ausgabe in kleineren, regionalen Dialekten bereitzustellen (z.B. nordöstliches Neuenglands-„Boston“-Englisch, westliches Pennsylvania-„Pittsburgh“-Englisch, südwestliches „Texanisches“ Englisch, usw.). Deshalb ist die Möglichkeit, dass ein besonderer regionaler Dialekt eines Nutzers auswählbar ist, sehr gering. Dieses stellt eine Herausforderung dar, weil eine Vielzahl von genauen regionalen Dialekten in einem einzelnen Hauptdialektbereich oder selbst in einem individuellen Staat vorhanden sein können. Den Staat Pennsylvania als Beispiel nehmend, kann eine allgemeine Begrüßung „how are you doing?“, abhängig von der Region in Pennsylvania (z.B. westliches Pennsylvania, östliches Pennsylvania, usw.), in der die Begrüßung kommuniziert wird, unterschiedlich ausgesprochen werden. Wenn diese zum Beispiel in Pittsburgh ausgesprochen wird, kann die Begrüßung „how yinz doing?“ sein, wobei wenn die Begrüßung in Philadelphia ausgesprochen wird, die Begrüßung „how ya doin'?“ sein kann. Zusätzlich zu dem Gebrauch der Worte, die speziell für den regionalen Dialekt sind, kann auch eine Aussprache bestimmter Worte zwischen regionalen Dialekten unterschiedlich sein. Deshalb kann eine verallgemeinerte Ausgabeeinstellung, die einfach mit einem „Pennsylvania-Dialekt“ verknüpft ist, nicht allen der regionalen Dialekte, die in Pennsylvania gefunden werden, entsprechen. Folglich kann sich ein Nutzer aus Pennsylvania, der eine verallgemeinernde Pennsylvania-Dialekteinstellung ausgewählt hat, nicht so behaglich beim Interagieren mit dem Gerät fühlen wie mit einer anderen individuellen Einstellung in seiner Region.
Dementsprechend stellt eine Ausführungsform ein Verfahren zum Bereitstellen einer Ausgabe in einem Dialekt bereit, der mit dem bestimmten Dialekt der hörbaren Nutzereingabe verknüpft ist. In einer Ausführungsform kann die Spracheingabe (z.B. Sprachkommandoeingabe, Sprachfrageneingabe, Unterhaltungseingabe, usw.) auf einem Gerät empfangen werden. Eine Ausführungsform kann dann (z.B. durch Identifizieren von Kennzeichen, die mit der hörbaren Eingabe assoziiert sind, usw.) einen Dialekt, in dem eine Nutzereingabe bereitgestellt wurde, bestimmen. In Reaktion auf diese Bestimmung kann eine Ausführungsform die Spracheingabe bearbeiten und/oder eine Ausgabe (z.B. hörbare Ausgabe, textbasierte Ausgabe, usw.) bereitstellen, die mit dem Dialekt der Eingabe, die bereitgestellt wurde, verknüpft ist. Zusätzlich kann das System den Dialekt des Nutzers erlernen und dann eine Ausgabe in dem erlernten Dialekt bereitstellen. Somit muss das System nicht mit dem Dialekt des Nutzers vorprogrammiert sein. Vielmehr kann der Nutzer das System nur durch Sprechen mit dem System „trainieren“. Ein derartiges Verfahren kann Nutzer in die Lage versetzen, eine Ausgabe in einem Dialekt zu empfangen, mit dem sie vertraut sind, und deshalb behaglicher mit dem Digital Assistant zusammenwirken.
Die dargestellten beispielhaften Ausführungsformen werden am besten durch Bezugnahme auf die Figuren verstanden. Die nachfolgende Beschreibung ist nur als ein Beispiel beabsichtigt und illustriert einfach bestimmte beispielhafte Ausführungsformen.
Während verschiedene andere Schaltkreise, Schaltungen oder Komponenten in Informationshandhabungsgeräten in Bezug auf eine Smartphone- und/oder Tablet-Schaltung 100 verwendet werden, umfasst ein in 1 gezeigtes Beispiel, ein Systemon-a-Chip Design, das zum Beispiel in vielen Tablet oder anderen mobilen Computer-Plattformen zu finden ist. Software und Prozessor(en) sind in einem einzigen Chip 110 kombiniert. Prozessoren umfassen interne arithmetische Einheiten, Register, Cache-Speicher, Busse, EIN/AUS-Ports, usw., wie sie in der Technik gut bekannt sind. Interne Busse und dergleichen hängen von unterschiedlichen Händlern ab, aber im Wesentlichen können all diese peripheren Geräte (120) an einem einzigen Chip 110 angebracht sein. Die Schaltung 100 kombiniert den Prozessor, die Speichersteuerung und einen EIN/AUS-Steuerknoten zusammen in einem einzigen Chip 110. Auch verwenden Systeme 100 dieses Typs nicht typischerweise SATA oder PCI oder LPC. Gemeinsame Schnittstellen schließen zum Beispiel SDIO und I2C ein.
Es gibt Strommanagementchips 130, z.B. eine Batteriemanagementeinheit, BMU, welche den Strom zum Beispiel über eine wiederaufladbare Batterie 140 liefert, die durch eine Verbindung mit einer Stromquelle (nicht gezeigt) wieder aufgeladen wird. In wenigstens einem Design wird ein einziger Chip 110 verwendet, um eine BIOS-ähnliche Funktionalität und einen DRAM-Speicher bereitzustellen.
Das System 100 umfasst typischerweise ein oder mehrere eines WWAN-Transceivers 150 und eines WLAN-Transceivers 160 zum Verbinden mit verschiedenen Netzwerken, wie Telekommunikationsnetzwerken und drahtlosen Internetgeräten, z.B. Zugriffspunkten. Zusätzlich sind für gewöhnlich Geräte 120 eingeschlossen z.B. ein Bildsensor wie eine Kamera, ein Audioaufnahmegerät wie ein Mikrophon, ein Thermosensor, usw. Das System 100 umfasst häufig einen Berührungsbildschirm 170 für die Dateneingabe und für eine Anzeige/Wiedergabe. Das System 100 umfasst auch typischerweise verschiedene Speichergeräte, z.B. Flash-Speicher 180 und SDRAM 190.
2 zeigt ein Blockdiagramm eines anderen Beispiels von Informationshandhabungsgeräte-Schaltkreisen, Schaltungen oder Komponenten. Das Beispiel, das in 2 gezeigt wird, kann Computersystemen, wie denen der THINKPAD-Serien von Personalcomputern, die von Lenovo (US) Inc. of Morrisville, NC, verkauft werden, oder anderen Geräten entsprechen. Wie es durch die Beschreibung hierin ersichtlich ist können Ausführungsformen andere Merkmale oder nur einige Merkmale des Beispiels, das in 2 dargestellt wird, einschließen.
Das Beispiel der 2 umfasst einen sogenannten Chipsatz 210 (eine Gruppe integrierter Schaltungen oder Chips, die zusammenarbeiten, Chipsätze) mit einer Architektur, die abhängig von dem Hersteller variieren kann (zum Beispiel INTEL, AMD, ARM, usw.). INTEL ist eine registrierte Handelsmarke der Intel Corporation in den Vereinigten Staaten und anderen Ländern. AMD ist eine registrierte Handelsmarke der Advanced Micro Devices Inc. in den Vereinigten Staaten und anderen Ländern. ARM ist eine nicht registrierte Handelsmarke der ARM Holding plc in den Vereinigten Staaten und anderen Ländern. Die Architektur des Chipsatzes 210 umfasst eine Kern und Speichersteuergruppe 220 und einen EIN/AUS-Steuerknoten 250, der Informationen (zum Beispiel Daten, Signale, Anweisungen, usw.) über eine Direct Management Interface (DMI) 242 oder ein Verbindungssteuergerät 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schnittstelle (auf die manchmal auch als eine Verbindung zwischen einer „northbridge“ und einer „southbridge“ Bezug genommen wird). Die Kern und Speichersteuerungsgruppe 220 umfasst einen oder mehrere Prozessoren 222 (zum Beispiel Einzel- oder Mehrkern) und einen Speichersteuerknoten 226, die Informationen über einen Front-Side-Bus (FSB) 224 austauschen; es ist anzumerken, dass die Komponenten der Gruppe 220 auf einem Chip integriert sein können, der die konventionelle „northbridge“-artige Struktur ersetzt. Ein oder mehrere Prozessoren 222 umfassen interne arithmetische Einheiten, Register, Cache-Speicher, Busse, EIN/AUS-Ports, usw., wie sie in der Technik gut bekannt sind.
In 2 bildet der Speichersteuerknoten 226 Schnittstellen mit dem Speicher 240 (zum Beispiel um eine Unterstützung für eine Art RAM-Speicher bereitzustellen, auf den als einen „Systemspeicher“ oder „Speicher“ Bezug genommen werden kann). Der Speichersteuerknoten 226 schließt weiterhin eine differentielle Niederspannungs-Signalisierungs-(LVDS) Schnittstelle 232 für ein Anzeigegerät 292 ein (zum Beispiel einen CRT, einen Flachbildschirm, einen Touchscreen, usw.). Ein Block 238 umfasst einige Technologien, die über die LVDS-Schnittstelle 232 unterstützt werden können (zum Beispiel serielles digitales Video, HDMI/DVI, Anzeigeanschluss). Der Speichersteuerknoten 226 schließt auch eine PCI-Express-Schnittstelle (PCI-E) 234 ein, die diskrete Grafiken 236 unterstützen kann.
In 2 umfasst der EIN/AUS-Steuerknoten 250 eine SATA-Schnittstelle 251 (zum Beispiel für HDDs, SDDs, usw. 280), eine PCI-E-Schnittstelle 252 (zum Beispiel für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (zum Beispiel für Geräte 284 wie einen Digitalisierer, eine Tastatur, eine Maus, Kameras, Telefone, Mikrofone, einen Speicher, andere verbundene Geräte, usw.), eine Netzwerkschnittstelle 254 (zum Beispiel LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, eine TPM 272, einen Super-Ein/Aus-Steuerknoten 273, einen Firmenware-Knoten 274, eine BIOS-Unterstützung 275 sowie unterschiedliche Arten von Speichern 276 wie ROM 277, Flash 278 und NVRAM 279), eine Strommanagementschnittstelle 261, eine Taktgeneratorschnittstelle 262, eine Audioschnittstelle 263 (zum Beispiel für Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemmanagementbus-Schnittstelle 265 und einen SPI-Flash 266, der eine BIOS 268 und einen Boot Code 290 beinhalten kann. Der EIN/AUS-Steuerknoten 250 kann eine Gigabit-Ethernet-Unterstützung aufweisen.
Sobald das System eingeschaltet ist, kann es konfiguriert sein, um einen Boot Code 290 für die BIOS-Schnittstelle 268 auszuführen, wie in dem SPI-Flash 266 gespeichert, und danach Daten unter der Steuerung von einem oder mehreren Betriebssystemen und Applikationssoftware (die zum Beispiel in dem Systemspeicher 240 gespeichert ist), zu verarbeiten. Ein Betriebssystem kann an irgendeiner von unterschiedlichen Stellen gespeichert sein und zum Beispiel gemäß den Instruktionen der BIOS 268 auf dieses zugegriffen werden. Wie hierin beschrieben, kann ein Gerät weniger oder mehr Merkmale, als die in dem System der 2 gezeigt werden, enthalten.
Eine Informationshandhabungsgeräteschaltung, wie sie beispielsweise in den 1 und 2 gezeigt wird, kann in Geräten wie Tablets, Smartphones, smarten Lautsprechern, Personalcomputergeräten allgemein und/oder elektronischen Geräten verwendet werden, welche Digital Assistants aufweisen, mit denen ein Nutzer interagieren kann und die verschiedenen Funktionen in Reaktion auf eine empfangene Nutzereingabe ausführen können. Zum Beispiel kann die Schaltung, die in 1 dargestellt wird, in einer Tablet- oder Smartphone-Ausführungsformimplementiert sein, wohingegen die Schaltung, die in 2 dargestellt wird, in einer Personalcomputer-Ausführungsform implementiert sein kann.
Nun mit Bezug auf 3, kann eine Ausführungsform eine Ausgabe in einem Dialekt bereitstellen, der mit dem Dialekt der hörbaren Nutzereingabe verknüpft ist. Bei 301, kann eine Ausführungsform eine Spracheingabe von wenigstens einem Nutzer empfangen. Die Spracheingabe kann irgendeine Art von Eingabe sein, wie eine Kommandoeingabe, eine Anfrageeingabe und dergleichen. In einer Ausführungsform kann die Spracheingabe auf einem Eingabegerät (z.B. ein Mikrofon, ein Sprachaufnahmegerät, usw.) empfangen werden, das operativ mit einem Spracherkennungsgerät gekoppelt ist.
In einer Ausführungsform kann das Eingabegerät ein Eingabegerät sein, das in das Spracherkennungsgerät integriert ist. Ein Smartphone kann zum Beispiel mit einem Mikrofon ausgestattet sein, das zum Empfangen von Spracheingabedaten in der Lage ist. Alternativ kann das Eingabegerät auf einem anderen Gerät angeordnet sein und kann empfangene Spracheingabedaten an das Spracherkennungsgerät senden. Zum Beispiel kann eine Spracheingabe auf einem smarten Lautsprecher empfangen werden, der anschließend die Sprachdaten an ein anderes Gerät sendet (z.B. zur Bearbeitung zu einem Smartphone eines Nutzers, usw.). Spracheingabedaten können von anderen Quellen an das Spracherkennungsgerät über eine drahtlose Verbindung (z.B. unter Verwenden einer BLUETOOTH-Verbindung, Nahfeldkommunikation, (NFC), drahtlosen Verbindungstechniken, usw.), eine verdrahtete Verbindung (z.B. ist das Gerät mit einem anderen Gerät oder einer Quelle gekoppelt, usw.), über ein verbundenes Datenspeichersystem (z.B. über einen Cloudspeicher, einen fernen Speicher, einem örtlichen Speicher, einem Netzwerkspeicher, usw.) und dergleichen an das Spracherkennungsgerät kommuniziert werden.
In einer Ausführungsform kann das Eingabegerät konfiguriert sein, um durch Aufrechterhalten des Eingabegeräts in einem aktivierten Zustand kontinuierlich Spracheingabedaten zu empfangen. Das Eingabegerät kann zum Beispiel kontinuierlich Spracheingabedaten erfassen, selbst wenn andere Sensoren (z.B. Kameras, Lichtsensoren, Lautsprecher, andere Mikrofone, usw.), die mit dem Spracherkennungsgerät verbunden sind, inaktiv sind. Alternativ kann das Eingabegerät für eine vorbestimmte Zeitdauer in einem aktiven Zustand verbleiben (z.B. 30 Minuten, 1 Stunde, 2 Stunden, usw.). Nachfolgend kann eine Ausführungsform, die während dieses vorbestimmten Zeitfensters keine Spracheingabedaten empfängt, das Eingabegerät in einen Energieausschaltzustand schalten. Das vorbestimmte Zeitfenster kann durch den Hersteller vorkonfiguriert werden oder kann alternativ durch einen oder mehrere Nutzer vorkonfiguriert und eingestellt werden.
Bei 302 kann eine Ausführungsform einen Dialekt bestimmen, der mit der hörbaren Nutzereingabe verknüpft ist. In einer Ausführungsform kann die Bestimmung durch Analysieren der Sprachdaten, die mit der hörbaren Nutzereingabe verknüpft sind, erfolgen, um Kennzeichen, die mit einem Dialekt verknüpft sind, zu identifizieren. Durch die Analyse kann eine Ausführungsform in der Lage sein, einen besonderen regionalen Dialekt zu identifizieren und/oder einen Dialekt zu lernen, der für den Nutzer, der die Eingabe bereitstellt, besonders ist. In einer Ausführungsform kann die Analyse zum Beispiel unter Verwenden bekannter Spracheingabeanalyseverfahren (z.B. Spektrogramm-Analyse, Rhythmusanalyse, Sprachverhältnisanalyse, Vokabular-Ausdrucks-Analyse, Wortidentifikation und/oder Assoziationen, usw.) durchgeführt werden. In einer Ausführungsform kann die Analyse in Echtzeit oder im Wesentlichen in Echtzeit ausgeführt werden (z.B. wenn ein Nutzer die Spracheingabe bereitstellt, usw.).
In einer Ausführungsform kann ein Kennzeichen, das mit der hörbaren Spracheingabe assoziiert ist, irgendein Kennzeichen sein, das speziell zu einem spezifischen regionalen Dialekt gehört. In einer Ausführungsform kann ein Kennzeichen, das mit den Sprachdaten assoziiert ist, die Vokal- und/oder Konsonantenaussprache von verschiedenen Worten oder Sätzen umfassen. Zum Beispiel können manche Sprecher besondere Vokal- oder Konsonantentöne langziehen, während andere Sprecher einige Vokale oder Konsonanten abschneiden oder weglassen. Sprecher eines besonderen Dialektes können bestimmte Worte und/oder Sätze in einer besonderen Weise aussprechen, die für den Dialekt besonders sind. Als solche kann ein Nutzer, der mit einem Dialekt verknüpft ist, bestimmte Worte und/oder Sätze anders aussprechen als ein Nutzer, der mit einem anderen Dialekt verknüpft ist. Andere hörbare Kennzeichen können identifiziert werden, um bei der Bestimmung oder beim Lernen eines Dialektes eines Sprechers zu helfen. und umfassen die Geschwindigkeit, mit welcher der Nutzer eine Spracheingabe bereitstellt, die Lautstärke, mit der eine Spracheingabe bereitgestellt wird, ein Akzent, der mit der Spracheingabe assoziiert ist, und irgendwelche anderen Sprachkennzeichen, die verwendet werden können, um zwischen zwei oder mehr Dialekten zu unterscheiden.
In einer Ausführungsform kann ein anderes Kennzeichen, das mit der Spracheingabe assoziiert ist, spezifische Worte und/oder Sätze umfassen, die speziell für den spezifischen regionalen Dialekt sind. Zum Beispiel kann sich ein Submarinesandwich (nämlich ein langes Sandwich, das kalte Schnittstücke, Kopfsalat usw. enthält) auf eine Vielzahl unterschiedlicher Dinge beziehen, abhängig von der Region, in der sich das Individuum befindet. Vielleicht ist der universellste Name für das Submarinesandwich ein „sub“. Für Individuen, die in der Stadt New York wohnen, wird das Submarinesandwich jedoch üblicherweise als ein „Grinder“; für Individuen, die in Philadelphia wohnen, als ein „Hoagie“; und für Individuen, die in New Orleans wohnen als ein „Poor Boy“ bezeichnet. Deshalb kann, in Reaktion auf ein Empfangen der hörbaren Nutzereingabe „Welches Restaurant serviert das beste hoagie in der Stadt?“, eine Ausführungsform bestimmen, dass die Nutzereingabe mit einem östlichen Pennsylvania-Dialekt verknüpft ist.
Durch ein Identifizieren von Kennzeichen, die mit den empfangenen Sprachdaten assoziiert sind, kann eine Ausführungsform einen entsprechenden Dialekt zum Bereitstellen einer Ausgabe identifizieren (z.B. durch Vergleichen der identifizierten Kennzeichen mit einer Datenbank von Kennzeichen, die zu bestimmten Dialekten passen, usw.). Zusätzlich und/oder alternativ kann eine Ausführungsform die Schwierigkeiten eines persönlichen Dialektes eines Nutzers lernen (z.B. durch häufiges Zusammenwirken mit dem Nutzer, usw.) und kann die gelernten Kennzeichen in einem Nutzerprofil speichern. In einer Ausführungsform kann ein Gerät ein oder mehrere Nutzerprofile speichern (z.B. an einem in das Gerät integrierten Speicherort, oder an einem entfernten Speicherort, auf den das Gerät zugreifen kann, usw.). Jedes Nutzerprofil kann mit einem individuellen Nutzer verknüpft sein. In einer Ausführungsform können mehrere Nutzer auf ein einzelnes Gerät zugreifen und dieses nutzen. In einer derartigen Situation kann eine Ausführungsform einen Nutzer vor einem Zugreifen auf ein Nutzerprofil, das mit diesem besonderen Nutzer verknüpft ist, identifizieren. Zum Beispiel können mehrere Nutzer die Möglichkeit haben, auf ein Gerät (z.B. ein Smartphone, einen bestimmten smarten Lautsprecher, einen Laptopcomputer, einem Desktopcomputer, usw.) durch Einloggen in ein Nutzerprofil zuzugreifen.
Jedes Nutzerprofil kann eine Vielzahl von Einstellungen, einschließlich Dialektdaten, welche für den identifizierten Nutzer spezifisch sein können, enthalten. Nutzer A kann zum Beispiel durch Bereitstellen von Nutzeridentifikationsdaten (z.B. ein hörbares Triggerwort, einen digitalen Fingerabdruck, einen nutzerassoziierten Passiercode, Nutzerbeglaubigungen, biometrische Daten, Gerätedaten, usw.) an ein Eingabegerät, das mit einem Gerät verknüpft ist, Zugriff auf ein Nutzerprofil auf dem Gerät gewinnen. Dem Gewähren eines Zugriffs eines Nutzers A auf sein Nutzerprofil nachfolgend kann eine Ausführungsform einen Zugriff auf Dialektdaten, die mit dem Nutzer A verknüpft sind, haben. Wenn sich ein Nutzer B in ein Nutzerprofil, das mit dem Nutzer B assoziiert ist, auf dem gleichen Gerät einloggt, kann eine Ausführungsform eher auf Dialektdaten, die für Nutzer B spezifisch sind, als auf Dialektdaten, die mit Nutzer A verknüpft sind, zugreifen.
In Reaktion auf ein Bestimmen eines Dialektes bei 302, der mit der hörbaren Nutzereingabe verknüpft ist, stellt eine Ausführungsform bei 304 eine Ausgabe, die mit dem Dialekt verknüpft ist, bereit. Die Ausgabe kann eine hörbare Ausgabe, eine visuelle Ausgabe, eine Kombination davon oder dergleichen sein. In einer Ausführungsform kann die hörbare Ausgabe durch einen Lautsprecher, ein anderes Ausgabegerät und dergleichen bereitgestellt werden. In einer Ausführungsform kann die visuelle Ausgabe durch einen Anzeigebildschirm, ein anderes Anzeigegerät und dergleichen bereitgestellt werden. In einer Ausführungsform kann das Ausgabegerät in das Spracherkennungsgerät integriert sein oder kann auf einem anderen Gerät angeordnet sein. In dem letzteren Fall kann das Ausgabegerät über eine drahtlose oder verdrahtete Verbindung mit dem Spracherkennungsgerät verbunden sein. Zum Beispiel kann ein Smartphone Instruktionen bereitstellen, um eine hörbare Ausgabe über einen operativ gekoppelten smarten Lautsprecher bereitzustellen.
In einer Ausführungsform kann das Vorsehen einer Ausgabe ein Anpassen einer Dialekteinstellung, die mit dem Gerät assoziiert ist, umfassen. Die Dialekteinstellung kann mit einem Ausgabepfad assoziiert sein, der einem Nutzer bereitgestellt wird. Ein Anpassen der Dialekteinstellung kann ein Anpassen der Dialekteinstellung von einer ersten Dialekteinstellung (z.B. von einer Standarddialekteinstellung, die auf dem Gerät vorkonfiguriert ist, von einer vorhergehenden Dialekteinstellung, die mit einem anderen Nutzerprofil assoziiert ist, usw.) zu einem Dialekt, der mit der hörbaren Nutzereingabe verknüpft ist, umfassen. Das System kann zum Beispiel die Fabrikfehleinstellung auf eine Dialekteinstellung, die mit dem Nutzerverknüpft ist, anpassen. Als anderes Beispiel kann ein Nutzer einen vorkonfigurierten Dialekt, zum Beispiel amerikanisches Englisch, auswählen, und kann das System, sobald das System einen spezifischeren Dialekt des Nutzers gelernt hat, den Standard-Amerikanisch-Englischen-Dialekt dem des Nutzers anpassen. Eine Ausführungsform kann die identifizierten Kennzeichen in den Sprachdaten verwenden, um eine Ausgabe durch Einbauen der identifizierten Kennzeichen anzupassen, damit diese mit dem Dialekt der hörbaren Nutzereingabe übereinstimmt.
In einer Ausführungsform kann, in Bezug auf die hörbare Ausgabe, eine Dialekteinstellung mit einer Ausgabeaussprache (z.B. wie ein Gerät verschiedene Worte und/oder Sätze ausspricht, usw.), Ausgabegeschwindigkeit (z.B. wie schnell ein Gerät eine natürliche Sprachausgabe wiederholt, usw.), Ausgabelautstärke (z.B. wie laut ein Gerät eine natürliche Sprachausgabe wiederholt, usw.), Ausgabewortwahl (z.B. welche dialektspezifischen Worte werden in der Ausgabe verwendet, usw.) und dergleichen korrespondieren. In einer Ausführungsform kann die hörbare Ausgabe in dem gleichen oder im Wesentlichen in dem gleichen Dialekt wie der Dialekt, der mit der hörbaren Nutzereingabe verknüpft ist, sein. Zum Beispiel kann eine Ausführungsform, in Reaktion auf das Bestimmen oder Lernen, dass die Nutzereingabe mit einem westlichen Pennsylvania-Dialekt verknüpft ist, eine antwortende hörbare Ausgabe bereitstellen, die Kennzeichen verwendet, die mit dem westlichen Pennsylvania-Dialekt verknüpft sind (z.B. Verwenden von Vokal- und Konsonantenklängen, die mit dem westlichen Pennsylvania-Dialekt verknüpft sind, usw.), und/oder Wörter verwendet, die gewöhnlicherweise in dem westlichen Pennsylvania-Dialekt verwendet werden (z.B. „yinz“, usw.).
In einer Ausführungsform kann eine Dialekteinstellung der Art, wie eine visuelle Ausgabe bereitgestellt wird, entsprechen (z.B. Wortwahlen, die in textbasierter Ausgabe verwendet werden, usw.). Die visuelle Ausgabe kann Wörter umfassen, die üblicherweise in einem besonderen Dialekt verwendet werden. In Reaktion auf das Empfangen der Nutzeranfrageeingabe „is Fenway Park far away?“ in einem Bostoner Englischdialekt (z.B. „is Fenway Pahk fah away?“) zum Beispiel, kann eine Ausführungsform auf einem Anzeigebildschirm die folgende textbasierende visuelle Ausgabe bereitstellen: „Yea, Fenway Park is wicked far.“ In dieser Situation wird das Wort „wicked“ in dem Bostoner Englischdialekt allgemein als Ersatz für das Wort „very“ verwendet.
In Reaktion darauf, dass bei 302 ein Dialekt, der mit der hörbaren Nutzereingabe verknüpft ist, nicht bestimmt wird, stellt eine Ausführungsform bei 303 eine Ausgabe bereit, die vorkonfigurierte Einstellungen verwendet. In diesem Kontext können sich vorkonfigurierte Einstellungen zum Beispiel auf eine vorkonfigurierte Dialekteinstellung, die auf dem Gerät vorhanden ist, beziehen.
Die verschiedenen Ausführungsformen, die hierin beschrieben werden, repräsentieren somit eine technische Verbesserung für konventionelle, dialektbezogene Ausgabeverfahren. Unter Verwenden der Technik, die hierin beschrieben wird, kann eine Ausführungsform einen Dialekt bestimmen, der mit einem Nutzer, welcher eine hörbare Eingabe bereitstellt, verknüpft ist. Danach kann eine Ausführungsform eine Dialekteinstellung anpassen, um eine Ausgabe unter Verwenden des gleichen Dialektes wie die vom Nutzer bereitgestellte Eingabe bereitzustellen. Derartige Verfahren können es einem Nutzer ermöglichen, sich beim Interagieren mit einem Gerät behaglicher zu fühlen, und können eine gesteigerte Geräteverwendung fördern.
Wie es für einen Fachmann der Technik ersichtlich ist, können unterschiedliche Aspekte in einem System, einem Verfahren oder einem Geräteprogrammprodukt verkörpert sein. Demgemäß können Aspekte die Form einer gesamten Hardwareausführungsform oder eine Ausführungsform, die Software einschließt, einnehmen, auf die hierin alle allgemein als „Schaltkreis“, „Modul“ oder „System“ Bezug genommen wird. Weiterhin können Aspekte die Form eines Geräteprogrammprodukts einnehmen, welches in einem oder mehreren gerätelesbaren Medien verkörpert ist, die darin verkörperte gerätelesbare Programmcodesaufweisen.
Es ist anzumerken, dass verschiedene Funktionen, die hierin beschrieben werden, unter Verwenden von Instruktionen ausgeführt werden können, die auf einem gerätelesbaren Speichermedium wie einem Nichtsignal Speichergerät gespeichert sind, welche durch den Prozessor ausgeführt werden. Ein Speichergerät kann zum Beispiel eine Systemvorrichtung, oder ein Gerät (z.B. ein elektronisches, magnetisches, optisches oder elektromagnetisches, infrarotes oder Halbleiter-System, - Vorrichtung oder -Gerät,) oder irgendeine geeignete Kombination der Vorhergehenden sein. Spezifischere Beispiele für ein Speichergerät/Medium umfassen die Folgenden: eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM, oder Flash-Speicher), eine optische Faser, eine tragbaren Compact-Disk Nur-Lese-Speicher (CD-ROM), ein optisches Speichergerät, ein magnetisches Speichergerät oder irgendeine geeignete Kombination der Vorhergehenden. In dem Kontext dieses Dokuments ist ein Speichergerät kein Signal und umfasst „nicht-transitorisch“ alle Medien außer Signalmedien.
Ein Programmcode, der auf deinem Speichermedium verkörpert ist, kann unter Verwenden eines geeigneten Mediums übertragen werden, welches einschließt aber nicht begrenzt ist auf drahtlos, drahtgebunden, optische Faserkabel, HF, usw., oder irgendeine geeignete Kombination von den Vorhergehenden.
Ein Programmcode zum Ausführen von Operationen kann in irgendeiner Kombination einer oder mehreren Programmsprachen geschrieben sein. Der Programmcode kann vollständig auf einem einzigen Gerät, teilweise auf einem einzigen Gerät, als alleinstehendes Softwarepaket, teilweise auf einem einzigen Gerät und teilweise auf einem anderen Gerät, oder vollständig auf einem anderen Gerät ausgeführt werden. In einigen Fällen können die Geräte durch irgendeine Verbindung oder ein Netzwerk verbunden sein, einschließlich eines lokalen Netzwerks (LAN) oder eines Weitverkehrsnetzes (WAN) oder kann die Verbindung durch andere Geräte (zum Beispiel durch das Internet unter Verwenden eines Internet Service Providers), durch drahtlose Verbindung, z.B. Nahfeldkommunikation, oder durch eine feste Drahtverbindung, wie über eine USB-Verbindung, erfolgen.
Hierin werden beispielhafte Ausführungsformen mit Bezug auf die Figuren beschrieben, welche beispielhafte Verfahren, Geräte und Programmprodukte gemäß unterschiedlicher beispielhafter Ausführungsformen darstellen. Es ist verständlich, dass die Aktionen und die Funktionalität wenigstens zum Teil durch Programminstruktionen ausgeführt werden können. Diese Programminstruktionen können einem Prozessor eines Gerätes, eines Informationsverarbeitungsgerätes für spezielle Zwecke oder anderer programmierbarer Datenverarbeitungsgeräte bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Instruktionen, welche durch den Prozessor des Gerätes ausgeführt werden, die spezifizierten Funktionen/Aktionen implementieren.
Es ist sinnvoll anzumerken, dass, während bestimmte Blöcke in den Figuren verwendet werden und eine bestimmte Anordnung der Blöcke dargestellt wird, dieses keine begrenzenden Beispiele sind. In bestimmten Kontexten können zwei oder mehr Blöcke kombiniert werden, kann ein Block in zwei oder mehr Blöcke aufgeteilt werden oder können bestimmte Blöcke neu geordnet oder neu geeignet organisiert werden, da die ausdrücklich dargestellten Beispiele nur für beschreibende Zwecke verwendet werden und nicht als begrenzend auszulegen sind.
Wie hierin verwendet, kann die Einzahl „ein“ und „eine“ ausgelegt werden, als wenn sie eine Mehrzahl wie „eines oder mehrere“ einschließt, außer es ist klar in anderer Weise dargestellt.
Diese Offenbarung wurde zu Zwecken der Darstellung und Beschreibung präsentiert, jedoch ist es nicht beabsichtigt, dass diese erschöpfend oder begrenzend sein soll. Viele Modifikationen und Variationen werden für den Fachmann in der Technik naheliegend sein. Die beispielhaften Ausführungsformen sind ausgewählt, um die Prinzipien und die praktischen Applikationen zu beschreiben, und um andere mit fachmännischem Wissen des Standes der Technik in die Lage zu versetzen, die Offenbarung der unterschiedlichen Ausführungsformen mit unterschiedlichen Modifikationen zu verstehen, wie sie für den besonders betrachteten Gebrauch geeignet sind.
Somit ist verständlich, dass diese Beschreibung, obgleich dargestellte beispielhafte Ausführungsformen hierin mit Bezug auf die begleitenden Zeichnungen beschrieben wurden, nichtbegrenzend ist und dass unterschiedliche andere Änderungen und Modifikationen daran durch einen Fachmann der Technik vorgenommen werden können, ohne von dem Schutzumfang und dem Geist der Offenbarung abzuweichen.

Claims

Was beansprucht wird, ist:
Verfahren, umfassend: - Empfangen einer hörbaren Nutzereingabe auf einem Informationshandhabungsgerät; - Bestimmen, unter Verwenden eines Prozessors, eines Dialekts, der mit der hörbaren Nutzereingabe verknüpft ist; und - Bereitstellen, basierend auf der Bestimmung, einer Ausgabe, die mit dem Dialekt verknüpft ist.
Verfahren nach Anspruch 1, wobei das Bereitstellen einer Ausgabe ein Bereitstellen einer hörbaren Ausgabe umfasst.
Verfahren nach Anspruch 1, wobei das Bereitstellen ein Anpassen einer Dialekteinstellung, die mit dem Informationshandhabungsgerät verknüpft ist, umfasst.
Verfahren nach Anspruch 3, wobei das Anpassen ein Anpassen der Dialekteinstellung von einem ersten Dialekt in einen Dialekt, der mit der hörbaren Nutzereingabe verknüpft ist, umfasst.
Verfahren nach Anspruch 1, wobei das Bestimmen ein Analysieren der hörbaren Nutzereingabe umfasst, um Kennzeichen, die mit der hörbaren Nutzereingabe assoziiert sind, zu identifizieren.
Verfahren nach Anspruch 5, wobei das Bereitstellen ein Verwenden der identifizierten Kennzeichen umfasst, um eine Ausgabe durch Einbauen der identifizierten Kennzeichen anzupassen, damit diese mit dem Dialekt der hörbaren Nutzereingabe übereinstimmt.
Verfahren nach Anspruch 6, wobei das Anpassen der Ausgabe ein Anpassen einer Vokal- und Konsonantenaussprache basierend auf den identifizierten Kennzeichen umfasst.
Verfahren nach Anspruch 5, wobei das Bestimmen ein Bestimmen der hörbaren Nutzereingabe unter Verwenden von einem oder mehreren von einer Spektrogramm-Analyse, einer Rhythmusanalyse, einem Anteil der Sprachverhältnisanalyse und einer Vokabular-Ausdrucks-Analyse umfasst.
Verfahren nach Anspruch 1, ferner ein Identifizieren eines Nutzers, der die hörbare Nutzereingabe bereitstellt, umfassend.
Verfahren nach Anspruch 9, ferner ein Speichern des bestimmten Dialektes in einem Profil, das mit dem Nutzer assoziiert ist, umfassend.
Verfahren nach Anspruch 10, ferner ein Zugreifen auf das Profil in Reaktion auf das Identifizieren des Nutzers umfassend.
Informationshandhabungsgerät, umfassend: - einen Prozessor; - ein Speichergerät, das Instruktionen speichert, die durch den Prozessor ausführbar sind, zum: - Empfangen einer hörbaren Nutzereingabe; - Bestimmen eines Dialektes, der mit der hörbaren Nutzereingabe verknüpft ist; und - basierend auf der Bestimmung, Bereitstellen einer Ausgabe, die mit dem Dialekt verknüpft ist.
Informationshandhabungsgerät nach Anspruch 12, wobei die Instruktionen, die durch den Prozessor zum Bereitstellen ausführbar sind, Instruktionen umfassen, die durch den Prozessor ausführbar sind, um eine Dialekteinstellung anzupassen, die mit dem Informationshandhabungsgerät verknüpft ist.
Informationshandhabungsgerät nach Anspruch 13, wobei die Instruktionen, die durch den Prozessor zum Anpassen ausführbar sind, Instruktionen umfassen, die durch den Prozessor ausführbar sind, um die Dialekteinstellung von einem ersten Dialekt an den Dialekt, der mit der hörbaren Nutzereingabe verknüpft ist, anzupassen.
Informationshandhabungsgerät nach Anspruch 12, wobei die Instruktionen, die durch den Prozessor zum Bestimmen ausführbar sind, Instruktionen umfassen, die durch den Prozessor ausführbar sind, um die hörbare Nutzereingabe zu bestimmen, um Kennzeichen, die mit der hörbaren Nutzereingabe assoziiert sind, zu identifizieren.
Informationshandhabungsgerät nach Anspruch 15, wobei die Instruktionen, die durch den Prozessor zum Bereitstellen ausführbar sind, Instruktionen umfassen, die durch den Prozessor ausführbar sind, um die identifizierten Kennzeichen zum Anpassen einer Ausgabe durch Einbauen der identifizierten Kennzeichen zu verwenden, damit diese mit dem Dialekt der hörbaren Nutzereingabe übereinstimmt.
Informationshandhabungsgerät nach Anspruch 16, wobei die Instruktionen, die durch den Prozessor zum Anpassen der Ausgabe ausführbar sind, Instruktionen umfassen, die durch den Prozessor ausführbar sind, um eine Vokal- und Konsonantenaussprache basierend auf den identifizierten Kennzeichen anzupassen.
Informationshandhabungsgerät nach Anspruch 16, wobei die Instruktionen, die durch den Prozessor zum Bestimmen ausführbar sind, Instruktionen umfassen, die durch den Prozessor ausführbar sind, um die hörbare Nutzereingabe unter Verwenden von einem oder mehreren von einer Spektrogramm-Analyse, einer Rhythmusanalyse, einer Sprachverhältnisanalyse und einer Vokabular-Ausdrucks-Analyse zu analysieren.
Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen ferner durch den Prozessor ausführbar sind, um einen Nutzer zu identifizieren, der die hörbare Nutzereingabe bereitstellt, und wobei die Instruktionen ferner durch den Prozessor ausführbar sind, um den bestimmten Dialekt in einem Profil, das mit dem Nutzer assoziiert ist, zu speichern.
Produkt, umfassend: - ein Speichergerät, das einen Code speichert, wobei der Code durch einen Prozessor ausführbar ist und umfasst: - einen Code, der eine hörbare Nutzereingabe empfängt; - einen Code, der einen Dialekt, der mit der hörbaren Nutzereingabe verknüpft ist, bestimmt; und - einen Code, der, basierend auf dem Code des Bestimmens, eine Ausgabe bereitstellt, die mit dem Dialekt verknüpft ist.