DE112018007242T5 - Datenverarbeitungsvorrichtung,Datenverarbeitungsverfahren, Programm undDatenverarbeitungssystem - Google Patents

Datenverarbeitungsvorrichtung,Datenverarbeitungsverfahren, Programm undDatenverarbeitungssystem Download PDF

Info

Publication number
DE112018007242T5
DE112018007242T5 DE112018007242.8T DE112018007242T DE112018007242T5 DE 112018007242 T5 DE112018007242 T5 DE 112018007242T5 DE 112018007242 T DE112018007242 T DE 112018007242T DE 112018007242 T5 DE112018007242 T5 DE 112018007242T5
Authority
DE
Germany
Prior art keywords
voice
unit
data processing
input
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018007242.8T
Other languages
English (en)
Inventor
Emiru TSUNOO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of DE112018007242T5 publication Critical patent/DE112018007242T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • H04L67/125Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Die vorliegende Erfindung stellt eine Datenverarbeitungsvorrichtung bereit, die eine Eingabeeinheit zum Empfangen einer vorgeschriebenen Sprache und eine Bestimmungseinheit zum Bestimmen, ob die Sprache, die eingegeben wird, nachdem Sprache eingegeben worden ist, die ein vorgegebenes Wort aufweist, eine Ausrüstung bedienen soll, umfasst.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Offenbarung bezieht sich auf eine Datenverarbeitungsvorrichtung, auf ein Datenverarbeitungsverfahren, auf ein Programm und auf ein Datenverarbeitungssystem.
  • STAND DER TECHNIK
  • Es sind elektronische Vorrichtungen vorgeschlagen worden, die eine Spracherkennung ausführen (siehe z. B. Patentdokument 1 und 2).
  • LISTE DER ENTGEGENHALTUNGEN
  • PATENTDOKUMENT
    • Patentdokument 1: japanische offengelegte Patentanmeldung Nr. 2014-137430
    • Patentdokument 2: japanische offengelegte Patentanmeldung Nr. 2017-191119
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
  • Auf einem derartigen Gebiet ist es erwünscht zu verhindern, dass die Spracherkennung auf der Grundlage einer Sprache ausgeführt wird, die einen Agenten nicht bedienen soll, und dass der Agent gestört wird.
  • Eine der Aufgaben der vorliegenden Offenbarung ist die Bereitstellung einer Datenverarbeitungsvorrichtung, eines Datenverarbeitungsverfahrens, eines Programms und eines Datenverarbeitungssystems, die eine Verarbeitung in Übereinstimmung mit einer Stimme ausführen, die einen Agenten bedienen soll, etwa dann, wenn ein Anwender mit der Stimme spricht.
  • LÖSUNGEN DER PROBLEME
  • Die vorliegende Erfindung ist z. B. eine Datenverarbeitungsvorrichtung, die Folgendes aufweist:
    • eine Eingabeeinheit, in die eine vorgegebene Stimme eingegeben wird, und
    • eine Bestimmungseinheit, die bestimmt, ob eine Stimme, die nach einer Stimme eingegeben wird, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll.
  • Die vorliegende Erfindung ist z. B.
    • ein Datenverarbeitungsverfahren, das Folgendes aufweist:
    • Bestimmen, ob eine Stimme, die in eine Eingabeeinheit eingegeben wird, nachdem in die Eingabeeinheit eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, die Vorrichtung bedienen soll, durch eine Bestimmungseinheit.
  • Die vorliegende Erfindung ist z. B. ein Programm, das veranlasst, dass ein Computer ein Datenverarbeitungsverfahren ausführt, das Folgendes aufweist:
    • Bestimmen, ob eine Stimme, die in eine Eingabeeinheit eingegeben wird, nachdem in die Eingabeeinheit eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll, durch eine Bestimmungseinheit.
  • Die vorliegende Erfindung ist z. B. ein Datenverarbeitungssystem, das Folgendes aufweist:
    • eine erste Vorrichtung; und eine zweite Vorrichtung, wobei
    • die erste Vorrichtung Folgendes aufweist:
      • eine Eingabeeinheit, in die eine Stimme eingegeben wird,
      • eine Bestimmungseinheit, die bestimmt, ob eine Stimme, die eingegeben wird, nachdem eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll, und
      • eine Kommunikationseinheit, die die Stimme, die eingegeben wird, nachdem die Stimme eingegeben worden ist, die das vorgegebene Wort aufweist, an die zweite Vorrichtung sendet, falls die Bestimmungseinheit bestimmt, dass die Stimme die Vorrichtung bedienen soll, und
      • die zweite Vorrichtung Folgendes aufweist:
        • eine Spracherkennungseinheit, die an der Stimme, die von der ersten Vorrichtung gesendet wird, eine Spracherkennung ausführt.
  • WIRKUNGEN DER ERFINDUNG
  • Gemäß wenigstens einer Ausführungsform der vorliegenden Offenbarung ist es möglich zu verhindern, dass die Spracherkennung auf der Grundlage einer Sprache ausgeführt wird, die einen Agenten nicht bedienen soll, und dass der Agent gestört wird. Es wird angemerkt, dass die hier beschriebenen Wirkungen nicht notwendig beschränkt sind und irgendwelche in der vorliegenden Offenbarung beschriebenen Wirkungen sein können. Außerdem soll der Inhalt der vorliegenden Offenbarung nicht so verstanden werden, dass er durch die beispielhaft beschriebenen Wirkungen beschränkt ist.
  • Figurenliste
    • 1 ist ein Blockschaltplan, der ein Konfigurationsbeispiel eines Agenten gemäß einer Ausführungsform darstellt.
    • 2 ist eine schematische Darstellung zur Beschreibung eines Verarbeitungsbeispiels, das durch eine Vorrichtungsbedienungsabsichts-Bestimmungseinheit gemäß der Ausführungsform ausgeführt wird.
    • 3 ist ein Ablaufplan, der einen Ablauf der durch den Agenten gemäß der Ausführungsform ausgeführten Verarbeitung darstellt.
    • 4 ist ein Blockschaltplan, der ein Konfigurationsbeispiel eines Datenverarbeitungssystems gemäß einem geänderten Beispiel darstellt.
  • AUSFÜHRUNGSART DER ERFINDUNG
  • Im Folgenden werden anhand der Zeichnungen eine Ausführungsform und dergleichen der vorliegenden Offenbarung beschrieben. Es wird angemerkt, dass die Beschreibung in der folgenden Reihenfolge erfolgt.
  • <In der Ausführungsform zu beachtende Probleme>
  • <Eine Ausführungsform>
  • <Geändertes Beispiel>
  • Die Ausführungsform und dergleichen, die im Folgenden beschrieben werden sollen, sind bevorzugte spezifische Beispiele der vorliegenden Offenbarung, und der Inhalt der vorliegenden Offenbarung ist nicht auf die Ausführungsform und dergleichen beschränkt.
  • <In der Ausführungsform zu betrachtende Probleme>
  • Um das Verständnis der vorliegenden Offenbarung zu erleichtern, werden zunächst Probleme beschrieben, die in der Ausführungsform berücksichtigt werden sollen. In der vorliegenden Offenbarung wird eine Bedienung eines Agenten (einer Vorrichtung), der die Spracherkennung ausführt, als ein Beispiel beschrieben. Der Agent bedeutet z. B. eine Stimmausgabevorrichtung mit einer tragbaren Größe oder eine Stimminteraktionsfunktion der Stimmausgabevorrichtung mit einem Anwender. Eine derartige Stimmausgabevorrichtung wird auch ein intelligenter Lautsprecher oder dergleichen genannt. Natürlich ist der Agent nicht auf den intelligenten Lautsprecher beschränkt und kann er ein Roboter oder dergleichen sein. Der Anwender spricht mit einer Sprache mit dem Agenten. Durch Ausführen einer Spracherkennung in der durch den Anwender gesprochenen Stimme führt der Agent eine Verarbeitung in Übereinstimmung mit der Stimme aus und gibt eine Stimmantwort aus.
  • Wenn der Agent in einem derartigen Spracherkennungssystem eine Sprache eines Anwenders erkennt, sollte eine Spracherkennungsverarbeitung ausgeführt werden, falls der Anwender absichtlich mit dem Agenten spricht, während erwünscht ist, dass er keine Spracherkennung ausführt, falls der Anwender wie etwa bei einem Selbstgespräch oder einem Gespräch mit einem anderen Anwender in der Nähe nicht absichtlich mit dem Agenten spricht. Es ist für den Agenten schwierig zu bestimmen, ob eine Sprache eines Anwenders für den Agenten bestimmt ist, wobei im Allgemeinen eine Spracherkennungsverarbeitung selbst für eine Sprache ausgeführt wird, die nicht dafür bestimmt ist, den Agenten zu bedienen, und wobei in vielen Fällen ein fehlerhaftes Spracherkennungsergebnis erhalten wird. Darüber hinaus ist es möglich, einen Entscheider zu verwenden, der auf der Grundlage eines Ergebnisses der Spracherkennung zwischen der Anwesenheit und der Abwesenheit einer Bedienungsabsicht für den Agenten unterscheidet oder der bei der Spracherkennung den Gewissheitsgrad verwendet, wobei es aber ein Problem gibt, dass die Verarbeitungsmenge groß wird.
  • Falls ein Anwender eine Sprache erzeugt, die den Agenten bedienen soll, wird die Sprache, die den Agenten bedienen soll, übrigens häufig erzeugt, nachdem eine typische kurze Phase, ein „Aktivierungswort“ genannt, gesprochen worden ist. Das Aktivierungswort ist z. B. ein Spitzname des Agenten oder dergleichen. Als ein spezifisches Beispiel spricht ein Anwender „erhöhe die Lautstärke“, „sage mir das morgige Wetter“ oder dergleichen, nachdem er das Aktivierungswort gesprochen hat. Der Agent führt die Spracherkennung an dem Inhalt der Sprache aus und führt die Verarbeitung in Übereinstimmung mit dem Ergebnis aus.
  • Wie oben beschrieben wurde, werden die Spracherkennungsverarbeitung und die Verarbeitung in Übereinstimmung mit dem Erkennungsergebnis unter der Voraussetzung ausgeführt, dass das Aktivierungswort immer gesprochen wird, falls der Agent bedient wird, wobei alle Sprachen nach dem Aktivierungswort den Agenten bedienen. Allerdings kann der Agent in Übereinstimmung mit einem derartigen Verfahren die Spracherkennung fehlerhaft ausführen, falls nach dem Aktivierungswort ein Selbstgespräch, ein Gespräch mit einem Familienmitglied, ein Geräusch oder dergleichen auftreten, die nicht dafür bestimmt sind, den Agenten zu bedienen. Im Ergebnis besteht eine Möglichkeit, dass durch den Agenten eine unbeabsichtigte Verarbeitung ausgeführt werden kann, falls ein Anwender eine Sprache erzeugt, die nicht dafür bestimmt ist, den Agenten zu bedienen.
  • Darüber hinaus besteht eine höhere Wahrscheinlichkeit, dass eine Sprache ohne eine Bedienungsabsicht für den Agenten wie oben beschrieben auftreten kann, falls ein stärker interaktives System beabsichtigt ist oder falls das einmalige Sprechen des Aktivierungsworts z. B. für eine bestimmte Zeitdauer danach ein ununterbrochenes Sprechen ermöglicht. Die Ausführungsform der vorliegenden Offenbarung wird unter Berücksichtigung derartiger Probleme beschrieben.
  • <Eine Ausführungsform>
  • [Konfigurationsbeispiel des Agenten]
  • 1 ist ein Blockschaltplan, der ein Konfigurationsbeispiel eines Agenten (des Agenten 10), der ein Beispiel einer Datenverarbeitungsvorrichtung gemäß einer Ausführungsform ist, darstellt. Der Agent 10 ist z. B. ein kleiner Agent, der tragbar ist und innerhalb eines Hauses (im Innenraum) angeordnet wird. Natürlich kann die Stelle, wo der Agent 10 angeordnet wird, durch den Anwender des Agenten 10 geeignet bestimmt werden und braucht die Größe des Agenten 10 nicht klein zu sein.
  • Der Agent 10 weist z. B. eine Steuereinheit 101, eine Sensoreinheit 102, eine Ausgabeeinheit 103, eine Kommunikationseinheit 104, eine Eingabeeinheit 105 und eine Merkmalsmengen-Speichereinheit 106 auf.
  • Die Steuereinheit 101 weist z. B. eine Zentraleinheit (CPU) und dergleichen auf und steuert jede Einheit des Agenten 10. Die Steuereinheit 101 weist einen Nur-Lese-Speicher (ROM), in dem ein Programm gespeichert ist, und einen Schreib-Lese-Speicher (RAM), der als ein Arbeitsspeicher verwendet wird, wenn das Programm ausgeführt wird, auf (es wird angemerkt, dass diese nicht dargestellt sind).
  • Die Steuereinheit 101 weist als Funktionen davon eine Aktivierungswort-Unterscheidungseinheit 101a, eine Merkmalsmengen-Extraktionseinheit 101b, eine Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c und eine Spracherkennungseinheit 101d auf.
  • Die Aktivierungswort-Unterscheidungseinheit 101a, die ein Beispiel einer Unterscheidungseinheit ist, detektiert, ob eine in den Agenten 10 eingegebene Stimme ein Aktivierungswort aufweist, das ein Beispiel eines vorgegebenen Worts ist. Das Aktivierungswort gemäß der vorliegenden Ausführungsform ist ein Wort, das einen Spitznamen des Agenten 10 aufweist, ist darauf aber nicht beschränkt. Das Aktivierungswort kann z. B. durch einen Anwender eingestellt werden.
  • Die Merkmalsmengen-Extraktionseinheit 101b extrahiert eine Menge akustischer Merkmale einer in den Agenten 10 eingegebenen Stimme. Die Merkmalsmengen-Extraktionseinheit 101b extrahiert durch Verarbeiten mit einer kleineren Verarbeitungsbelastung als der Spracherkennungsverarbeitung, die die Musterverarbeitung ausführt, die Menge akustischer Merkmale, die die Sprache aufweist. Die Menge akustischer Merkmale wird z. B. auf der Grundlage eines Ergebnisses einer schnellen Fourier-Transformation (FFT) an einem Signal der eingegebenen Stimme extrahiert. Es wird angemerkt, dass die Menge akustischer Merkmale gemäß der vorliegenden Ausführungsform eine Merkmalsmenge bedeutet, die sich auf eine Klangfarbe und/oder auf eine Tonhöhe und/oder auf eine Sprachgeschwindigkeit und/oder auf eine Lautstärke bezieht.
  • Die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c, die ein Beispiel einer Bestimmungseinheit ist, bestimmt z. B., ob eine Stimme, die nach einer Stimme eingegeben wird, die das Aktivierungswort aufweist, den Agenten 10 bedienen soll. Daraufhin gibt die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c ein Bestimmungsergebnis aus.
  • Die Spracherkennungseinheit 101d führt eine Spracherkennung an der eingegebenen Sprache z. B. unter Verwendung eines Mustervergleichs aus. Es wird angemerkt, dass die Spracherkennung durch die oben beschriebene Aktivierungswort-Unterscheidungseinheit 101a nur eine Vergleichsverarbeitung mit einem Muster auszuführen braucht, das einem vorgegebenen Aktivierungswort entspricht, und somit mit einer leichteren Belastung als die durch die Spracherkennungseinheit 101d ausgeführte Spracherkennungsverarbeitung verarbeitet. Die Steuereinheit 101 führt auf der Grundlage eines Spracherkennungsergebnisses durch die Spracherkennungseinheit 101d eine Steuerung aus.
  • Die Sensoreinheit 102 ist z. B. ein Mikrofon (ein Beispiel einer Eingabeeinheit), das eine Sprache (Stimme) eines Anwenders detektiert. Natürlich kann als die Sensoreinheit 102 ein anderer Sensor angewendet werden.
  • Die Ausgabeeinheit 103 gibt ein Ergebnis der durch die Steuereinheit 101 z. B. durch Spracherkennung ausgeführten Steuerung aus. Die Ausgabeeinheit 103 ist z. B. eine Lautsprechervorrichtung. Die Ausgabeeinheit 103 kann anstelle der Lautsprechervorrichtung eine Anzeige, ein Projektor oder eine Kombination davon sein.
  • Die Kommunikationseinheit 104 kommuniziert mit einer anderen Vorrichtung, die über ein Netz wie etwa das Internet verbunden ist, und weist Komponenten wie etwa eine Modulations/Demodulations-Schaltung und eine Antenne, die dem Kommunikationsverfahren entspricht, auf.
  • Die Eingabeeinheit 105 empfängt von einem Anwender eine Bedienungseingabe. Die Eingabeeinheit 105 ist z. B. ein Druckknopf, ein Hebel, ein Schalter, ein Berührungsbildschirm, ein Mikrofon, eine Sichtliniendetektionsvorrichtung oder dergleichen. Die Eingabeeinheit 105 erzeugt in Übereinstimmung mit einer in die Eingabeeinheit 105 vorgenommenen Eingabe ein Bedienungssignal und führt das Bedienungssignal der Steuereinheit 101 zu. Die Steuereinheit 101 führt in Übereinstimmung mit dem Bedienungssignal eine Verarbeitung aus.
  • Die Merkmalsmengen-Speichereinheit 106 speichert die durch die Merkmalsmengen-Extraktionseinheit 101b extrahierte Merkmalsmenge. Die Merkmalsmengen-Speichereinheit 106 kann eine in den Agenten 10 eingebaute Festplatte, ein Halbleiterspeicher oder dergleichen, ein von dem Agenten 10 lösbarer Speicher oder eine Kombination davon sein.
  • Es wird angemerkt, dass der Agent 10 auf der Grundlage von elektrischer Leistung, die von einer kommerziellen Leistungsquelle zugeführt wird, angetrieben werden kann oder auf der Grundlage elektrischer Leistung, die von einer nachladbaren/entladbaren Lithium-Ionen-Sekundärbatterie oder dergleichen zugeführt wird, angetrieben werden kann.
  • (Verarbeitungsbeispiel in der Vorrichtungsbedienungsabsicht-Bestimmungseinheit)
  • Anhand von 2 wird ein Beispiel der Verarbeitung in der Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c beschrieben. Die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c verwendet eine von einer Eingabestimme extrahierte Menge akustischer Merkmale und eine zuvor gespeicherte Menge akustischer Merkmale (Menge akustischer Merkmale, die von der Merkmalsmengen-Speichereinheit 106 gelesen wird), um eine Entscheidungsverarbeitung in Bezug auf die Anwesenheit oder Abwesenheit einer Bedienungsabsicht auszuführen.
  • In der Verarbeitung in einer früheren Phase wird an der extrahierten Menge akustischer Merkmale durch ein neuronales Netz (NN) mit mehreren Schichten eine Umsetzungsverarbeitung ausgeführt und wird daraufhin eine Verarbeitung des Ansammelns von Informationen in einer Zeitreihenrichtung ausgeführt. Für diese Verarbeitung können Statistiken wie etwa ein Mittelwert und eine Varianz berechnet werden oder kann ein Zeitreihen-Verarbeitungsmodul wie etwa ein Langzeit-Kurzzeit-Speicher (LSTM) verwendet werden. Durch diese Verarbeitung werden sowohl aus einem zuvor gespeicherten Aktivierungswort als auch aus der aktuellen Menge akustischer Merkmale Vektorinformationen berechnet und werden die Vektorinformationen parallel in ein neuronales Netz mehrerer Schichten in einer späteren Phase eingegeben. In dem vorliegenden Beispiel werden zwei Vektoren einfach verkettet und als ein Vektor eingegeben. In einer letzten Schicht wird ein zweidimensionaler Wert berechnet, der angibt, ob eine Bedienungsabsicht für den Agenten 10 vorliegt, und wird durch eine „Softmax“-Funktion oder dergleichen ein Entscheidungsergebnis ausgegeben.
  • Die oben beschriebene
  • Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c lernt durch Ausführen von überwachtem Lernen mit einer großen Menge im Voraus gekennzeichneter Daten Parameter. Das Lernen der früheren und letzteren Phasen auf integrierte Weise ermöglicht ein optimaleres Lernen eines Entscheiders. Darüber hinaus ist es ebenfalls möglich, zu einer Zielfunktion eine Beschränkung hinzuzufügen, so dass sich ein Vektor eines Ergebnisses der Verarbeitung je nachdem, ob es eine Bedienungsabsicht für den Agenten gibt, in der früheren Phase stark unterscheidet.
  • [Bedienungsbeispiel des Agenten]
  • (Übersicht über die Bedienung)
  • Nachfolgend wird ein Bedienungsbeispiel des Agenten 10 beschrieben. Zunächst wird eine Übersicht einer Bedienung beschrieben. Wenn ein Aktivierungswort erkannt wird, extrahiert und speichert der Agent 10 eine Menge akustischer Merkmale des Aktivierungsworts (wobei eine Stimme verwendet werden kann, die das Aktivierungswort aufweist). Falls ein Anwender das Aktivierungswort spricht, ist es häufig der Fall, dass die Sprache eine Bedienungsabsicht für den Agenten 10 aufweist. Darüber hinaus neigt der Anwender dazu, verständlich mit einer deutlichen, klaren und verhältnismäßig lauten Stimme zu sprechen, so dass der Agent 10 die Sprache genau erkennen kann, falls der Anwender mit der Bedienungsabsicht für den Agenten 10 spricht.
  • Andererseits wird eine Sprache in einem Selbstgespräch oder in einem Gespräch mit einer anderen Person, die nicht beabsichtigt, den Agenten 10 zu bedienen, häufig natürlicher und mit einer Lautstärke und mit einer Sprachgeschwindigkeit, die von Menschen verstanden werden kann, einschließlich vieler Füllwörter und Gestammel, erzeugt.
  • Das heißt, im Fall der Sprache mit der Bedienungsabsicht für den Agenten 10 gibt es viele Fälle, in denen eine eigentümliche Tendenz als eine Menge akustischer Merkmale, z. B. Mengen akustischer Merkmale, die sich auf das Aktivierungswort beziehen, die Informationen wie etwa eine Klangfarbe, eine Stimmhöhe, eine Sprachgeschwindigkeit und ein Volumen der Sprache mit der Bedienungsabsicht des Anwenders für den Agenten 10 aufweisen, gezeigt wird. Somit ist es durch Speichern dieser Mengen akustischer Merkmale und Verwenden dieser Mengen akustischer Merkmale in der Verarbeitung zur Unterscheidung zwischen der Anwesenheit und Abwesenheit der Bedienungsabsicht für den Agenten 10 möglich, die Unterscheidung mit hoher Genauigkeit auszuführen. Darüber hinaus ist es im Vergleich zur Verarbeitung der Unterscheidung zwischen der Anwesenheit und der Abwesenheit der Bedienungsabsicht für den Agenten 10 unter Verwendung der Spracherkennung, die den Vergleich mit einer großen Anzahl von Mustern ausführt, möglich, die Unterscheidung durch eine einfache Verarbeitung auszuführen. Darüber hinaus ist es möglich, die Verarbeitung der Unterscheidung zwischen der Anwesenheit und der Abwesenheit der Bedienungsabsicht für den Agenten 10 mit hoher Genauigkeit auszuführen.
  • Daraufhin wird an einer Stimme der Sprache eine Spracherkennung (z. B. eine Spracherkennung, die einen Vergleich mit mehreren Mustern ausführt) ausgeführt, falls eine Sprache des Anwenders, die dafür bestimmt ist, den Agenten 10 zu bedienen, unterschieden wird. Die Steuereinheit 101 des Agenten 10 führt eine Verarbeitung in Übereinstimmung mit einem Ergebnis der Spracherkennung aus.
  • (Verarbeitungsablauf)
  • Anhand eines Ablaufplans aus 3 wird ein Beispiel eines Ablaufs der durch den Agenten 10 (genauer durch die Steuereinheit 101 des Agenten 10) ausgeführten Verarbeitung beschrieben. In Schritt ST11 führt die Aktivierungswort-Unterscheidungseinheit 101a eine Spracherkennung (Aktivierungsworterkennung) aus, um zu unterscheiden, ob eine Stimmeingabe in die Sensoreinheit 102 ein Aktivierungswort aufweist. Daraufhin geht die Verarbeitung zu Schritt ST12.
  • In Schritt ST12 wird bestimmt, ob ein Ergebnis der Spracherkennung in Schritt ST11 das Aktivierungswort ist. Falls das Ergebnis der Spracherkennung in Schritt ST11 das Aktivierungswort ist, geht hier die Verarbeitung zu Schritt ST13.
  • In Schritt ST13 beginnt eine
  • Sprachannahmezeitdauer. Die Sprachannahmezeitdauer ist z. B. eine Zeitdauer, die von einem Zeitpunkt, zu dem das Aktivierungswort unterschieden wird, für eine vorgegebene Zeitdauer (z. B. 10 Sekunden) eingestellt ist. Daraufhin wird bestimmt, ob eine während dieser Zeitdauer eingegebene Stimme eine Sprache mit einer Bedienungsabsicht für den Agenten 10 ist. Es wird angemerkt, dass die Sprachannahmezeitdauer verlängert werden kann, falls das Aktivierungswort erkannt wird, nachdem die Sprachannahmezeitdauer einmal eingestellt worden ist. Daraufhin geht die Verarbeitung zu Schritt ST14.
  • In Schritt ST14 extrahiert die Merkmalsmengen-Extraktionseinheit 101b eine Menge akustischer Merkmale. Die Merkmalsmengen-Extraktionseinheit 101b kann nur eine Menge akustischer Merkmale des Aktivierungsworts extrahieren oder kann ebenfalls eine Menge akustischer Merkmale der Stimme, die das Aktivierungswort aufweist, extrahieren, falls sie eine andere Stimme als das Aktivierungswort aufweist. Daraufhin geht die Verarbeitung zu Schritt ST15.
  • In Schritt ST15 wird die durch die Steuereinheit 101 extrahierte Menge akustischer Merkmale in der Merkmalsmenge-Speichereinheit 106 gespeichert. Daraufhin endet die Verarbeitung.
  • Es wird ein Fall betrachtet, in dem in die Sensoreinheit 102 des Agenten 10 eine Sprache, die das Aktivierungswort nicht aufweist (es kann eine Sprache mit der Bedienungsabsicht für den Agenten 10 oder eine Sprache ohne die Bedienungsabsicht für den Agenten 10 geben), ein Geräusch oder dergleichen eingegeben wird, nachdem ein Anwender das Aktivierungswort spricht. Selbst in diesem Fall wird die Verarbeitung des Schritts ST11 ausgeführt.
  • Da das Aktivierungswort in der Verarbeitung des Schritts ST11 nicht erkannt wird, wird in der Verarbeitung des Schritts ST12 bestimmt, dass das Ergebnis der Spracherkennung in Schritt ST11 nicht das Aktivierungswort ist, und geht die Verarbeitung zu Schritt ST16.
  • In Schritt ST16 wird bestimmt, ob der Agent 10 in der Sprachannahmezeitdauer ist. Falls der Agent 10 nicht in der Sprachannahmezeitdauer ist, wird hier die Verarbeitung der Bestimmung der Bedienungsabsicht für den Agenten nicht ausgeführt und endet die Verarbeitung somit. In der Verarbeitung in Schritt ST16 geht die Verarbeitung zu Schritt ST17, falls der Agent 10 in der Sprachannahmezeitdauer ist.
  • In Schritt ST17 wird eine Menge akustischer Merkmale einer während der Sprachannahmezeitdauer eingegebenen Stimme extrahiert. Daraufhin geht die Verarbeitung zu Schritt ST18.
  • In Schritt ST18 bestimmt die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c die Anwesenheit oder Abwesenheit der Bedienungsabsicht für den Agenten 10. Zum Beispiel vergleicht die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c die in Schritt ST17 extrahierte Menge akustischer Merkmale mit einer Menge akustischer Merkmale, die von der Merkmalsmengen-Speichereinheit 106 gelesen wird, und bestimmt sie, dass der Anwender die Bedienungsabsicht für den Agenten 10 hat, falls der Grad der Übereinstimmung gleich oder höher als ein vorgegebener Wert ist. Natürlich kann ein Algorithmus, durch den die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c zwischen der Anwesenheit und der Abwesenheit der Bedienungsabsicht für den Agenten 10 unterscheidet, geeignet geändert werden. Daraufhin geht die Verarbeitung zu Schritt ST19.
  • In Schritt ST19 gibt die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c ein Bestimmungsergebnis aus. Zum Beispiel gibt die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c einen Logikwert „1“ aus, falls die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c bestimmt, dass der Anwender die Bedienungsabsicht für den Agenten 10 hat, und gibt die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c einen Logikwert „0“ aus, falls die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c bestimmt, dass der Anwender keine Bedienungsabsicht für den Agenten 10 hat. Daraufhin endet die Verarbeitung.
  • Es wird angemerkt, dass die Spracherkennungseinheit 101d an einer eingegebenen Stimme eine Spracherkennungsverarbeitung ausführt, obgleich die Verarbeitung in 3 nicht dargestellt ist, falls bestimmt wird, dass der Anwender die Bedienungsabsicht für den Agenten 10 hat. Daraufhin wird die Verarbeitung in Übereinstimmung mit einem Ergebnis der Spracherkennungsverarbeitung gemäß der Steuerung der Steuereinheit 101 ausgeführt. Die Verarbeitung in Übereinstimmung mit dem Ergebnis der Spracherkennungsverarbeitung kann in Übereinstimmung mit einer Funktion des Agenten 10 geeignet geändert werden. Zum Beispiel steuert die Steuereinheit 101 die Kommunikationseinheit 104 zum Erfassen von Informationen hinsichtlich des Wetters von einer externen Vorrichtung, falls das Ergebnis der Spracherkennungsverarbeitung z. B. „Abfrage über das Wetter“ ist. Daraufhin synthetisiert die Steuereinheit 101 auf der Grundlage der erfassten Wetterinformationen ein Stimmsignal und gibt sie von der Ausgabeeinheit 103 eine dem Stimmsignal entsprechende Stimme aus. Im Ergebnis wird der Anwender durch eine Stimme über die Informationen hinsichtlich des Wetters informiert. Natürlich können die Informationen hinsichtlich des Wetters durch ein Bild, durch eine Kombination eines Bilds und einer Stimme oder dergleichen mitgeteilt werden.
  • Gemäß der oben beschriebenen Ausführungsform ist es möglich, die Anwesenheit oder Abwesenheit der Bedienungsabsicht für den Agenten zu bestimmen, ohne auf ein Ergebnis einer Spracherkennungsverarbeitung, die den Vergleich mit mehreren Mustern umfasst, zu warten. Darüber hinaus ist es möglich zu verhindern, dass der Agent wegen einer Sprache ohne die Bedienungsabsicht für den Agenten gestört wird. Außerdem ist es durch parallele Ausführung einer Erkennung an dem Aktivierungswort möglich, zwischen der Anwesenheit und der Abwesenheit der Bedienungsabsicht für den Agenten mit hoher Genauigkeit zu unterscheiden.
  • Darüber hinaus wird die Spracherkennung, die den Vergleich mit mehreren Mustern umfasst, nicht direkt verwendet, wenn die Anwesenheit oder Abwesenheit der Bedienungsabsicht für den Agenten bestimmt wird, so dass eine Bestimmung durch einfache Verarbeitung möglich ist. Außerdem ist eine der Bestimmung der Bedienungsabsicht zugeordnete Verarbeitungsbelastung verhältnismäßig klein, selbst wenn die Funktion des Agenten in eine andere Vorrichtung (z. B. in eine Fernsehvorrichtung, in weiße Ware, in eine Internetder-Dinge- (IoT-) Vorrichtung oder dergleichen) integriert ist, so dass es leicht ist, die Funktion des Agenten in diese Vorrichtungen einzuführen. Darüber hinaus ist es möglich, die Annahme einer Stimme fortzusetzen, nachdem das Aktivierungswort gesprochen wird, ohne dass der Agent gestört wird, so dass es möglich ist, eine Agentenbedienung durch mehr interaktiven Dialog zu erzielen.
  • <Geändertes Beispiel>
  • Obgleich die Ausführungsform der vorliegenden Offenbarung oben spezifisch beschrieben worden ist, ist der Inhalt der vorliegenden Offenbarung nicht auf die oben beschriebene Ausführungsform beschränkt und sind auf der Grundlage der technischen Idee der vorliegenden Offenbarung verschiedene Änderungen möglich. Im Folgenden werden geänderte Beispiele beschrieben.
  • [Konfigurationsbeispiel des Datenverarbeitungssystems gemäß einem geänderten Beispiel]
  • Ein Teil der in der oben beschriebenen Ausführungsform beschriebenen Verarbeitung kann auf der Seite einer Datenwolke ausgeführt werden. 4 stellt ein Konfigurationsbeispiel eines Datenverarbeitungssystems gemäß einem geänderten Beispiel dar. Es wird angemerkt, dass Komponenten, die dieselben oder ähnliche wie die Komponenten in der oben beschriebenen Ausführungsform sind, in 4 dieselben Bezugszeichen tragen.
  • Das Datenverarbeitungssystem gemäß dem geänderten Beispiel weist z. B. einen Agenten 10a und einen Server 20, der ein Beispiel einer Datenwolke ist, auf. Der Agent 10a unterscheidet sich von dem Agenten 10 dadurch, dass die Steuereinheit 101 die Spracherkennungseinheit 101d nicht aufweist.
  • Der Server 20 weist z. B. eine Serversteuereinheit 201 und eine Serverkommunikationseinheit 202 auf. Die Serversteuereinheit 201 ist zum Steuern jeder Einheit des Servers 20 konfiguriert und weist als eine Funktion z. B. eine Spracherkennungseinheit 201a auf. Die Spracherkennungseinheit 201a arbeitet z. B. ähnlich der Spracherkennungseinheit 101d gemäß der Ausführungsform.
  • Die Serverkommunikationseinheit 202 ist zum Kommunizieren mit einer anderen Vorrichtung, z. B. mit dem Agenten 10a, konfiguriert und weist eine Modulations/Demodulations-Schaltung, eine Antenne und dergleichen in Übereinstimmung mit dem Kommunikationsverfahren auf. Die Kommunikation wird zwischen der Kommunikationseinheit 104 und der Serverkommunikationseinheit 202 ausgeführt, so dass die Kommunikation zwischen dem Agenten 10a und dem Server 20 ausgeführt wird und so dass verschiedene Typen von Daten gesendet und empfangen werden.
  • Es wird ein Bedienungsbeispiel des Datenverarbeitungssystems beschrieben. Die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c bestimmt während einer Sprachannahmezeitdauer die Anwesenheit oder Abwesenheit einer Bedienungsabsicht für den Agenten 10a in einer Stimmeingabe. Die Steuereinheit 101 steuert die Kommunikationseinheit 104, falls die Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c bestimmt, dass es die Bedienungsabsicht für den Agenten 10a gibt, und sendet an den Server 20 Stimmdaten, die der Stimmeingabe während der Sprachannahmezeitdauer entsprechen.
  • Die von dem Agenten 10a gesendeten Stimmdaten werden durch die Serverkommunikationseinheit 202 des Servers 20 empfangen. Die Serverkommunikationseinheit 202 führt die empfangenen Stimmdaten durch die Serversteuereinheit 201 zu. Daraufhin führt die Spracherkennungseinheit 201a der Serversteuereinheit 201 an den empfangenen Stimmdaten die Spracherkennung aus. Die Serversteuereinheit 201 sendet ein Ergebnis der Spracherkennung über die Serverkommunikationseinheit 202 an den Agenten 10a. Die Serversteuereinheit 201 kann Daten, die dem Ergebnis der Spracherkennung entsprechen, an den Agenten 10a senden.
  • Falls die Spracherkennung durch den Server 20 ausgeführt wird, ist es möglich zu verhindern, dass eine Sprache ohne die Bedienungsabsicht für den Agenten 10a an den Server 20 gesendet wird, so dass es möglich ist, eine Kommunikationsbelastung zu verringern. Da es nicht notwendig ist, die Sprache ohne die Bedienungsabsicht für den Agenten 10a an den Server 20 zu senden, gibt es darüber hinaus für den Anwender einen Vorteil unter dem Gesichtspunkt der Sicherheit. Das heißt, es ist möglich zu verhindern, dass die Sprache ohne die Bedienungsabsicht wegen unberechtigtem Zugriff oder dergleichen durch eine andere Person erfasst wird.
  • Wie oben beschrieben wurde, kann ein Teil der Verarbeitung des Agenten 10 gemäß der Ausführungsform durch den Server ausgeführt werden.
  • [Andere geänderte Beispiele]
  • Wenn eine Menge akustischer Merkmale eines Aktivierungsworts gespeichert wird, kann die neueste Menge akustischer Merkmale verwendet werden, während sie immer überschrieben wird, oder kann die Menge akustischer Merkmale für eine bestimmte Zeitdauer angesammelt werden und können alle angesammelten Mengen akustischer Merkmale verwendet werden. Dadurch, dass immer die neueste Menge akustischer Merkmale verwendet wird, ist es möglich, Änderungen, die täglich auftreten, wie etwa eine Änderung von Anwendern, eine Änderung der Stimme wegen einer Erkältung und eine Änderung der Menge akustischer Merkmale (z. B. der Schallqualität) z. B. infolge dessen, dass eine Maske getragen wird, flexibel zu bewältigen. Andererseits gibt es eine Wirkung der Minimierung eines Fehlers der Aktivierungswort-Unterscheidungseinheit 101a, der selten auftreten kann, falls die angesammelte Menge akustischer Merkmale verwendet wird. Darüber hinaus kann nicht nur das Aktivierungswort, sondern auch Sprache, von der bestimmt wird, dass sie eine Bedienungsabsicht für einen Agenten aufweist, angesammelt werden. In diesem Fall können verschiedene Sprachvarianten aufgenommen werden. In diesem Fall kann eine entsprechende Menge akustischer Merkmale zugeordnet zu einem der Aktivierungswörter gespeichert werden.
  • Darüber hinaus ist es zusätzlich zu einem Verfahren des Lernens von Parametern der Vorrichtungsbedienungsabsicht-Bestimmungseinheit 101c im Voraus als eine Abwandlung des Lernens wie in der Ausführungsform ebenfalls möglich, jedes Mal, wenn ein Anwender den Agenten verwendet, durch Informationen wie etwa andere modale Informationen weiteres Lernen auszuführen. Zum Beispiel wird eine Abbildungsvorrichtung als die Sensoreinheit 102 angewendet, um eine Gesichtserkennung und eine Sichtlinienerkennung zu ermöglichen. Falls der Anwender dem Agenten gegenübersitzt und klar die Bedienungsabsicht für den Agenten hat, kann das Lernen einhergehend mit einer tatsächlichen Sprache des Anwenders zusammen mit einem Gesichtserkennungsergebnis oder mit einem Sichtlinienerkennungsergebnis mit Kennzeichnungsinformationen wie etwa „die Agentenbedienungsabsicht ist vorhanden“ ausgeführt werden. Außerdem kann das Lernen zusammen mit einem Ergebnis der Erkennung des Hebens einer Hand oder einem Ergebnis einer Kontaktdetektion durch einen Berührungssensor ausgeführt werden.
  • Obgleich in der oben beschriebenen Ausführungsform die Sensoreinheit 102 als ein Beispiel der Eingabeeinheit verwendet ist, ist die Eingabeeinheit darauf nicht beschränkt. Die Vorrichtungsbedienungsabsicht-Bestimmungseinheit kann in dem Server vorgesehen sein, wobei in diesem Fall die Kommunikationseinheit und eine vorgegebene Schnittstelle als die Eingabeeinheit fungieren.
  • Die in der oben beschriebenen Ausführungsform beschriebene Konfiguration ist lediglich ein Beispiel und die Konfiguration ist darauf nicht beschränkt. Selbstverständlich können Hinzufügungen und Wegnahmen von der Konfiguration oder dergleichen vorgenommen werden, ohne von dem Erfindungsgedanken der vorliegenden Offenbarung abzuweichen. Die vorliegende Offenbarung kann in irgendeiner Form wie etwa als eine Vorrichtung, als ein Verfahren, als ein Programm und als ein System implementiert werden. Darüber hinaus kann der Agent gemäß der Ausführungsform in einen Roboter, in ein Heimelektrogerät, in ein Fernsehgerät, in eine fahrzeugintegrierte Vorrichtung, in eine IoT-Vorrichtung oder dergleichen integriert werden.
  • Die vorliegende Offenbarung kann die folgenden Konfigurationen annehmen.
    1. (1) Datenverarbeitungsvorrichtung, die Folgendes aufweist:
      • eine Eingabeeinheit, in die eine vorgegebene Stimme eingegeben wird, und
      • eine Bestimmungseinheit, die bestimmt, ob eine Stimme, die nach einer Stimme eingegeben wird, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll.
    2. (2) Datenverarbeitungsvorrichtung nach (1), die ferner Folgendes aufweist:
      • eine Unterscheidungseinheit, die unterscheidet, ob die Stimme das vorgegebene Wort aufweist.
    3. (3) Datenverarbeitungsvorrichtung nach (2), die ferner Folgendes aufweist:
      • eine Merkmalsmengen-Extraktionseinheit, die wenigstens eine Menge akustischer Merkmale des Worts extrahiert, falls die Stimme das vorgegebene Wort aufweist.
    4. (4) Datenverarbeitungsvorrichtung nach (3), die ferner Folgendes aufweist:
      • eine Speichereinheit, die die Menge akustischer Merkmale des durch die Merkmalsmengen-Extraktionseinheit extrahierten Worts speichert.
    5. (5) Datenverarbeitungsvorrichtung nach (4), wobei die Menge akustischer Merkmale des durch die Merkmalsmengen-Extraktionseinheit extrahierten Worts gespeichert wird, während eine zuvor gespeicherte Menge akustischer Merkmale überschrieben wird.
    6. (6) Datenverarbeitungsvorrichtung nach (4), wobei die Menge akustischer Merkmale des durch die Merkmalsmengen-Extraktionseinheit extrahierten Worts zusammen mit einer zuvor gespeicherten Menge akustischer Merkmale gespeichert wird.
    7. (7) Datenverarbeitungsvorrichtung nach einem von (1) bis (6), die ferner Folgendes aufweist:
      • eine Kommunikationseinheit, die die Stimme, die eingegeben wird, nachdem die Stimme eingegeben worden ist, die das vorgegebene Wort aufweist, an eine andere Vorrichtung sendet, falls die Bestimmungseinheit bestimmt, dass die Stimme die Vorrichtung bedienen soll.
    8. (8) Datenverarbeitungsvorrichtung nach einem von (1) bis (7), wobei die Bestimmungseinheit auf der Grundlage einer Menge akustischer Merkmale der Stimmeingabe, nachdem die Stimme eingegeben worden ist, die das vorgegebene Wort aufweist, bestimmt, ob die Stimme die Vorrichtung bedienen soll.
    9. (9) Datenverarbeitungsvorrichtung nach (8), wobei die Bestimmungseinheit auf der Grundlage einer Menge akustischer Merkmale einer Stimme, die während einer vorgegebenen Zeitdauer von einem Zeitpunkt, zu dem das vorgegebene Wort unterschieden wird, eingegeben wird, bestimmt, ob die Stimme die Vorrichtung bedienen soll.
    10. (10) Datenverarbeitungsvorrichtung nach (8) oder (9), wobei die Menge akustischer Merkmale eine Merkmalsmenge ist, die sich auf eine Klangfarbe und/oder auf eine Tonhöhe und/oder auf eine Sprachgeschwindigkeit und/oder auf eine Lautstärke bezieht.
    11. (11) Datenverarbeitungsverfahren, das Folgendes aufweist:
      • Bestimmen, ob eine Stimme, die in eine Eingabeeinheit eingegeben wird, nachdem in die Eingabeeinheit eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, die Vorrichtung bedienen soll, durch eine Bestimmungseinheit.
    12. (12) Programm, das veranlasst, dass ein Computer ein Datenverarbeitungsverfahren ausführt, das Folgendes aufweist:
      • Bestimmen, ob eine Stimme, die in eine Eingabeeinheit eingegeben wird, nachdem in die Eingabeeinheit eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll, durch eine Bestimmungseinheit.
    13. (13) Datenverarbeitungssystem, das Folgendes aufweist:
      • eine erste Vorrichtung; und eine zweite Vorrichtung, wobei
      • die erste Vorrichtung Folgendes aufweist:
        • eine Eingabeeinheit, in die eine Stimme eingegeben wird,
        • eine Bestimmungseinheit, die bestimmt, ob eine Stimme, die eingegeben wird, nachdem eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll, und
        • eine Kommunikationseinheit, die die Stimme, die eingegeben wird, nachdem die Stimme eingegeben worden ist, die das vorgegebene Wort aufweist, an die zweite Vorrichtung sendet, falls die Bestimmungseinheit bestimmt, dass die Stimme die Vorrichtung bedienen soll, und
        • die zweite Vorrichtung Folgendes aufweist:
        • eine Spracherkennungseinheit, die an der Stimme, die von der ersten Vorrichtung gesendet wird, eine Spracherkennung ausführt.
  • Bezugszeichenliste
  • 10
    Agent
    20
    Server
    101
    Steuereinheit
    101a
    Aktivierungswort-Unterscheidungseinheit
    101b
    Merkmalsmengen-Extraktionseinheit
    101c
    Vorrichtungsbedienungsabsicht-Bestimmungseinheit
    101d, 201a
    Spracherkennungseinheit
    104
    Kommunikationseinheit
    106
    Merkmalsmengen-Speichereinheit
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2014137430 [0002]
    • JP 2017191119 [0002]

Claims (13)

  1. Datenverarbeitungsvorrichtung, die Folgendes umfasst: eine Eingabeeinheit, in die eine vorgegebene Stimme eingegeben wird; und eine Bestimmungseinheit, die bestimmt, ob eine Stimme, die nach einer Stimme eingegeben wird, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll.
  2. Datenverarbeitungsvorrichtung nach Anspruch 1, die ferner Folgendes umfasst: eine Unterscheidungseinheit, die unterscheidet, ob die Stimme das vorgegebene Wort aufweist.
  3. Datenverarbeitungsvorrichtung nach Anspruch 2, die ferner Folgendes umfasst: eine Merkmalsmengen-Extraktionseinheit, die wenigstens eine Menge akustischer Merkmale des Worts extrahiert, falls die Stimme das vorgegebene Wort aufweist.
  4. Datenverarbeitungsvorrichtung nach Anspruch 3, die ferner Folgendes umfasst: eine Speichereinheit, die die Menge akustischer Merkmale des durch die Merkmalsmengen-Extraktionseinheit extrahierten Worts speichert.
  5. Datenverarbeitungsvorrichtung nach Anspruch 4, wobei die Menge akustischer Merkmale des durch die Merkmalsmengen-Extraktionseinheit extrahierten Worts gespeichert wird, während eine zuvor gespeicherte Menge akustischer Merkmale überschrieben wird.
  6. Datenverarbeitungsvorrichtung nach Anspruch 4, wobei die Menge akustischer Merkmale des durch die Merkmalsmengen-Extraktionseinheit extrahierten Worts zusammen mit einer zuvor gespeicherten Menge akustischer Merkmale gespeichert wird.
  7. Datenverarbeitungsvorrichtung nach Anspruch 1, die ferner Folgendes umfasst: eine Kommunikationseinheit, die die Stimme, die eingegeben wird, nachdem die Stimme eingegeben worden ist, die das vorgegebene Wort aufweist, an eine andere Vorrichtung sendet, falls die Bestimmungseinheit bestimmt, dass die Stimme die Vorrichtung bedienen soll.
  8. Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Bestimmungseinheit auf einer Grundlage einer Menge akustischer Merkmale der Stimmeingabe, nachdem die Stimme eingegeben worden ist, die das vorgegebene Wort aufweist, bestimmt, ob die Stimme die Vorrichtung bedienen soll.
  9. Datenverarbeitungsvorrichtung nach Anspruch 8, wobei die Bestimmungseinheit auf einer Grundlage einer Menge akustischer Merkmale einer Stimme, die während einer vorgegebenen Zeitdauer von einem Zeitpunkt, zu dem das vorgegebene Wort unterschieden wird, eingegeben wird, bestimmt, ob die Stimme die Vorrichtung bedienen soll.
  10. Datenverarbeitungsvorrichtung nach Anspruch 8, wobei die Menge akustischer Merkmale eine Merkmalsmenge ist, die sich auf eine Klangfarbe und/oder auf eine Tonhöhe und/oder auf eine Sprachgeschwindigkeit und/oder auf eine Lautstärke bezieht.
  11. Datenverarbeitungsverfahren, das Folgendes umfasst: Bestimmen, ob eine Stimme, die in eine Eingabeeinheit eingegeben wird, nachdem in die Eingabeeinheit eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, die Vorrichtung bedienen soll, durch eine Bestimmungseinheit.
  12. Programm, das veranlasst, dass ein Computer ein Datenverarbeitungsverfahren ausführt, das Folgendes umfasst: Bestimmen, ob eine Stimme, die in eine Eingabeeinheit eingegeben wird, nachdem in die Eingabeeinheit eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll, durch eine Bestimmungseinheit.
  13. Datenverarbeitungssystem, das Folgendes umfasst: eine erste Vorrichtung; und eine zweite Vorrichtung, wobei die erste Vorrichtung Folgendes aufweist: eine Eingabeeinheit, in die eine Stimme eingegeben wird, eine Bestimmungseinheit, die bestimmt, ob eine Stimme, die eingegeben wird, nachdem eine Stimme eingegeben worden ist, die ein vorgegebenes Wort aufweist, eine Vorrichtung bedienen soll, und eine Kommunikationseinheit, die die Stimme, die eingegeben wird, nachdem die Stimme eingegeben worden ist, die das vorgegebene Wort aufweist, an die zweite Vorrichtung sendet, falls die Bestimmungseinheit bestimmt, dass die Stimme die Vorrichtung bedienen soll, und die zweite Vorrichtung Folgendes aufweist: eine Spracherkennungseinheit, die an der Stimme, die von der ersten Vorrichtung gesendet wird, eine Spracherkennung ausführt.
DE112018007242.8T 2018-03-08 2018-12-28 Datenverarbeitungsvorrichtung,Datenverarbeitungsverfahren, Programm undDatenverarbeitungssystem Pending DE112018007242T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018-041394 2018-03-08
JP2018041394 2018-03-08
PCT/JP2018/048410 WO2019171732A1 (ja) 2018-03-08 2018-12-28 情報処理装置、情報処理方法、プログラム及び情報処理システム

Publications (1)

Publication Number Publication Date
DE112018007242T5 true DE112018007242T5 (de) 2020-12-10

Family

ID=67846059

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018007242.8T Pending DE112018007242T5 (de) 2018-03-08 2018-12-28 Datenverarbeitungsvorrichtung,Datenverarbeitungsverfahren, Programm undDatenverarbeitungssystem

Country Status (5)

Country Link
US (1) US20200410987A1 (de)
JP (1) JPWO2019171732A1 (de)
CN (1) CN111656437A (de)
DE (1) DE112018007242T5 (de)
WO (1) WO2019171732A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922528B (zh) * 2018-06-29 2020-10-23 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
US11948058B2 (en) * 2018-12-11 2024-04-02 Adobe Inc. Utilizing recurrent neural networks to recognize and extract open intent from text inputs
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN112652304B (zh) * 2020-12-02 2022-02-01 北京百度网讯科技有限公司 智能设备的语音交互方法、装置和电子设备
WO2022239142A1 (ja) * 2021-05-12 2022-11-17 三菱電機株式会社 音声認識装置及び音声認識方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145755A (ja) * 2007-12-17 2009-07-02 Toyota Motor Corp 音声認識装置
KR102516577B1 (ko) * 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US10186263B2 (en) * 2016-08-30 2019-01-22 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Spoken utterance stop event other than pause or cessation in spoken utterances stream

Also Published As

Publication number Publication date
US20200410987A1 (en) 2020-12-31
JPWO2019171732A1 (ja) 2021-02-18
CN111656437A (zh) 2020-09-11
WO2019171732A1 (ja) 2019-09-12

Similar Documents

Publication Publication Date Title
DE112018007242T5 (de) Datenverarbeitungsvorrichtung,Datenverarbeitungsverfahren, Programm undDatenverarbeitungssystem
DE102016125494B4 (de) Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69822179T2 (de) Verfahren zum lernen von mustern für die sprach- oder die sprechererkennung
DE602004004324T2 (de) System und Verfahren zur Sprachkommunikation und Roboter
DE112017004397T5 (de) System und Verfahren zur Einstufung von hybriden Spracherkennungsergebnissen mit neuronalen Netzwerken
DE102018126133A1 (de) Generieren von Dialog auf Basis von Verifikationswerten
DE112016004008T5 (de) Neuronales netz für sprecherverifikation
DE112016005042T5 (de) Verfahren zum verarbeiten von äusserungen
DE69924596T2 (de) Auswahl akustischer Modelle mittels Sprecherverifizierung
DE102018210534A1 (de) Vorrichtung und Verfahren zum Steuern eines Anwendungsprogramms unter Verwendung eines Sprachbefehls unter einer voreingestellten Bedingung
CN104077516A (zh) 一种生物认证方法及终端
DE112020002531T5 (de) Emotionsdetektion unter verwendung der sprechergrundlinie
DE102013007502A1 (de) Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE102019104304B4 (de) Dynamische Anpassung von Sprachverständnissystemen an akustische Umgebungen
DE102017209262A1 (de) Verfahren und Vorrichtung zur automatischen Gestenerkennung
DE102013208506A1 (de) Hierarchische Erkennung von Fahrzeugfahrer und Auswahlaktivierung von Fahrzeugeinstellungen auf der Grundlage der Erkennung
DE112019003414T5 (de) Videoüberwachung mit neuronalen Netzen
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
DE60218344T2 (de) Benutzeridentifikationsverfahren
DE112016007250T5 (de) Verfahren und System zum Optimieren von Spracherkennung und Informationssuche basierend auf Gesprächsgruppenaktivitäten
DE102019201456B3 (de) Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes
DE102021113955A1 (de) Fahrzeug mit intelligenter benutzerschnittstelle
EP3559845A1 (de) Verfahren und system zur verhaltensbasierten authentifizierung eines nutzers