FR2997599A3 - Appareil de traitement d'image et procede de commande de celui-ci et systeme de traitement d'image - Google Patents

Appareil de traitement d'image et procede de commande de celui-ci et systeme de traitement d'image Download PDF

Info

Publication number
FR2997599A3
FR2997599A3 FR1261445A FR1261445A FR2997599A3 FR 2997599 A3 FR2997599 A3 FR 2997599A3 FR 1261445 A FR1261445 A FR 1261445A FR 1261445 A FR1261445 A FR 1261445A FR 2997599 A3 FR2997599 A3 FR 2997599A3
Authority
FR
France
Prior art keywords
speech
voice command
voice
user
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1261445A
Other languages
English (en)
Other versions
FR2997599B3 (fr
Inventor
Joo-Yeong Lee
Seok-Ho Ban
Sang-Shin Park
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of FR2997599A3 publication Critical patent/FR2997599A3/fr
Application granted granted Critical
Publication of FR2997599B3 publication Critical patent/FR2997599B3/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4227Providing Remote input by a user located remotely from the client device, e.g. at work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Details Of Television Systems (AREA)

Abstract

Un appareil de traitement (100) d'image incluant : un processeur d'image qui traite un signal d'image pour afficher une image en se basant sur le signal d'image traité ; une unité d'entrée vocale qui reçoit la parole d'un utilisateur ; un processeur vocal qui réalise une opération correspondante préétablie selon un ordre vocal correspondant à la parole ; et une unité de commande qui règle l'opération correspondante de l'ordre vocal si la parole entrée dans l'unité d'entrée vocale ne concorde pas avec l'opération correspondante par le processeur vocal, et réalise l'opération correspondante qui concorde avec la parole selon le résultat de réglage.

Description

APPAREIL DE TRAITEMENT D'IMAGE ET PROCEDE DE COMMANDE DE CELUI-CI ET SYSTEME DE TRAITEMENT D'IMAGE Des appareils et procédés cohérents avec les exemples de mode de réalisation concernent un appareil de traitement d'image et un procédé de commande de celui-ci et un système de traitement d'image qui traite un signal d'image tel qu'un signal de radiodiffusion fourni depuis l'extérieur pour afficher une image en se basant sur le signal d'image traité, et plus particulièrement, un appareil de traitement d'image et un procédé de commande de celui-ci, et un système de traitement d'image qui reconnaît l'ordre vocal d'un utilisateur pour réaliser une fonction ou une opération correspondant à l'ordre vocal. Un appareil de traitement d'image traite des signaux d'image/données d'image fournis depuis l'extérieur, selon diverses opérations de traitement d'image. L'appareil de traitement d'image peut afficher une image sur son panneau d'affichage en se basant sur le signal d'image traité ou fournir en sortie le signal d'image traité à un autre appareil d'affichage comportant un panneau pour y afficher une image en se basant sur le signal d'image traité. A savoir, tant que l'appareil de traitement d'image peut traiter le signal d'image, il peut inclure ou ne pas inclure un panneau pour afficher une image. Le premier cas peut être implémenté sous forme de TV et le dernier cas peut être implémenté sous forme de boîtier décodeur. On ajoute constamment des fonctions à l'appareil de traitement d'image et on étend ses fonctions en conformité avec le développement de la technologie. Dans une telle tendance, divers configurations et procédés sont prévus pour entrer des ordres d'utilisateur au besoin à l'appareil de traitement d'image. Par exemple, dans un appareil de traitement d'image classique, si un utilisateur appuie sur une touche/un bouton depuis une télécommande, un signal de commande est transmis à l'appareil de traitement d'image pour réaliser une opération telle que souhaitée par un utilisateur. Ces dernières années, toutefois, l'appareil de traitement d'image détecte le mouvement ou la parole d'un utilisateur, analyse le contenu détecté et réalise une opération correspondante, c'est-à-dire que l'appareil de traitement d'image est commandé en reflétant l'intention d'un utilisateur.
En conséquence, un ou plusieurs exemples de modes de réalisation proposent un dispositif électronique, un serveur et un procédé de commande de ceux-ci qui minimisent le temps de reconnaissance d'un ordre d'utilisateur et réalisent une opération.
Les aspects précédents et/ou autres peuvent être atteints en proposant un appareil de traitement d'image incluant : un processeur d'image qui traite un signal d'image pour afficher une image en se basant sur le signal d'image traité ; une unité d'entrée vocale qui reçoit la parole d'un utilisateur ; un processeur vocal qui réalise une opération correspondante préétablie selon un ordre vocal correspondant à la parole ; et une unité de commande qui règle l'opération correspondante de l'ordre vocal si la parole entrée dans l'unité d'entrée vocale ne concorde pas avec l'opération correspondante par le processeur vocal, et réalise l'opération correspondante qui concorde avec la parole selon le résultat de réglage.
L'unité de commande peut fournir une interface utilisateur (UI) permettant de régler un état de désignation de l'opération correspondante à l'ordre vocal, et peut réaliser une seconde opération lors de la réception d'une entrée de la parole si l'opération correspondante désignée pour un ordre vocal d'une parole prédéterminée est réglée d'une première opération à une seconde opération par l'intermédiaire de l'Ul. L'Ul peut guider un utilisateur pour qu'il parle, et l'unité de commande peut sélectionner l'une d'une pluralité d'opérations préétablies en tant que seconde opération correspondant à l'ordre vocal de la parole si la parole est entrée dans l'unité d'entrée vocale par le guidage de l'Ul.
L'Ul peut guider un utilisateur pour qu'il manipule une pluralité de boutons d'entrée installés dans une unité d'entrée d'utilisateur, et l'unité de commande peut sélectionner une opération désignée à l'avance pour le bouton d'entrée manipulé par le guidage, en tant que seconde opération parmi la pluralité d'opérations préétablies.
L'Ul peut inclure une liste d'une pluralité d'opérations préétablies, et l'unité de commande peut sélectionner l'opération sélectionnée parmi la liste, en tant que seconde opération.
L'Ul peut être fournie pour établir une macro-instruction permettant d'établir séquentiellement la pluralité de paroles et la pluralité d'opérations correspondant à la pluralité de paroles par l'intermédiaire d'une seule parole. L'unité de commande peut exécuter la macro-instruction si la parole correspondant à une première opération est entrée parmi la pluralité d'opérations préétablies comprises dans la macro-instruction. L'appareil de traitement d'image peut inclure en outre une unité de communication qui est connectée à un serveur pour communication, dans lequel l'unité de commande commande le processeur vocal ou le serveur pour traiter l'ordre vocal correspondant à la parole si la parole est entrée. L'unité de communication peut communiquer avec un serveur parole-entexte (STT) qui convertit la parole en un ordre vocal d'un texte, et l'unité de commande peut transmettre un signal vocal de la parole au serveur STT si la parole est entrée dans l'unité d'entrée vocale, et peut recevoir l'ordre vocal du serveur STT correspondant à la parole. L'unité de commande peut commander le processeur vocal pour traiter l'ordre vocal si l'ordre vocal est une phrase courte, et peut commander le serveur pour traiter l'ordre vocal si l'ordre vocal est une phrase de conversation. L'appareil de traitement d'image peut inclure en outre une unité d'affichage qui y affiche une image en se basant sur le signal d'image traité par le processeur d'image. Un autre aspect de la présente invention peut être atteint en proposant un procédé de commande d'un appareil de traitement d'image incluant les étapes consistant à : recevoir la parole d'un utilisateur ; réaliser une opération correspondante préétablie sous un ordre vocal correspondant à la parole ; et régler l'opération correspondante de l'ordre vocal si l'opération correspondante ne concorde pas avec la parole et établir pour réaliser l'opération correspondante qui concorde avec la parole selon le résultat de réglage. L'établissement peut inclure la fourniture d'une Ul permettant de régler un état de désignation de l'opération correspondante par rapport à l'ordre vocal ; et, si l'opération correspondante désignée pour un ordre vocal d'une parole prédéterminée est réglée d'une première opération à une seconde opération par l'intermédiaire de l'Ul, l'établissement pour réaliser la seconde opération lors de la réception de la parole.
L'Ul peut guider un utilisateur pour qu'il parle, et l'établissement peut inclure la sélection de l'une de la pluralité d'opérations préétablies en tant que seconde opération correspondant à l'ordre vocal de la parole par l'intermédiaire de l'Ul si la parole est entrée par le guidage de l'Ul.
L'Ul peut guider un utilisateur pour qu'il manipule une pluralité de boutons d'entrée installés dans une unité d'entrée d'utilisateur de l'appareil de traitement d'image, et l'établissement peut inclure la sélection d'une opération désignée à l'avance pour le bouton d'entrée manipulé par le guidage de la pluralité d'opérations préétablies, en tant que seconde opération.
L'Ul peut inclure une liste de la pluralité d'opérations préétablies, et l'établissement peut inclure la sélection de l'opération sélectionnée dans la liste, en tant que seconde opération. L'Ul peut être fournie pour établir une macro-instruction permettant d'exécuter séquentiellement la pluralité de paroles et la pluralité d'opérations correspondant à la pluralité de paroles par l'intermédiaire de la parole. Le procédé de commande peut inclure en outre l'exécution de la macroinstruction si la parole correspondant à une première opération de la pluralité d'opérations préétablies incluses dans la macro-instruction est entrée. L'appareil de traitement d'image peut communiquer avec le serveur, et la réalisation de l'opération correspondante préétablie peut inclure le traitement de l'ordre vocal correspondant à la parole par l'appareil de traitement d'image ou le serveur. L'appareil de traitement d'image peut communiquer avec un serveur STT qui convertit la parole en l'ordre vocal d'un texte, et l'entrée de la parole de l'utilisateur peut inclure la transmission d'un signal vocal de la parole au serveur STT; et la réception de l'ordre vocal correspondant à la parole provenant du serveur STT. La commande peut inclure la commande de l'appareil de traitement d'image pour traiter l'ordre vocal si l'ordre vocal est une phrase courte et la commande du serveur pour traiter l'ordre vocal si l'ordre vocal est une phrase de conversation. Un autre aspect de la présente invention peut être atteint en proposant un système de traitement d'image incluant : un appareil de traitement d'image qui traite un signal d'image pour afficher une image en se basant sur le signal d'image traité ; un serveur qui communique avec l'appareil de traitement d'image, où l'appareil de traitement d'image inclut une unité d'entrée vocale qui reçoit la parole d'un utilisateur ; un processeur vocal qui réalise une opération correspondante préétablie sous un ordre vocal correspondant à la parole ; et une unité de commande qui commande le processeur vocal ou le serveur pour traiter l'ordre vocal correspondant à la parole si la parole est entrée par l'intermédiaire de l'unité d'entrée vocale, où l'unité de commande règle l'opération correspondante de l'ordre vocal si l'opération correspondante du processeur vocal concorde avec la parole entrée dans l'unité d'entrée vocale et réalise l'opération correspondante qui concorde avec la parole selon le résultat de réglage. Les aspects précédents et/ou autres ressortiront et seront plus aisément appréciés de la description suivante des exemples de modes de réalisation, pris conjointement avec les dessins annexés, dans lesquels : la figure 1 est un schéma de principe d'un appareil d'affichage selon un premier mode de réalisation ; la figure 2 est un schéma de principe montrant une structure d'interaction de l'appareil d'affichage et d'un serveur de la figure 1 ; la figure 3 illustre un exemple d'une base de données pour des opérations correspondant à un ordre vocal, tel que stocké dans l'appareil d'affichage ou un serveur de conversation sur la figure 2 ; les figures 4 à 6 illustrent un exemple d'interfaces utilisateur (UI) permettant d'établir un ordre vocal dans l'appareil d'affichage de la figure 2 ; la figure 7 illustre un exemple d'une séquence dans une macro-instruction qui peut être établie dans un appareil d'affichage selon un second mode de réalisation ; et les figures 8 à 12 illustrent un exemple d'Ul permettant d'établir la macroinstruction de la figure 7. On décrira ci-dessous des exemples de modes de réalisation en détail en référence aux dessins annexés de façon à ce qu'une personne ayant une connaissance ordinaire dans l'art s'en rende facilement compte. Les exemples de modes de réalisation peuvent être réalisés sous diverses formes sans être limités aux exemples de modes de réalisation précisés ici. Des descriptions de parties bien connues sont omises pour clarté, et des références numériques identiques se réfèrent à des éléments identiques partout. La figure 1 est un schéma de principe d'un appareil de traitement d'image 100 selon un mode de réalisation.
Ci-dessous, les modes de réalisation expliquent l'appareil de traitement d'image 100 qui peut afficher une image par lui-même, mais le concept de la présente invention peut s'appliquer à d'autres dispositifs qui n'affichent pas d'image par eux-mêmes, et par contre fournissent en sortie des signaux d'image/signaux de commande à un autre appareil d'affichage. Ainsi, le concept de la présente invention n'est pas limité aux modes de réalisation ci-dessous. Le présent mode de réalisation explique l'appareil de traitement d'image 100 qui est implémenté sous forme de TV, dont des modes de réalisation peuvent varier. Comme le montre la figure 1, l'appareil de traitement d'image 100 ou l'appareil d'affichage 100 selon le présent mode de réalisation reçoit un signal d'image d'une source d'alimentation en image (non montrée). Le signal d'image qui peut être reçu par l'appareil d'affichage 100 n'est pas limité en type ou nature, par exemple l'appareil d'affichage 100 peut recevoir un signal de radiodiffusion transmis par un appareil de transmission (non montré) d'une station de radiodiffusion, syntoniser le signal de radiodiffusion et afficher une image de radiodiffusion. L'appareil d'affichage 100 inclut un récepteur d'image 110 qui reçoit un signal d'image d'une source d'alimentation en image (non montrée), un processeur d'image 120 qui traite un signal d'image reçu par le récepteur d'image 110, selon une opération de traitement d'image préétablie, une unité d'affichage 130 qui y affiche une image en se basant sur le signal d'image traité par le processeur d'image 120, une unité de communication 140 qui communique avec un dispositif externe tel qu'un serveur 10, une unité d'entrée d'utilisateur 150 qui est manipulée par un utilisateur, une unité d'entrée vocale 160 qui reçoit une voix ou un son depuis l'extérieur, un processeur vocal 170 qui interprète et traite l'entrée vocale/sonore en direction de l'unité d'entrée vocale 160, une unité de stockage 180 qui y stocke des données/informations, et une unité de commande 190 qui commande des opérations globales de l'appareil d'affichage 100.
Le récepteur d'image 110 reçoit des signaux d'image/données d'image de manière filaire ou sans fil, et transmet les signaux d'image/données d'image au processeur d'image 120. Le récepteur d'image 110 peut varier en fonction d'une norme d'un signal d'image reçu et d'un type de mode de réalisation de l'appareil d'affichage 100. Par exemple, le récepteur d'image 110 peut recevoir un signal de radiofréquence (RF) ou un signal d'image selon des normes telles que vidéo composite, vidéo en composantes, super vidéo, SCART, interface multimédia haute définition (HDMI), DisplayPort, interface d'affichage unifiée (U Dl) ou norme HD sans fil. Si le signal d'image est un signal de radiodiffusion, le récepteur d'image 110 inclut un syntoniseur pour syntoniser le signal de radiodiffusion par canal. Le processeur d'image 120 traite le signal d'image reçu par le récepteur d'image 110, selon diverses opérations de traitement d'image. Le processeur d'image 120 fournit en sortie le signal d'image traité à l'unité d'affichage 130, sur laquelle une image est affichée sur la base du signal d'image traité. Par exemple, si un signal de radiodiffusion est syntonisé à un canal particulier par le récepteur d'image 110, le processeur d'image 120 extrait image, voix et données additionnelles du signal de radiodiffusion correspondant au canal, règle le signal d'image à une résolution préétablie qui affiche une image sur l'unité d'affichage 130. L'opération de traitement d'image du processeur d'image 120 peut inclure, sans s'y limiter, une opération de décodage correspondant à un format d'image de données d'image, une opération de désentrelacement pour convertir des données d'image d'entrelacement en données d'image progressives, une opération de mise à l'échelle pour régler des données d'image en une résolution préétablie, une opération de réduction de bruit pour améliorer une qualité d'image, une opération d'accentuation de détail, une conversion de débit de rafraîchissement de trame, etc. Le processeur d'image 120 est implémenté comme un système sur puce (SOC) qui intègre les fonctions précédentes, ou sous forme de carte de traitement d'image (non montrée) qui est formée en montant des éléments individuels sur une carte de circuit imprimé (PCB) (non montrée) pour réaliser les opérations de traitement d'image précédentes et est installé dans l'appareil d'affichage 100.
L'unité d'affichage 130 y affiche une image en se basant sur un signal d'image sorti par le processeur d'image 120. L'unité d'affichage 130 peut être implémentée sous forme de divers panneaux d'affichage comprenant cristaux liquides, plasma, diode électroluminescente (DEL), diode électroluminescente organique (DELO), émetteur d'électrons à conduction de surface, nanotube de carbone et nanocristaux, sans s'y limiter. L'unité d'affichage 130 peut inclure en outre des éléments additionnels selon son type de mode de réalisation. Par exemple, l'unité d'affichage 130 en tant que LCD peut inclure un panneau LCD (non montré), une unité de rétroéclairage (non montrée) pour émettre de la lumière vers le panneau LCD, et un substrat de pilotage de panneau (non montré) pour piloter le panneau LCD (non montré). L'unité de communication 140 transmet et reçoit des données pour une communication interactive entre l'appareil d'affichage 100 et le serveur 10.
L'unité de communication 140 est connectée au serveur 10 par l'intermédiaire d'un réseau étendu/local filaire/sans fil ou d'une connexion locale par un protocole de communication du serveur 10. L'unité d'entrée d'utilisateur 150 transmet divers ordres de commande préétablis ou informations à l'unité de commande 190 par la manipulation et l'entrée d'un utilisateur. L'unité d'entrée d'utilisateur 150 est implémentée sous forme de touche de menu ou panneau d'entrée installé dans une partie externe de l'appareil d'affichage 100, ou d'une télécommande qui est séparée/espacée de l'appareil d'affichage 100. L'unité d'entrée d'utilisateur 150 peut sinon être solidairement formée dans l'unité d'affichage 130. Si l'unité d'affichage 130 est un écran tactile, un utilisateur peut toucher le menu d'entrée (non montré) affiché sur l'unité d'affichage 130 pour transmettre un ordre préétabli à l'unité de commande 190. L'unité d'entrée vocale 160 est implémentée sous forme de microphone, et détecte divers sons générés depuis l'environnement externe de l'appareil d'affichage 100. Le son qui est détecté par l'unité d'entrée vocale 160 inclut la parole d'un utilisateur et d'autres sons qui sont générés par divers facteurs autres qu'un utilisateur. Le processeur vocal 170 traite des voix/sons fournis en entrée à l'unité d'entrée vocale 160, parmi les divers procédés préétablis réalisés par l'appareil d'affichage 100. La « voix » traitée par le processeur vocal 170 signifie une voix entrée dans l'unité d'entrée vocale 160. Le signal d'image qui est traité par le processeur d'image 120 peut inclure des données vocales, qui sont traitées par le processeur d'image 120.
Si une voix/un son est entré dans l'unité d'entrée vocale 160, le processeur vocal 170 détermine si la voix/le son d'entrée provenait de la parole d'un utilisateur ou était généré par d'autres facteurs. Une telle détermination peut utiliser diverses configurations, et peut ne pas être spécifiée, par exemple, inclut un procédé consistant à déterminer si la voix/le son d'entrée relève d'une bande de longueurs d'onde/fréquences correspondant à une voix humaine, ou un procédé consistant à déterminer si la voix/le son d'entrée relève d'un profil vocal d'un utilisateur qui est désigné à l'avance. S'il est déterminé que la parole d'un utilisateur a été entrée, le processeur vocal 170 réalise une opération correspondante préétablie sous l'ordre vocal correspondant à la parole. L'ordre vocal signifie le contenu prononcé par un utilisateur. Cela sera décrit en détail plus tard. Dans le présent mode de réalisation, le processeur vocal 170 et le processeur d'image 120 sont séparément fournis. Toutefois, il existe une classification fonctionnelle uniquement à des fins de commodités pour expliquer clairement le mode de réalisation, et cela ne signifie pas que le processeur d'image 120 et le processeur vocal 170 sont nécessairement séparés l'un de l'autre dans l'appareil d'affichage 100 qui implémente le concept du présent mode de réalisation. A savoir, l'appareil d'affichage 100 peut inclure un processeur de signal (non montré) qui intègre le processeur d'image 120 et le processeur vocal 170. L'unité de stockage 180 y stocke des données illimitées par une commande de l'unité de commande 190. L'unité de stockage 180 est implémentée sous forme de mémoire non volatile telle qu'une mémoire flash ou un lecteur de disque dur. On accède à l'unité de stockage 180 par l'unité de commande 190, le processeur d'image 120 ou le processeur vocal 170, et les données qui y sont stockées peuvent être lues/écrites/modifiées/annulées/mises à jour par l'unité de commande 190, le processeur d'image 120 ou le processeur vocal 170.
Lors de la réception de la parole d'un utilisateur par l'intermédiaire de l'unité d'entrée vocale 160, l'unité de commande 190 commande le processeur vocal 170 pour traiter la parole d'entrée. L'unité de commande 190 détermine si l'ordre vocal correspondant à la parole est une phrase courte ou une phrase de conversation, et selon les résultats de détermination, commande le processeur vocal 170 ou le serveur 10 pour traiter l'ordre vocal. Plus spécifiquement, si l'ordre vocal est une phrase courte, l'unité de commande 190 commande le processeur vocal 170 pour traiter l'ordre vocal. Si l'ordre vocal est une phrase de conversation, l'unité de commande 190 transmet l'ordre vocal au serveur 10 par l'intermédiaire de l'unité de communication 140 pour traiter l'ordre vocal par le serveur 10. La figure 2 est un schéma de principe montrant une structure d'interaction de l'appareil d'affichage 100 et des serveurs 20 et 30. Comme il y est montré, l'appareil d'affichage 100 inclut une unité de communication 140, une unité d'entrée vocale 160, un processeur vocal 170 et une unité de commande 190. Une telle configuration est la même que celle expliquée sur la figure 1. L'unité de communication 140 est connectée au serveur STT 20 qui convertit la parole d'un utilisateur en un ordre vocal, et à un serveur de conversation 30 qui analyse un ordre vocal pour déterminer une opération correspondante de l'ordre vocal. Lors de la réception d'un signal vocal, le serveur STT 20 analyse une forme d'onde du signal vocal et convertit le contenu du signal vocal en un texte. Lors de la réception d'un signal vocal de la parole d'un utilisateur à partir de l'appareil d'affichage 100, le serveur STT 20 convertit le signal vocal en un ordre vocal. Le serveur de conversation 30 inclut une base de données pour diverses opérations de l'appareil d'affichage 100 correspondant à des ordres vocaux. Le serveur de conversation 30 analyse l'ordre vocal transmis par l'appareil d'affichage 100, et transmet un signal de commande à l'appareil d'affichage 100 pour réaliser une opération correspondant à l'ordre vocal. Si la parole d'un utilisateur est entrée dans l'unité d'entrée vocale 160, l'unité de commande 190 transmet un signal vocal de la parole au serveur STT 20, et reçoit un ordre vocal du serveur STT 20 correspondant à la parole.
L'unité de commande 190 détermine si l'ordre vocal transmis par le serveur STT 20 est une phrase courte ou une phrase de conversation. Si l'ordre vocal est une phrase courte, l'unité de commande 190 commande le processeur vocal 170 pour traiter l'ordre vocal. Si l'ordre vocal est une phrase de conversation, l'unité de commande 190 commande le serveur de conversation 30 pour traiter l'ordre vocal. Si l'ordre vocal est une phrase courte, le processeur vocal 170 recherche la base de données stockée dans l'unité de stockage 180, par une commande de l'unité de commande 190, pour spécifier une fonction ou opération de l'appareil d'affichage 100 correspondant à l'ordre vocal. L'unité de commande 190 commande l'opération spécifiée à réaliser. Si l'ordre vocal est une phrase de conversation, l'unité de commande 190 transmet l'ordre vocal au serveur de conversation 30. Le serveur de conversation 30 analyse l'ordre vocal transmis par l'appareil d'affichage 100 pour spécifier l'opération de l'appareil d'affichage 100. Le serveur de conversation 30 transmet le signal de commande pour instruire l'opération spécifiée, à l'appareil d'affichage 100, qui réalise l'opération selon le signal de commande. Ensuite, l'opération correspondante préétablie de l'appareil d'affichage 100 est réalisée par la parole de l'utilisateur.
Le procédé de sélection du sujet de traitement de l'ordre vocal selon si l'ordre vocal est une phrase courte ou une phrase de conversation, peut être dû à une charge de système et à la capacité de traitement de l'appareil d'affichage 100. Comme la phrase de conversation est un langage naturel, l'extraction mécanique d'une opération correspondante souhaitée au sein de l'ordre vocal en tant que phrase de conversation n'est pas relativement facile. Comme il peut ne pas être facile d'analyser l'ordre vocal en tant que phrase de conversation en utilisant les ressources limitées de l'appareil d'affichage 100, l'ordre vocal en tant que phrase de conversation peut être traité par le serveur de conversation 30 pour traiter de ce fait diverses paroles.
Une telle configuration peut varier en conception, et le procédé d'au moins l'un du serveur STT 20 et du serveur de conversation 30 peut être réalisé par l'appareil d'affichage 100. Par exemple, l'appareil d'affichage 100, non pas les serveurs 20 et 30, peut convertir la parole d'un utilisateur en un ordre vocal ou analyser un ordre vocal en tant que phrase de conversation.
Avec la configuration précédente, l'unité de commande 190 commande le processeur vocal 170 ou le serveur de conversation 30 pour réaliser un procédé de spécification d'une opération correspondant à l'ordre vocal de la parole d'un utilisateur. Ci-après, on décrira la configuration de commande du processeur vocal 170 par l'unité de commande 190 pour spécifier l'opération de l'appareil d'affichage 100 correspondant à l'ordre vocal. La configuration de spécification de l'opération de l'appareil d'affichage 100 par le serveur de conversation 30 correspondant à l'ordre vocal peut employer le mode de réalisation qui sera décrit ci-après.
La figure 3 illustre un exemple d'une base de données 210 stockée dans l'appareil d'affichage 100 ou le serveur de conversation 30 concernant les opérations correspondant à des ordres vocaux. Comme il y est montré, l'unité de stockage 180 y stocke la base de données 210 qui fait concorder des ordres vocaux correspondant à la parole de l'utilisateur, et diverses fonctions ou opérations réalisées par l'appareil d'affichage 100. L'« opération » signifie tout type d'opération et fonction réalisé et supporté par l'appareil d'affichage 100. L'unité de commande 190 recherche la base de données 210 en se basant sur un ordre vocal prédéterminé et peut déterminer quelle opération correspond à l'ordre vocal. La base de données 210 selon le présent mode de réalisation ne représente que l'un des principes et procédés d'établissement de données, et ne limite pas le concept de la présente invention. La base de données 210 telle qu'illustrée sur le dessin exprime qu'un ordre correspond à une opération, mais cela n'est fait qu'a titre de commodité. En réalité, la base de données 210 peut exprimer qu'une pluralité d'ordres peut correspondre à une opération. La référence numérique de la base de données 210 n'est nommée qu'a titre de commodité. Par exemple, si un ordre vocal correspondant à la parole d'un utilisateur est « allumer », l'unité de commande 190 peut rechercher la base de données 210 en se basant sur l'ordre vocal « allumer » et déterminer que l'opération correspondant à l'ordre vocal « allumer » est « allumer système ». Ensuite, l'unité de commande 190 peut réaliser sélectivement l'opération en considérant l'état actuel de l'appareil d'affichage 100. Si l'appareil d'affichage 100 est déjà allumé, l'unité de commande 90 ne peut pas réaliser l'opération « allumer système ». Si l'appareil d'affichage 100 est actuellement éteint, l'unité de commande 190 commande l'appareil d'affichage 100 pour allumer le système.
Comme autre exemple, si un utilisateur dit « c'est bruyant » alors qu'une image est affichée par l'appareil d'affichage 100, l'unité de commande 190 peut spécifier que l'opération correspondant à l'ordre vocal « c'est bruyant » est « muet » à partir de la base de données 210. L'unité de commande 190 règle le volume de l'image affichée à zéro pour réaliser l'opération « muet ».
Comme autre exemple, si un utilisateur dit « je ne peux rien entendre » pendant qu'une image est affichée par l'appareil d'affichage 100, l'unité de commande 190 peut déterminer que l'opération correspondant à l'ordre « je ne peux rien entendre » est « monter le volume au niveau 5 » à partir de la base de données 210. Ensuite, l'unité de commande 190 monte le volume de l'image affichée au niveau 5. Par le procédé précédent, l'unité de commande 190 peut réaliser des opérations correspondant à la parole de l'utilisateur. Néanmoins, la configuration précédente pour reconnaître l'ordre vocal de l'utilisateur peut ne pas toujours produire des résultats précis dans l'interprétation de toutes les paroles de l'utilisateur par une logique de reconnaissance vocale du serveur STT 20 ou du processeur vocal 170 car les utilisateurs ont des habitudes et des structures de prononciation différentes. Par exemple, si l'utilisateur dit « allumer », le serveur STT 20 convertit un signal vocal de la parole en un autre ordre vocal plutôt que l'ordre vocal « allumer ». Si la base de données 210 ne comporte pas l'ordre vocal converti, l'unité de commande 190 peut ne réaliser aucune opération correspondant à l'ordre vocal. Sinon, l'ordre vocal converti peut être présent dans la base de données 210 mais peut être différent de l'ordre vocal de l'utilisateur. Par exemple, si un utilisateur a dit « allumer » et que l'ordre vocal converti est « éteindre », l'unité de commande 190 peut déterminer que l'opération correspondant à l'ordre vocal est « éteindre système ». Cela conduit à éteindre le système de l'appareil d'affichage 100 contrairement à ce qui a été voulu par l'utilisateur, conformément à la parole de l'utilisateur « allumer ».
A la lumière de ce qui précède, le procédé suivant est suggéré dans le présent mode de réalisation. Si l'entrée de parole de l'utilisateur dans l'unité d'entrée vocale 160 ne concorde pas avec une opération correspondante, l'unité de commande 190 permet à un utilisateur de régler l'opération correspondante par rapport à l'ordre vocal de l'utilisateur. Si la même parole est entrée plus tard, l'unité de commande 190 réalise l'opération correspondante qui concorde avec la parole selon les résultats de réglage. Plus spécifiquement, lors de l'occurrence d'un événement préétabli, l'unité de commande 190 fournit une interface utilisateur (UI) pour régler un état d'établissement d'interconnexion entre l'ordre vocal et une opération correspondante dans la base de données 210. L'événement préétabli peut inclure la manipulation d'un utilisateur de l'unité d'entrée d'utilisateur 150 ou une génération d'un ordre demandant une Ul par suite de la parole de l'utilisateur.
A un état initial où une première opération est désignée pour un premier ordre prédéterminé, si l'opération correspondant au premier ordre est réglée à une seconde opération différente de la première opération, par l'intermédiaire de l'Ul, l'unité de commande 190 met à jour la base de données 210 selon le réglage. Si l'ordre vocal correspondant à la parole de l'utilisateur est le premier ordre, l'unité de commande 190 réalise la seconde opération, plutôt que la première opération, en se basant sur la base de données 210 mise à jour. A un état initial où la première opération est désignée pour le premier ordre, si un second ordre en tant que nouvel ordre vocal est désigné pour la première opération, l'unité de commande 190 met à jour la base de données 210 selon le réglage. Si l'ordre vocal correspondant à la parole de l'utilisateur est le premier ordre ou le second ordre, l'unité de commande 190 réalise la première opération en se basant sur la base de données mise à jour. Ensuite, l'opération de reconnaissance vocale peut être réglée pour être cohérente avec l'intention de l'utilisateur.
Ci-après, on décrira un procédé de changement de l'établissement d'un ordre vocal par l'intermédiaire d'une Ul. Les figures 4 à 6 illustrent un exemple d'Ul 220, 230 et 240 pour établir un ordre vocal.
Comme le montre la figure 4, un utilisateur demande à l'unité de commande 190 par l'intermédiaire de l'unité d'entrée d'utilisateur 150 d'afficher l'Ul 220 pour changer un établissement de l'ordre vocal correspondant à la parole. L'unité de commande 190 affiche l'Ul 220.
L'Ul 220 inclut des informations guidant un utilisateur pour qu'il parle, pour spécifier de ce fait un ordre de parole ou vocal dans lequel un établissement d'utilisateur est reflété. Un utilisateur dit l'ordre vocal pendant que l'Ul 220 est affichée. Si la parole d'un utilisateur est entrée par l'intermédiaire de l'unité d'entrée vocale 160 pendant que l'Ul 220 est affichée, l'unité de commande 190 commande le processeur vocal 170 ou le serveur STT 20 pour convertir la parole de l'utilisateur en un ordre vocal. Comme le montre la figure 5, l'unité de commande 190 affiche l'Ul 230 qui guide un utilisateur pour désigner une opération souhaitée en vue de spécifier l'opération correspondant à l'ordre vocal d'entrée, parmi diverses opérations de l'appareil d'affichage 100 qui sont stockées dans la base de données 210 (se référer à la figure 3). L'Ul 230 est fournie pour qu'un utilisateur sélectionne l'opération correspondant à l'ordre vocal de la parole de l'utilisateur tandis que l'Ul 220 précédente (se référer à la figure 4) est affichée. Par exemple, le cas où un utilisateur dit « allumer » pendant que l'Ul 220 (se référer à la figure 4) est affichée sera considéré. Un utilisateur appuie sur un bouton d'alimentation 151 de l'unité d'entrée d'utilisateur 150 réalisée sous forme de télécommande, en conformité avec le guidage de l'Ul 230. L'unité de commande 190 fait concorder l'ordre vocal dans lequel la parole de l'utilisateur est convertie, et le bouton d'alimentation 151 manipulé par un utilisateur, et met à jour la base de données 210 (se référer à la figure 3). Comme le bouton d'alimentation 151 est de type à bascule, si un utilisateur appuie sur le bouton d'alimentation 151, deux types de résultats, c'est- à-dire allumer et éteindre sont réalisés. Dans ce cas, l'Ul 230 peut fournir en outre une option permettant de sélectionner allumer ou éteindre. Comme autre exemple, le cas où un utilisateur donne un ordre vocal « réduire volume » pendant que l'Ul 220 (se référer à la figure 4) est affichée sera considéré. Un utilisateur appuie sur un bouton volume bas 152 de l'unité d'entrée d'utilisateur 150 en conformité avec le guidage de l'Ul 230. Ensuite, l'unité de commande 190 fait un réglage pour réaliser l'opération du bouton volume bas 152 correspondant à l'ordre vocal « réduire volume ». A savoir, même si la parole d'un utilisateur est convertie en un ordre vocal qui est différent du contenu effectif, un utilisateur peut désigner ou régler l'opération correspondant à l'ordre vocal, et par suite, l'opération qui concorde avec l'intention d'un utilisateur peut être réalisée. Comme le montre la figure 6, dans un autre mode de réalisation, si la parole d'un utilisateur est entrée pendant que l'Ul 220 (se référer à la figure 4) est affichée, l'unité de commande 190 peut afficher une Ul 240 incluant une liste d'une pluralité d'opérations préétablies pour sélectionner une opération correspondant à l'ordre vocal par rapport à la parole. Le procédé d'affichage de la liste dans l'Ul 240 peut varier incluant l'affichage d'une pluralité d'opérations dans un ordre préétabli par l'intermédiaire d'un type de défilement, ou une fenêtre intruse, ou l'affichage dans des arborescences concernant les sous-articles si un utilisateur sélectionne l'un d'une pluralité d'articles représentatifs. Par le procédé précédent, tandis qu'un ordre vocal spécifique est établi pour la première opération dans la base de données 210, l'unité de commande 190 peut régler l'état de désignation pour l'ordre vocal de la première opération à la seconde opération ou ajouter un nouvel ordre vocal pour correspondre à la première opération. Néanmoins, les première et seconde opérations peuvent être des opérations permettant de régler le niveau en chiffre pour la même fonction mais le numéro de niveau peut être différent. Par exemple, on considèrera le cas où un ordre vocal « réduire volume » de la parole d'un utilisateur et une opération correspondante sont une opération permettant de réduire le volume actuel à un niveau 7. Si le niveau 7 est réglé à un niveau 5 par l'intermédiaire d'une Ul comme expliqué ci-dessus, l'unité de commande 190 met à jour la base de données 210 avec le contenu réglé. Si la parole d'un utilisateur « réduire volume » est entrée plus tard, l'unité de commande 190 réduit le volume au niveau 5. Comme ci-dessus, la mise à jour de la base de données 210 par l'intermédiaire de l'Ul peut refléter diverses intentions de l'utilisateur.
L'unité de commande 190 peut établir une macro-instruction dans laquelle une pluralité d'opérations correspondant à une pluralité de paroles de l'utilisateur est séquentiellement réalisée par une seule parole. La figure 7 illustre un exemple d'une séquence d'une macro-instruction selon le présent mode de réalisation. Comme il y est montré, l'unité de commande 190 peut fournir un établissement pour que la macro-instruction exécute une pluralité d'opérations séquentiellement, et cela peut être établi par un utilisateur par l'intermédiaire d'une Ul.
Le procédé de mise en oeuvre de l'Ul peut varier, par exemple l'Ul peut être fournie pour sélectionner séquentiellement des opérations dans la liste de diverses présentes opérations. Un cas où un utilisateur établit une macro-instruction pour exécuter automatiquement une réservation de mise en veille et un établissement d'alarme sera considéré. Dans ce cas, la séquence d'opérations inclut la sélection d'une fonction de réservation de mise en veille 310, une heure pour éteindre l'alimentation du système de l'appareil d'affichage 100, 320, la sélection d'une fonction d'établissement d'alarme 330, une heure d'alarme 340, et un établissement d'achèvement de séquence 350.
Lors de la réception d'une demande d'établissement de la macro- instruction par la manipulation d'un utilisateur par l'intermédiaire de l'unité d'entrée d'utilisateur 150 ou de la parole d'un utilisateur par l'intermédiaire de l'unité d'entrée vocale 160, l'unité de commande 190 affiche une Ul pour établir la macro-instruction.
Les figures 8 à 12 illustrent un exemple d'Ul 410, 420, 430, 440 et 450 pour établir une macro-instruction. Comme le montre la figure 8, l'unité de commande 190 affiche l'Ul 410 pour sélectionner une première opération de la macro-instruction. L'Ul 410 est fournie pour sélectionner l'une d'une pluralité d'opérations, et un utilisateur peut manipuler l'unité d'entrée d'utilisateur 150 ou dire un ordre vocal correspondant à l'opération permettant de sélectionner la première opération de la macroinstruction. Dans le présent mode de réalisation, un utilisateur sélectionne l'opération de « réservation mise en veille » par l'intermédiaire de l'Ul 410.
Comme le montre la figure 9, si un utilisateur sélectionne « réservation de mise en veille », l'unité de commande 190 affiche l'Ul 420 pour désigner l'heure après laquelle l'appareil d'affichage 100 s'éteindra. L'Ul 420 est fournie pour sélectionner une pluralité d'exemples d'heures préétablies. Sinon, l'Ul 420 peut être fournie pour qu'un utilisateur entre l'heure par l'intermédiaire de sa parole, ou entre l'heure par l'intermédiaire de l'unité d'entrée d'utilisateur 150. Comme le montre la figure 10, l'unité de commande 190 affiche l'Ul 430 pour qu'un utilisateur sélectionne s'il faut achever l'établissement de la macro- instruction incluant une séquence d'opérations comme expliqué ci-dessus ou continue d'établir la macro-instruction en ajoutant des opérations. Un utilisateur peut sélectionner « achever » pour achever l'établissement de la macro-instruction ou sélectionner « continuer ». Comme le montre la figure 11, si un utilisateur sélectionne « continuer » à partir de l'Ul 430 (se référer à la figure 10), l'unité de commande 190 affiche l'Ul 440 à un utilisateur pour sélectionner une opération suivante de la macroinstruction. Le type de l'Ul 440 est sensiblement similaire au cas de la figure 8. Un utilisateur sélectionne l'opération « établissement d'alarme » par l'intermédiaire de l'Ul 440.
Comme le montre la figure 12, l'unité de commande 190 affiche l'Ul 450 pour qu'un utilisateur désigne l'heure d'alarme selon la sélection de la sélection précédente de l'opération « établissement d'alarme ». Un utilisateur peut entrer des nombres par l'intermédiaire de l'unité d'entrée d'utilisateur 150 ou dire des nombres pendant que l'Ul 450 est affichée, pour établir de ce fait l'heure d'alarme. Si les opérations d'établissement sont achevées, l'unité de commande 190 affiche l'Ul 430 comme le montre la figure 10. Si un utilisateur sélectionne « achever », l'unité de commande 190 stocke dans la base de données de l'unité de stockage 180 la macro-instruction pour établir les opérations dans la séquence comme sur la figure 7. Si un utilisateur donne un ordre vocal correspondant à la première opération de la macro-instruction, c'est-à-dire donne l'ordre vocal tombant sous « réservation de mise en veille », l'unité de commande 190 réalise séquentiellement la pluralité d'opérations telles qu'établies dans la macro- instruction. Sinon, au cours de l'établissement de la macro-instruction, un nouvel ordre vocal peut être établi pour exécuter la macro-instruction. Comme ci-dessus, la pluralité d'opérations peut être réalisée séquentiellement par un simple ordre vocal de l'utilisateur.
Bien que quelques exemples de modes de réalisation aient été montrés et décrits, l'homme du métier appréciera que des changements puissent être apportés dans ces exemples de modes de réalisation sans s'écarter des principes et de l'esprit de l'invention, dont la portée est définie par les revendications annexées et leurs équivalents.

Claims (11)

  1. REVENDICATIONS1. Appareil de traitement d'image (100) comprenant : un processeur d'image (120) qui traite un signal d'image pour afficher une image en se basant sur le signal d'image traité ; une unité d'entrée vocale (160) qui reçoit la parole d'un utilisateur ; un processeur vocal (170) qui réalise une opération correspondante préétablie selon un ordre vocal correspondant à la parole ; et une unité de commande (190) qui règle l'opération correspondante de l'ordre vocal si la parole entrée dans l'unité d'entrée vocale (160) ne concorde pas avec l'opération correspondante par le processeur vocal (170), et réalise l'opération correspondante qui concorde avec la parole selon le résultat de réglage.
  2. 2. Appareil de traitement d'image (100) selon la revendication 1, dans lequel l'unité de commande (190) fournit une interface utilisateur (UI) permettant de régler un état de désignation de l'opération correspondante à l'ordre vocal, et réalise une seconde opération lors de la réception d'une entrée de la parole si l'opération correspondante désignée pour un ordre vocal d'une parole prédéterminée est réglée d'une première opération à une seconde opération par l'intermédiaire de l'Ul.
  3. 3. Appareil de traitement d'image (100) selon la revendication 2, dans lequel l'Ul guide un utilisateur pour qu'il parle, et l'unité de commande (190) sélectionne l'une d'une pluralité d'opérations préétablies en tant que seconde opération correspondant à l'ordre vocal de la parole si la parole est entrée dans l'unité d'entrée vocale (160) par le guidage de l'Ul.
  4. 4. Appareil de traitement d'image (100) selon la revendication 3, dans lequel l'Ul guide un utilisateur pour qu'il manipule une pluralité de boutons d'entrée installés dans une unité d'entrée d'utilisateur (150), et l'unité de commande (190) sélectionne une opération désignée à l'avance pour le bouton d'entrée manipulé par le guidage, en tant que seconde opération parmi la pluralité d'opérations préétablies.
  5. 5. Appareil de traitement d'image (100) selon la revendication 3, dans lequel l'Ul comprend une liste d'une pluralité d'opérations préétablies, et l'unitéde commande (190) sélectionne l'opération sélectionnée parmi la liste, en tant que seconde opération.
  6. 6. Appareil de traitement d'image (100) selon la revendication 1, dans lequel l'Ul est fournie pour établir une macro-instruction permettant d'établir séquentiellement la pluralité de paroles et la pluralité d'opérations correspondant à la pluralité de paroles par l'intermédiaire d'une seule parole.
  7. 7. Appareil de traitement d'image (100) selon la revendication 6, dans lequel l'unité de commande (190) exécute la macro-instruction si la parole correspondant à une première opération est entrée parmi la pluralité d'opérations préétablies comprises dans la macro-instruction.
  8. 8. Appareil de traitement d'image (100) selon la revendication 1, comprenant en outre une unité de communication (140) qui est connectée à un serveur (10) pour communication, dans lequel l'unité de commande (190) commande le processeur vocal (170) ou le serveur (10) pour traiter l'ordre vocal correspondant à la parole si la parole est entrée.
  9. 9. Appareil de traitement d'image (100) selon la revendication 8, dans lequel l'unité de communication (140) communique avec un serveur parole-entexte (STT) (20) qui convertit la parole en un ordre vocal d'un texte, et l'unité de commande (190) transmet un signal vocal de la parole au serveur STT (20) si la parole est entrée dans l'unité d'entrée vocale (160), et reçoit l'ordre vocal du serveur STT (20) correspondant à la parole.
  10. 10. Appareil de traitement d'image (100) selon la revendication 8, dans lequel l'unité de commande (190) commande le processeur vocal (170) pour traiter l'ordre vocal si l'ordre vocal est une phrase courte, et commande le serveur (10) pour traiter l'ordre vocal si l'ordre vocal est une phrase de conversation.
  11. 11. Appareil de traitement d'image (100) selon la revendication 1, comprenant en outre une unité d'affichage (130) qui y affiche une image en se basant sur le signal d'image traité par le processeur d'image (120).
FR1261445A 2012-10-26 2012-11-29 Appareil de traitement d'image et procede de commande de celui-ci et systeme de traitement d'image Expired - Lifetime FR2997599B3 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120119634A KR101284594B1 (ko) 2012-10-26 2012-10-26 영상처리장치 및 그 제어방법, 영상처리 시스템

Publications (2)

Publication Number Publication Date
FR2997599A3 true FR2997599A3 (fr) 2014-05-02
FR2997599B3 FR2997599B3 (fr) 2015-05-29

Family

ID=47751802

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1261445A Expired - Lifetime FR2997599B3 (fr) 2012-10-26 2012-11-29 Appareil de traitement d'image et procede de commande de celui-ci et systeme de traitement d'image

Country Status (8)

Country Link
US (2) US20140122088A1 (fr)
EP (1) EP2725576A1 (fr)
JP (1) JP2014132370A (fr)
KR (1) KR101284594B1 (fr)
CN (2) CN203151689U (fr)
DE (1) DE202012104833U1 (fr)
FR (1) FR2997599B3 (fr)
WO (1) WO2014065467A1 (fr)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
KR102155482B1 (ko) * 2013-10-15 2020-09-14 삼성전자 주식회사 디스플레이장치 및 그 제어방법
CN104795067B (zh) * 2014-01-20 2019-08-06 华为技术有限公司 语音交互方法及装置
JP2016046636A (ja) * 2014-08-21 2016-04-04 日本電気株式会社 動作制御装置、動作制御方法、および動作制御プログラム
EP3180660B1 (fr) * 2014-09-25 2020-09-02 Siemens Aktiengesellschaft Procédé et système de réalisation d'une configuration d'un système d'automatisation
CN105763929B (zh) * 2016-02-23 2018-10-23 广州酷狗计算机科技有限公司 音频切换方法及装置
CN106791370A (zh) * 2016-11-29 2017-05-31 北京小米移动软件有限公司 一种拍摄照片的方法和装置
EP3563373B1 (fr) * 2016-12-30 2022-11-30 Harman International Industries, Incorporated Système de reconnaissance vocale
US10424297B1 (en) * 2017-02-02 2019-09-24 Mitel Networks, Inc. Voice command processing for conferencing
CN107248235A (zh) * 2017-05-26 2017-10-13 黄晓咏 一种语音寄存柜通讯***
CN109584864B (zh) * 2017-09-29 2023-11-24 上海寒武纪信息科技有限公司 图像处理装置和方法
CN109584862B (zh) * 2017-09-29 2024-01-12 上海寒武纪信息科技有限公司 图像处理装置和方法
CN108235185A (zh) * 2017-12-14 2018-06-29 珠海荣邦智能科技有限公司 音源输入客户端设备、遥控器,以及播放音乐的***
CN109218843B (zh) * 2018-09-27 2020-10-23 四川长虹电器股份有限公司 基于电视设备的个性化智能语音提示方法
CN109259800A (zh) * 2018-10-26 2019-01-25 深圳开立生物医疗科技股份有限公司 超声成像控制***
JP7263919B2 (ja) * 2019-05-22 2023-04-25 コニカミノルタ株式会社 画像処理装置およびプログラム
JP7318381B2 (ja) * 2019-07-18 2023-08-01 コニカミノルタ株式会社 画像形成システムおよび画像形成装置
KR102165084B1 (ko) * 2020-01-21 2020-10-13 주식회사 나인위드 직관적인 사용자 인터페이스를 이용한 경품 추첨 서비스 제공 시스템
CN111597808B (zh) * 2020-04-24 2023-07-25 北京百度网讯科技有限公司 仪表盘绘制处理方法、装置、电子设备和存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07109560B2 (ja) * 1990-11-30 1995-11-22 富士通テン株式会社 音声認識装置
KR970057020A (ko) * 1995-12-15 1997-07-31 배순훈 음성인식에 의한 텔레비전 제어장치
ATE239336T1 (de) * 1998-09-22 2003-05-15 Nokia Corp Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems
KR20000042731A (ko) * 1998-12-26 2000-07-15 전주범 텔레비전의 음성인식에 의한 채널전환장치
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
GB2368441A (en) * 2000-10-26 2002-05-01 Coles Joseph Tidbold Voice to voice data handling system
JP4789227B2 (ja) * 2001-04-04 2011-10-12 Necディスプレイソリューションズ株式会社 音声認識機能を内蔵した映像表示装置
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
US20060075429A1 (en) * 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
KR100672518B1 (ko) * 2005-02-15 2007-01-24 엘지전자 주식회사 음성인식 기능을 갖는 티브이
TWI298844B (en) * 2005-11-30 2008-07-11 Delta Electronics Inc User-defines speech-controlled shortcut module and method
JP4181590B2 (ja) * 2006-08-30 2008-11-19 株式会社東芝 インタフェース装置及びインタフェース処理方法
US8055502B2 (en) * 2006-11-28 2011-11-08 General Motors Llc Voice dialing using a rejection reference
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP2678861B1 (fr) * 2011-02-22 2018-07-11 Speak With Me, Inc. Reconnaissance de la parole hybride client-serveur
KR20120119634A (ko) 2011-04-22 2012-10-31 (주)광인사 입체무늬를 갖는 플라스틱 카드

Also Published As

Publication number Publication date
EP2725576A1 (fr) 2014-04-30
FR2997599B3 (fr) 2015-05-29
US20140122088A1 (en) 2014-05-01
KR101284594B1 (ko) 2013-07-10
DE202012104833U1 (de) 2013-01-30
CN203151689U (zh) 2013-08-21
WO2014065467A1 (fr) 2014-05-01
CN103796053A (zh) 2014-05-14
JP2014132370A (ja) 2014-07-17
US20140122089A1 (en) 2014-05-01

Similar Documents

Publication Publication Date Title
FR2997599A3 (fr) Appareil de traitement d'image et procede de commande de celui-ci et systeme de traitement d'image
JP6824316B2 (ja) 映像処理装置及びその制御方法、並びに映像処理システム
US20220321965A1 (en) Voice recognition system, voice recognition server and control method of display apparatus for providing voice recognition function based on usage status
US20130339015A1 (en) Terminal apparatus and control method thereof
US20130041665A1 (en) Electronic Device and Method of Controlling the Same
US20130339020A1 (en) Display apparatus, interactive server, and method for providing response information
EP3011751B1 (fr) Serveur, procédé de commande associé, appareil de traitement d'image, et procédé de commande associé
US8838456B2 (en) Image processing apparatus and control method thereof and image processing system
FR2996343A3 (fr) Dispositif electronique
US20180129518A1 (en) Display apparatus and method for controlling display apparatus
AU2014200033A1 (en) Interactive server, display apparatus, and control method thereof
KR20160049347A (ko) 영상표시기기 및 그의 원거리 음성 인식율 향상 방법
US20240184519A1 (en) Display control device for selecting item on basis of speech
US20150025893A1 (en) Image processing apparatus and control method thereof
KR102460927B1 (ko) 음성인식 시스템, 음성인식 서버 및 디스플레이장치의 제어방법
WO2019122578A1 (fr) Assistant vocal
KR102160756B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR20140026220A (ko) 단말 장치 및 단말 장치의 제어 방법
AU2018202888B2 (en) Image processing apparatus, control method thereof, and image processing system
US20230156266A1 (en) Electronic apparatus and control method thereof
US20220053228A1 (en) Information Processing Apparatus, Control Method, Information Processing Terminal, And Information Processing Method

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6