CN110555294A

CN110555294A - 语音控制装置及方法

Info

Publication number: CN110555294A
Application number: CN201910192532.2A
Authority: CN
Inventors: 高承裕; 王稔志; 曾羽鸿; 张岳飞; 王志伦
Original assignee: Pegatron Corp
Current assignee: Pegatron Corp
Priority date: 2018-06-04
Filing date: 2019-03-14
Publication date: 2019-12-10
Also published as: US11158314B2; TWI704490B; TW202004532A; US20190371323A1

Abstract

本发明公开一种语音控制装置及方法，该装置包括用户数据库、第一图像撷取模块、语音命令模块以及管理模块。用户数据库存储有第一用户帐户的第一用户识别数据。第一图像撷取模块用以撷取环境图像。语音命令模块用以被致能以接收语音命令控制该语音控制装置。管理模块用以从该环境图像辨识是否具有至少一人脸图像，并辨识该人脸图像是否符合该第一用户识别数据，在该人脸图像符合该第一用户识别数据时，登入该第一用户帐户并致能该语音命令模块。

Description

语音控制装置及方法

技术领域

本发明涉及一种语音控制装置及方法，特别是涉及一种能利用人脸检测辨识免除唤醒词并自动切换用户帐户的语音控制装置及方法。

背景技术

现有的智能型多媒体装置虽然能让用户以语音命令操作，且广受欢迎，然而用户每次在说语音命令前必须先说唤醒词，例如，Amazon Echo的“Hey Alexa”，或Google Home的“OK Google”，以唤醒智能音箱。然而，这会让用户感觉累赘和厌烦，也造成此等装置在家庭使用上以及普及性受到局限。

而目前虽有某些智能型多媒体装置为此做了改良，例如，在一段对话结束后的限定时间之内(例如5秒钟内)，用户可以直接说语音命令而不必先说唤醒词。虽然用户仅须说一次唤醒词即可，然而，若超过限定时间，仍然得先说唤醒词才能使用语音命令。

此外，大部分现有的智能型多媒体装置并不支持多重用户操作，或虽有支持，但是切换用户的界面不够直觉。倘若用户未加留意，容易让他人误操作自己的帐号导致个人信息外泄，更严重的是造成个人权益或金钱的损失。

故如何通过针对唤醒与安全机制的改良来提供一种直觉、方便的操作方式，并克服上述的缺陷，已成为该项事业所欲解决的重要课题之一。

发明内容

本发明目的在于提供一种语音控制装置，其包括用户数据库、第一图像撷取模块、语音命令模块以及管理模块。用户数据库存储有第一用户帐户的第一用户识别数据。第一图像撷取模块用以撷取环境图像。语音命令模块用以被致能以接收语音命令控制语音控制装置。管理模块用以从环境图像辨识是否具有至少一人脸图像，并辨识人脸图像是否符合第一用户识别数据，在人脸图像符合第一用户识别数据时，登入第一用户帐户并致能语音命令模块。

本发明亦提供一种语音控制方法，其包括以用户数据库存储第一用户帐户的第一用户识别数据；撷取至少一环境图像；从环境图像辨识是否具有至少一人脸图像，并辨识人脸图像是否符合第一用户识别数据，在人脸图像符合第一用户识别数据时，登入第一用户帐户；以及致能语音控制装置在第一用户帐户登入时以接收语音命令。

本发明的其中一有益效果在于，本发明所提供的语音控制装置，其能通过“图像撷取模块”以及“管理模块”的技术方案，以利用人脸检测辨识自动登入用户帐户，人脸被成功检测的期间，用户即可发出语音命令，而不需要任何唤醒词，因而省略了须重复唤醒词或者担忧限定时间已过的困扰，并以直觉的方式支持多重用户操作，且可避免让他人误操作自己的帐号导致个人信息外泄，进而可避免造成个人权益或金钱的损失。

为使能更进一步了解本发明的特征及技术内容，请参阅以下有关本发明的详细说明与图式，然而所提供的图式仅用于提供参考与说明，并非用来对本发明加以限制。

附图说明

图1为本发明第一实施例的语音控制装置的功能方块图。

图2为本发明第一实施例的语音控制装置的装置架构图。

图3A为本发明第一实施例的人脸检测辨识的操作示意图。

图3B为本发明第一实施例的人脸检测辨识的环境图像示意图。

图4为本发明第二实施例的语音控制装置的功能方块图。

图5为本发明第二实施例的语音控制装置的装置架构图。

图6A为本发明第二实施例的人脸检测辨识的操作示意图。

图6B为本发明第二实施例的人脸检测辨识的第一环境图像及第二环境图像示意图。

图7为本发明第三实施例的语音控制方法的流程图。

图8为本发明第三实施例的语音控制装置的另一流程图。

【符号说明】

1、1’、2、2’：语音控制装置

100、200：处理器

102：摄像机

104、204：显示模块

106、206：存储装置

108、208：电源供应装置

110、210：音频接收装置

112、212：音频播放装置

114、214：通信装置

10、20：用户数据库

12、22-1：第一图像撷取模块

14、24：语音命令模块

16、26：管理模块

202-1：第一摄像机

202-2：第二摄像机

22-2：第二图像撷取模块

25：提示模块

28：通信模块

29：网络

30：云端服务器

A0：第一用户帐户

A1：第一用户识别数据

A2：第一用户配置

B0：第二用户帐户

B1：第二用户识别数据

B2：第二用户配置

IMG1：环境图像

IMG2：第一环境图像

IMG3：第二环境图像

USER1、USER2：人物

R1、R2：图像撷取范围

HF1、HF1’、HF2、HF2’：人脸图像

具体实施方式

以下是通过特定的具体实施例来说明本发明所公开有关“语音控制装置及方法”的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的构思下进行各种修改与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

应当可以理解的是，虽然本文中可能会使用到“第一”、“第二”、“第三”等术语来描述各种元件或者信号，但这些元件或者信号不应受这些术语的限制。这些术语主要是用以区分一元件与另一元件，或者一信号与另一信号。另外，本文中所使用的术语“或”，应视实际情况可能包括相关联的列出项目中的任一个或者多个的组合。

[第一实施例]

图1为本发明第一实施例的语音控制装置的功能方块图，图2为本发明第一实施例的语音控制装置的装置架构图，图3A为本发明第一实施例的人脸检测辨识的操作示意图，图3B为本发明第一实施例的人脸检测辨识的环境图像示意图。参阅图1至图3B所示，本发明第一实施例提供一种语音控制装置1，包括用户数据库10、第一图像撷取模块12、语音命令模块14以及管理模块16。

本实施例的语音控制装置1可由图2的语音控制装置1’来实现，语音控制装置1’的具体架构包括处理器100、摄像机102、显示模块104、存储装置106、电源供应装置108，音频接收装置110、音频播放装置112及通信装置114，以下将针对语音控制装置1、1’中的功能对应关系进行说明。

在本实施例中，存储装置106用以存储本发明各实施例所述的数据，例如用户数据库10，并且提供处理器100读取并执行，以使语音控制装置1可实现本发明各实施例所述的多媒体应用操作。在本实施例中，存储装置106例如是动态随机存取存储器(DynamicRandom Access Memory，DRAM)、快闪存储器(Flash memory)或非易失性随机存取存储器(Non-Volatile Random Access Memory，NVRAM)等。详细而言，存储装置106包含用户数据库10可存储有第一用户帐户A0的第一用户识别数据A1以及第一用户配置A2。

在本实施例中，处理器100为***单芯片(System on Chip，SOC)，但本发明并不限于此，在其他实施例中，处理器100也可例如是中央处理单元(Central Processing Unit，CPU)，或是其他可编程的一般用途或特殊用途的微处理器(microprocessor)、数字信号处理器(Digital Signal Processor，DSP)、可编程控制器、特殊应用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、可编程逻辑装置(Programmable Logic Device，PLD)、其他类似处理器或这些装置的组合。

在本实施例中，第一图像撷取模块12主要用以撷取环境图像。更具体而言，第一图像撷取模块12可包含摄像机102，并且可通过语音控制装置1’的处理器100或其他内建处理器来进行摄像机102的功能控制，例如控制摄像机102撷取环境图像的焦距、范围、方向、对比度、白平衡等可用于辅助检测环境图像中的人脸图像，以便于提升后续人脸辨识的精确度。

续言之，语音命令模块14用以被致能以接收语音命令来控制语音控制装置1。详细而言，语音命令模块14可包含音频接收装置110，并可由处理器100、存储装置106及音频接收装置110来实现其功能。举例而言，存储装置106可存储有音频辨识算法，并由处理器100来执行。其中，音频接收装置110可例如为麦克风，当麦克风接收到环境音效时，通过音频辨识算法将此环境音效进行解码并辨识此环境音效中是否包括语音命令，并进一步辨识语音命令所对应要执行的功能，并以处理器100依据此功能来执行对应的操作。

此外，语音控制装置1还包括管理模块16，用以从第一图像撷取模块12所撷取的环境图像来辨识是否具有至少一人脸图像，并辨识人脸图像是否符合第一用户识别数据A1，在人脸图像符合第一用户识别数据A1时，登入第一用户帐户A0并致能语音命令模块14。其中，管理模块16可包含处理器100，并可由处理器100、存储装置106及摄像机102来实现其功能。举例而言，存储装置106可存储有人脸辨识算法，并由处理器100来执行。其中，当摄像机102撷取到环境图像时，通过人脸辨识算法辨识此环境图像中是否包括人脸图像，并进一步辨识此人脸图像是否与用户数据库10中的数据符合，例如，是否符合第一用户识别数据A1。当人脸图像符合第一用户识别数据A1时，登入第一用户帐户A0并以处理器100致能音频接收装置110，以接受语音控制。此处，第一用户识别数据A1可包括特定用户的一或多个面部图像及其特征，并可在用户建立第一用户帐户A1的同时建立对应的面部图像及其特征数据。

在本实施例中，语音控制装置1’还包括电源供应装置108，用以提供电压信号至处理装置100，以致能处理装置100而执行本发明各实施例的语音控制操作。并且，本实施例的电源供应装置108可包括直流对直流电压转换器(DC to DC converter，DC/DC)，以转换由外部电源或内部电池提供的直流电压大小，但本发明并不加以限制。

在本实施例中，语音控制装置1’还包括音频播放装置112，音频播放装置112可包括电动式扬声器、电磁式扬声器、压电式扬声器、电极式扬声器和电浆体扬声器，本发明并不加以限制。

在本实施例中，语音控制装置1’还包括显示模块104，显示模块104可例如包括一或多个无源式有机发光二极管显示器(Passive Matrix Organic Light Emitting Diode，PMOLED)、电子纸显示器(electronic paper display，EPD)、液晶显示器(liquid crystaldisplay，LCD)、发光二极管(light-emitting diode，LED)、场发射显示器(field emissiondisplay，FED)或是其他种类的显示器，但本发明并不限于此。

在一些实施例中，可以通过登入第一用户帐户A0来存取由第一用户建立的第一用户配置A2并存储在用户数据库10，第一用户配置A2可包含媒体播放列表、装置设定及个人信息。例如，媒体播放列表可包含喜爱频道列表或歌曲播放列表。在实施例中，登入第一用户帐户A0可以预设语音控制装置1’将用户建立的喜爱频道列表及歌曲播放列表显示在显示模块104上，藉以控制语音控制装置1’以显示模块104搭配音频播放装置112来播放列表中的频道或歌曲。第一用户配置A2可进一步包括装置设定如DVR记录、频道、歌曲、分级(rating)、演出、主题、显示设置和/或音量设置。第一用户配置A2更可包括个人信息如特定线上收听音乐或线上收看影片的供应商相关的网站登入信息，且登入信息可包括个人消费数据。并且，可以在检测环境图像中的用户脸部图像来确认用户的身份后并登入第一用户帐户A0来存取上述第一用户配置A2。

在本实施例中，语音控制装置1’还包括通信装置114，通信装置114可例如是无线传输装置，并可包括支持无线相容认证(Wireless fidelity，Wi-Fi)、全球互通微波接入(Worldwide Interoperability for Microwave Access，WiMAX)、蓝牙(Bluetooth)、超宽带(Ultra-Wideband，UWB)或射频识别(Radio-frequency identification，RFID)等通信协议的装置。在一些实施例中，通信装置114可藉由无线传输的方式和另一具有无线传输装置的电子装置或云端***彼此对应而建立无线连接。

在有网络连接能力的环境下，在语音控制装置1’登入第一用户帐户A0后，用户可直接通过语音命令进行网络消费操作。

请一并参照图3A及3B，提供了人脸检测辨识的操作示意图及撷取的环境图像示意图。如图所示，在此情境下，人物USER1及USER2进入了摄像机102的图像撷取范围R1，并且由摄像机102撷取到了环境图像IMG1。此处，人物USER1距离语音控制装置1’较人物USER2近，因此，在环境图像IMG1中，人物USER1的图像将会比人物USER2的图像大，因此，在处理器100通过执行人脸辨识算法辨识此环境图像IMG1，并分别取得人物USER1及USER2的人脸图像HF1及HF2，人脸图像HF1的面积将大于人脸图像HF2。进一步，处理器100通过执行人脸辨识算法辨识将仅针对面积最大的人脸图像HF1进行辨识，并判定此人脸图像HF1是否与用户数据库10中的数据符合，例如，是否符合第一用户识别数据A1。当人脸图像符合第一用户识别数据A1时，登入第一用户帐户A0并以处理器100致能音频接收装置110，以开始接受语音控制。并且，在人脸图像HF1被成功检测的期间，第一用户帐户A0保持在登入状态，因此，用户在控制距离内可以连续发出语音命令，而不需要任何唤醒词，因而省略了须重复唤醒词或者担忧限定时间已过的困扰。

另一方面，当管理模块16辨识到符合第一用户识别数据A0的人脸图像HF1在环境图像IMG1中消失时或者是USER2的人脸图像HF2’大于人脸图像HF1’，管理模块16将禁能语音命令模块14与登出第一用户帐户A0。也就是说，人脸图像HF1在环境图像IMG1中消失时，或图像面积最大的人脸图像不符合第一用户识别数据A1时，处理器100将登出第一用户帐户A0，并使音频接收装置110禁能，以停止接收语音命令，进一步登出第一用户帐户A0。图像面积最大的人脸图像不符合第一用户识别数据A1时，处理器100将登出第一用户帐户A0，管理模块16需重新辨识USER2的人脸图像HF2’是否符合数据库中的用户识别数据判断是否登入为另一用户帐户，并进行相同程序，以达到切换用户帐户的目的。如此，用户无须担忧个人信息遭到泄漏或损害权益。

本实施例已针对本发明的核心概念做示例性的描述，以下将根据附图在下列实施例中做更详细的描述。

[第二实施例]

图4为本发明第二实施例的语音控制装置的功能方块图，图5为本发明第二实施例的语音控制装置的装置架构图，图6A为本发明第二实施例的人脸检测辨识的操作示意图，而图6B为本发明第二实施例的人脸检测辨识的第一环境图像及第二环境图像示意图。参阅图4至图6B所示，本发明第二实施例提供一种语音控制装置2，包括用户数据库20、第一摄像机22-1、第二摄像机22-2、语音命令模块24、提示模块25、管理模块26以及通信模块28。本实施例的语音控制装置2可由图5的语音控制装置2’来实现，语音控制装置2’的具体架构包括处理器200、第一摄像机202-1、第二摄像机202-2、显示模块204、存储装置206、电源供应装置208，音频接收装置210、音频播放装置212及通信装置214，以下将针对语音控制装置2、2’中的功能对应关系进行说明。在本实施例中，类似的元件使用类似的元件符号，故省略重复叙述。

更进一步的，在本实施例中，语音控制装置2还包括通信模块28，通过网络29连接于用户数据库20。用户数据库20可存储有第一用户帐户A0的第一用户识别数据A1以及第一用户配置A2，以及第二用户帐户B0的第二用户识别数据B1以及第二用户配置B2。更具体而言，语音控制装置2’可通过通信装置214与网络29连接，以进一步与一云端服务器30连接，云端服务器30可包括上述的用户数据库20。因此，管理模块26可通过通信模块28从用户数据库20取得第一用户帐户A0的第一用户识别数据A1，以及第二用户帐户B0的第二用户识别数据B1，以辨识所撷取的人脸图像是否符合第一用户识别数据A1或第二用户识别数据B1。

在本实施例中，语音控制装置2’可包含多个摄像机，用以取得多个环境图像。例如，可包含第一摄像机202-1及第二摄像机202-2。当该等环境图像被辨识出多个人脸图像时，管理模块26仅辨识图像面积最大的人脸图像是否与用户数据库20中的用户识别数据相符合。例如，辨识图像面积最大的人脸图像是否符合第一用户识别数据A1或第二用户识别数据A2。

此外，语音控制装置2还包括提示模块25，用于当第一用户帐户A0或第二用户帐户B0登入时，启动第一提示操作以提示第一用户帐户A0或第二用户帐户B0目前状态为使用或非使用中。详细而言，提示模块25的功能可由处理器200、音频播放装置212及显示模块204来执行，第一提示操作可包括以声音、图像、或灯号等提示用户，并且，可依据现在所登入的为第一用户帐户A0或第二用户帐户B0，而有不同的提示方式。

为说明如何切换用户帐户，请一并参照图6A及6B，提供了人脸检测辨识的操作示意图及撷取的环境图像示意图。如图所示，在此情境下，人物USER1及USER2分别进入了第一摄像机202-1的图像撷取范围R1及第二摄像机202-2的图像撷取范围R2，并且由第一摄像机202-1撷取到了第一环境图像IMG2，以及由第二摄像机202-2撷取到了第二环境图像IMG3。此处，本实施例以距离较近的人物取得控制权，相同拍摄条件下，在第一环境图像IMG2中的人物USER1的图像比第二环境图像IMG3中的人物USER2的图像大，也就是人物USER1距离语音控制装置1’较人物USER2近。因此，在处理器200通过执行人脸辨识算法辨识第一环境图像IMG2及第二环境图像IMG3，并分别取得人物USER1及USER2的人脸图像HF1’及HF2’，并判断人脸图像HF1’的面积大于人脸图像HF2’。

进一步，处理器200通过执行人脸辨识算法辨识将仅针对面积最大的人脸图像HF1’进行辨识，并判定此人脸图像HF1’是否与用户数据库20中的数据符合，例如，是否符合第一用户识别数据A1。当人脸图像符合第一用户识别数据A1时，登入第一用户帐户A0并以处理器200致能音频接收装置210，以开始接受语音控制，同时执行第一提示操作以声音、图像、或灯号等提示用户目前第一用户帐户A0为使用中。并且，在人脸图像HF1’被成功检测的期间，第一用户帐户A0保持在登入状态，因此，用户可以连续发出语音命令，而不需要任何唤醒词，因而省略了须重复唤醒词或者担忧限定时间已过的困扰。

与第一实施例略有不同，当管理模块16辨识到USER2的人脸图像HF2’大于人脸图像HF1’，管理模块26先登出第一用户帐户A0。也就是说，管理模块16需重新辨识USER2的人脸图像HF2’是否符合数据库中的用户识别数据中的用户识别数据判断是否登入为另一用户帐户，以达到切换用户帐户的目的。可以设想的，当管理模块26辨识到更接近的USER2的人脸图像HF2’符合数据库中的第二用户识别数据时，登出第一用户帐户A0并登入为另一用户帐户，如不符合数据库中的第二用户识别数据，再使音频接收装置110禁能，以停止接收语音命令。如此，用户无须担忧个人信息遭到泄漏或损害权益。

因此，通过上述配置，本发明的语音控制装置以直觉的方式支持多重用户操作，且可避免让他人误操作自己的帐号导致个人信息外泄，进而可避免造成个人权益或金钱的损失。

[第三实施例]

图7为本发明第三实施例的语音控制方法的流程图，图8为本发明第三实施例的语音控制装置的另一流程图。本实施例所述的方法可以在图1至图6B所示的语音控制装置1、1’、2或2’上执行，因此，请一并照图1至图6B以利理解，而语音控制方法包括以下步骤：

步骤S100：以用户数据库存储第一用户帐户的第一用户识别数据。

步骤S102：撷取环境图像。

步骤S104：从环境图像辨识是否具有至少一人脸图像。若是，则进入步骤S106：辨识人脸图像是否符合第一用户识别数据。

在人脸图像符合第一用户识别数据时，执行步骤S108：登入第一用户帐户并致能语音命令模块接收语音命令。

若在步骤S104中，从环境图像辨识不具有人脸图像，或在步骤S106，辨识人脸图像不符合第一用户识别数据时，则回到步骤S102，重新撷取环境图像。

另一方面，在步骤S108之后，可进一步执行步骤S110，启动第一提示操作，如先前实施例所描述的，第一提示操作可包括以声音、图像、或灯号等提示用户目前的第一使用帐户状态。

步骤S112：配置管理模块辨识符合第一用户识别数据的人脸图像是否在环境图像中消失，若否，则执行步骤S108，维持登入第一用户帐户，若是，则执行步骤S114，禁能语音命令模块，并登出第一用户帐户，进而回到步骤S102，重新撷取环境图像。

因此，通过上述流程，用户可以连续发出语音命令，而不需要任何唤醒词，因而省略了须重复唤醒词或者担忧限定时间已过的困扰。

另一方面，请参照图8，提供了语音控制方法的另一流程图。语音控制方法包括以下步骤：

步骤S200：以用户数据库存储多个用户帐户的用户识别数据及用户配置，例如可包括前述实施例所描述的第一用户帐户的第一用户识别数据、第一用户配置及第二用户帐户的第二用户识别数据及第二用户配置。

步骤S202：撷取多个环境图像。

步骤S204：从多个环境图像辨识是否具有至少一人脸图像。若是，则进入步骤S206：判断是否有多个人脸图像。若是，则进入步骤S208，仅辨识图像面积最大的人脸图像。并进入步骤S210，辨识人脸图像是否符合第一用户识别数据。若在步骤S206中，管理模块判断仅有一个人脸图像，则直接进入步骤S210。

在步骤S210中，在人脸图像符合第一用户识别数据时，执行步骤S212：登入对应的用户帐户、致能语音命令模块接收语音命令并启用对应的用户配置。

若在步骤S204中，管理模块从环境图像辨识不具有人脸图像，或在步骤S210，辨识人脸图像不符合任何用户识别数据，则回到步骤S202，第一及第二图像撷取模块撷取第一及第二环境图像。

另一方面，在步骤S212之后，可进一步执行步骤S214，配置提示模块启动第一提示操作，第一提示操作可包括以声音、图像、或灯号等提示用户目前的使用帐户状态。

步骤S216：辨识符合用户识别数据的人脸图像是否在环境图像中消失，若是，则执行步骤S218，禁能语音命令模块，并登出对应的用户帐户，并回到步骤S202，第一及第二图像撷取模块撷取第一及第二环境图像。若否，则进入步骤S217，判断符合用户识别数据的人脸图像是否为面积最大的人脸图像。

若在步骤S217中，判断符合用户识别数据的人脸图像为面积最大的人脸图像，则执行步骤S212，维持登入对应的用户帐户。若判断符合用户识别数据的人脸图像并非为面积最大的人脸图像，则回到步骤S208，仅辨识人脸图像面积最大者。

因此，通过上述流程，本发明的语音控制方法以直觉的方式支持多重用户操作，且可避免让他人误操作自己的帐号导致个人信息外泄，进而可避免造成个人权益或金钱的损失。

[实施例的有益效果]

本发明的其中一有益效果在于，本发明所提供的语音控制装置，其能通过“图像撷取模块”以及“管理模块”的技术方案，以利用人脸检测辨识自动登入用户帐户，在人脸被成功检测的期间，用户可以直接发出语音命令，而不需要任何唤醒词，因而省略了须重复唤醒词或者担忧限定时间已过的困扰，同时，以直觉的方式支持多重用户操作，且可避免让他人误操作自己的帐号导致个人信息外泄，进而可避免造成个人权益或金钱的损失。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的权利要求书，所以凡是运用本发明说明书及附图内容所做的等效技术变化，均包含在本发明的权利要求书内。

Claims

1.一种语音控制装置，其包括：

用户数据库，存储有第一用户帐户的第一用户识别数据；

图像撷取模块，用以撷取环境图像；

语音命令模块，用以被致能以接收语音命令控制该语音控制装置；以及

管理模块，用以从该环境图像辨识是否具有至少一人脸图像，并辨识该人脸图像是否符合该第一用户识别数据，在该人脸图像符合该第一用户识别数据时，登入该第一用户帐户并致能该语音命令模块。

2.如权利要求1所述的语音控制装置，还包括提示模块，用以提供第一提示操作以提示目前的该第一用户帐户的状态，该第一提示操作包括声音、图像、或灯号。

3.如权利要求1所述的语音控制装置，其中该语音命令模块包含音频接收装置，以接收该语音命令。

4.如权利要求1所述的语音控制装置，其中该第一用户识别数据可包括用户的一或多个面部图像及其特征。

5.如权利要求1所述的语音控制装置，其中该用户数据库还存储有关联于该第一用户帐户的第一用户配置，该管理模块在该第一用户帐户时，对应存取该第一用户配置。

6.如权利要求5所述的语音控制装置，其中该第一用户配置包含媒体播放列表、装置设定或个人信息。

7.如权利要求1所述的语音控制装置，其中该管理模块辨识到符合该第一用户识别数据的该人脸图像消失时，该语音控制装置登出该第一用户帐户并禁能该语音命令模块。

8.如权利要求1所述的语音控制装置，其中该环境图像被辨识出多个该人脸图像时，该管理模块辨识图像面积最大的该人脸图像是否符合该第一用户识别数据。

9.如权利要求1所述的语音控制装置，其中该图像撷取模块包含多个摄像机，用以取得多个环境图像，这些环境图像被辨识出多个该人脸图像时，该管理模块辨识图像面积最大的该人脸图像是否符合该第一用户识别数据。

10.如权利要求8或9所述的语音控制装置，其中该语音控制装置登入该第一用户帐户时，如图像面积最大的该人脸图像不符合该第一用户识别数据，则登出该第一用户帐户并禁能该语音命令模块。

11.如权利要求8或9所述的语音控制装置，其中该用户数据库存储第二用户帐户的第二用户识别数据，当该语音控制装置登入该第一用户帐户时，如图像面积最大的该人脸图像符合该第二用户识别数据，则登出该第一用户帐户并登入该第二用户帐户。

12.如权利要求1所述的语音控制装置，还包括通信模块，用以经过网络连接于该用户数据库。

13.如权利要求1所述的语音控制装置，还包括处理器、电源供应器、存储装置或显示模块及其组合。

14.一种语音控制方法，应用于语音控制装置，其包括：

以用户数据库存储第一用户帐户的第一用户识别数据；

撷取至少一环境图像；

从该环境图像辨识是否具有至少一人脸图像，并辨识该人脸图像是否符合该第一用户识别数据，在该人脸图像符合该第一用户识别数据时，登入该第一用户帐户；以及

致能该语音控制装置在该第一用户帐户登入时接收语音命令。

15.如权利要求14所述的语音控制方法，还包括启动该语音控制装置的第一提示操作以提示目前状态。

16.如权利要求14所述的语音控制方法，还包括从该环境图像辨识到符合该第一用户识别数据的该人脸图像在消失时，该语音控制装置登出该第一用户帐户并禁能语音命令功能。

17.如权利要求14所述的语音控制方法，还包括以该用户数据库存储第二用户帐户的第二用户识别数据，其中在该第一用户帐户登入的状况下，若该管理模块辨识到另一人脸图像大于该人脸图像且符合该第二用户识别数据，则切换为登入该第二用户帐户。

18.如权利要求14所述的语音控制方法，还包括：

配置该用户数据库存储关联于该第一用户帐户的第一用户配置；以及

在该第一用户帐户登入时，对应启用该第一用户配置。

19.如权利要求14所述的语音控制方法，还包括在该环境图像辨识出多个该人脸图像时，仅辨识图像面积最大的该人脸图像是否符合该第一用户识别数据。

20.如权利要求14所述的语音控制方法，还包括：

通过网络从该用户数据库取得该第一用户帐户的该第一用户识别数据。

21.如权利要求14所述的语音控制方法，还包含在该环境图像为多个时，在多个该环境图像被辨识出多个该人脸图像时，辨识图像面积最大的该人脸图像是否符合该第一用户识别数据。