CN108197572B

CN108197572B - 一种唇语识别方法和移动终端

Info

Publication number: CN108197572B
Application number: CN201810004216.3A
Authority: CN
Inventors: 耿立华; 马希通; 张治国
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2020-06-12
Anticipated expiration: 2038-01-02
Also published as: US11495231B2; WO2019134463A1; CN108197572A; US20210280191A1

Abstract

本发明实施例提供的唇语识别方法和移动终端，其中，该方法应用在移动终端中，移动终端设置有有声模式和无声模式，在有声模式下，对深度神经网络进行训练；在无声模式下，包括：启动无声模式；采集用户的唇部图像；根据深度神经网络，识别唇部图像对应的内容；其中，深度神经网络是在有声模式下建立的。本发明实施例提供的技术方案在有声模式下训练深度神经网络，在无声模式下利用在有声模式下训练好的深度神经网络识别唇部图像对应的内容，解决了现有技术中用户进行发声通话导致的无法保护隐私和对周围人员造成的影响的技术问题，不仅保护了使用者的隐私，减少了对周围人群造成的影响，而且，还能够节省训练时间以及提高训练准确度。

Description

一种唇语识别方法和移动终端

技术领域

本发明实施例涉及移动通信技术领域，具体涉及一种唇语识别方法和移动终端。

背景技术

目前，手机、具有通话功能的平板电脑等移动终端在实际通话中，都需要本地用户进行发声的通话。

经发明人研究发现，在实际通话中，一方面，手机通信的内容在很多情况下都是隐私内容，进行涉及隐私内容的发声的通话无法保护使用者的隐私；另一方面，很多场合均不适合接电话，例如：开会过程中或在图书馆中，如进行发声通话，势必会对周围人群的正常活动造成影响。

发明内容

为了解决上述技术问题，本发明实施例提供了一种唇语识别方法和移动终端，不仅能够保护使用者的隐私，减小对周围人群的正常活动造成的影响，而且还能够节省训练时间以及提高训练准确度。

一个方面，本发明实施例提供了一种唇语识别方法，应用在移动终端中，所述移动终端设置有有声模式和无声模式；

在所述有声模式下，对深度神经网络进行训练；

在所述无声模式下，包括：启动无声模式；采集用户的唇部图像；根据深度神经网络，识别所述唇部图像对应的内容；

其中，所述深度神经网络是在有声模式下建立的。

可选地，所述对深度神经网络进行训练包括：

采集用于训练的唇部图像和对应的语音数据；

根据用于训练的唇部图像，获得对应的图像数据，所述图像数据包括像素信息；

根据所述图像数据和所述语音数据训练所述深度神经网络。

可选地，所述对深度神经网络进行训练包括：

采集用于训练的唇部图像和对应的语音数据；

根据用于训练的唇部图像对应的语音数据，获得对应的文字编码；

根据所述图像数据和所述文字编码训练所述深度神经网络。

可选地，所述根据深度神经网络，识别所述唇部图像对应的内容包括：

根据所述唇部图像，获得唇部图像对应的图像数据；

对所述唇部图像对应的图像数据采用深度神经网络，识别所述唇部图像对应的文字编码。

可选地，所述方法还包括：

根据用于训练的唇部图像对应的语音数据，提取用户的语音特征。

可选地，所述语音特征包括：音色、音调或音量。

可选地，所述方法还包括：

根据用户的语音特征和所述唇部图像对应的内容，合成带有用户特色的语音数据。

另一方面，本发明实施例还提供一种移动终端，所述移动终端设置有有声模式和无声模式，所述移动终端包括：采集模块和处理模块；

在无声模式下，所述采集模块，被配置为采集用户的唇部图像；

所述处理模块，与所述采集模块通讯连接，被配置为根据深度神经网络，识别所述唇部图像对应的内容；

其中，所述深度神经网络是在有声模式下建立的。

可选地，在有声模式下，所述采集模块，被配置为采集用于训练的唇部图像和对应的语音数据；

所述处理模块，被配置为根据用于训练的唇部图像，获得对应的图像数据，所述图像数据包括像素信息；根据所述图像数据和所述语音数据训练所述深度神经网络。

所述处理模块，被配置为根据用于训练的唇部图像，获得对应的图像数据；根据用于训练的唇部图像对应的语音数据，获得对应的文字编码；根据所述图像数据和所述文字编码训练所述深度神经网络。

可选地，所述处理模块具体被配置为对所述唇部图像对应的图像数据采用深度神经网络，识别所述唇部图像对应的文字编码。

可选地，所述移动终端还包括：特征提取模块；

所述特征提取模块，被配置为根据用于训练的唇部图像对应的语音数据，获得用户的语音特征；

所述语音特征包括：音色、音调或音量。

可选地，所述移动终端还包括语音合成模块；

所述语音合成模块被配置为根据所述语音特征和所述唇部图像对应的内容，合成带有用户特色的语音数据。。

可选地，所述采集模块包括：摄像装置；

所述摄像装置设置在移动终端的底部。

本发明实施例提供的唇语识别方法和移动终端，其中，该方法应用在移动终端中，移动终端设置有有声模式和无声模式，在有声模式下，对深度神经网络进行训练；在无声模式下，包括：启动无声模式；采集用户的唇部图像；根据深度神经网络，识别唇部图像对应的内容；其中，深度神经网络是在有声模式下建立的。本发明实施例提供的技术方案在有声模式下训练深度神经网络，在无声模式下利用在有声模式下训练好的深度神经网络识别唇部图像对应的内容，解决了现有技术中用户进行发声通话导致的无法保护隐私和对周围人员造成的影响的技术问题，不仅保护了使用者的隐私，减少了对周围人群正常活动造成的影响，而且，在有声模式下训练深度神经网络，还能够节省训练时间以及提高训练准确度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。本发明的其它特征和优点将在随后的说明书实施例中阐述，并且，部分地从说明书实施例中变得显而易见，或者通过实施本发明而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的唇语识别方法的流程图；

图2为本发明实施例提供的移动终端的一个结构示意图；

图3为本发明实施例提供的移动终端的结构示意图；

图4为本发明实施例提供的移动终端的另一结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在下述实施例中，通讯连接包括通过无线网络、有线网络、和/或无线网络和有线网络的任意组合进行连接。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网、和/或以上网络的任意组合等。有线网络例如可以采用导线、双绞线、同轴电缆或光纤传输等方式进行信息传输，无线网络例如可以采用WWAN移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。

在下述实施例中，处理模块可以通过执行逻辑运算的处理器实现，例如中央处理器(CPU)、现场可编程逻辑阵列(FPGA)、数字信号处理器(DSP)、单片机(MCU)、专用逻辑电路(ASIC)等具有数据处理能力和/或程序执行能力的器件。容易理解，处理模块中可以包括存储器，在存储器上存储一个或多个计算机程序产品的任意组合，存储器可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、USB存储器、闪存等。在存储器上可以存储一个或多个计算机指令，处理器可以运行所述计算机指令，以实现分析模块的分析功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

在下述实施例中，尽管具体指出，本领域技术人员能够理解，各模块中设置有完成通讯连接所需的通讯连接电路以执行通讯功能。

下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明实施例能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

实施例一

图1为本发明实施例提供的唇语识别方法的流程图，如图1所示，本发明实施例提供的唇语识别方法，应用在移动终端中，其中，移动终端中设置有有声模式和无声模式，该方法具体包括以下步骤：

步骤100、在有声模式下，对深度神经网络进行训练。

具体的，有声模式指的是用户进行发声通话。

作为第一种可选方式，步骤100包括：采集用于训练的唇部图像和对应的语音数据；根据用于训练的唇部图像，获得对应的图像数据，根据图像数据和语音数据训练深度神经网络。

作为第二种可选的方式，步骤100包括：采集用于训练的唇部图像和对应的语音数据；根据用于训练的唇部图像，获得对应的图像数据，图像数据包括像素信息；根据用于训练的唇部图像对应的语音数据，获得对应的文字编码；根据图像数据和文字编码训练深度神经网络。

具体的，两种可选方式中提到的图像数据指的是像素信息。

另外，需要说明的是，随着用户有声模式的使用时间的增长，深度神经网络的训练就充分，识别到唇语图像对应的内容就越准确。

在本实施例中，通过在有声模式下采集用于训练的唇部图像和语音数据来训练深度神经网络，不需要专门的训练时间段对深度神经网络进行训练，不仅能够简化唇语识别的操作，使得个性化唇语识别成为可能，而且还能够节省训练时间和提高训练准确度。

步骤200、在无声模式下，包括：启动无声模式；采集用户的唇部图像；根据深度神经网络，识别唇部图像对应的内容。

其中，深度神经网络是在有声模式下建立的。

具体的，无声模式指的是用户不需要进行发声，根据用户的唇部图像识别出对应的内容。

需要说明的是，启动无声模式的条件为用户输入的唇语识别开启指令，例如在通话过程中点击显示屏上预置的虚拟按键，或者是语音开始识别指令，还可以是本地终端在呼入的语音中包含了相应关键字、关键词或者关键句子，例如：当我说出，“我现在不方便说话”或者“秘密”等，则可以将“秘密”或者“不方便”均可作为启动条件。

另外，上述通话可以是与另一移动终端进行通话，还可以是通过微信、qq、或者网络电话软件与其他通信终端、例如计算机或平板电脑进行通信联系。

可选地，唇语图像对应的内容包括：唇语图像对应的语音数据或文字编码。需要说明的是，唇语图像对应的内容根据对深度神经网络的训练方式确定。

具体的，若采用步骤100的第一种可选方式，则唇语图像对应的内容为语音数据，若采用步骤100的第二种可选方式，则唇语图像对应的内容为文字编码。

具体的，若采用步骤100的第二种可选方式，则根据唇部图像，获得唇部图像对应的图像数据包括：对唇部图像对应的图像数据采用深度神经网络，识别唇部图像对应的文字编码。

本发明实施例提供的唇语识别方法，应用在移动终端中，其中，移动终端中设置有有声模式和无声模式，在有声模式下，对深度神经网络进行训练；在无声模式下，包括：启动无声模式；采集用户的唇部图像；根据深度神经网络，识别唇部图像对应的内容；其中，深度神经网络是在有声模式下建立的。本发明实施例提供的技术方案在有声模式下训练深度神经网络，在无声模式下利用在有声模式下训练好的深度神经网络识别唇部图像对应的内容，解决了现有技术中用户进行发声通话导致的无法保护隐私和对周围人员造成的影响的技术问题，不仅保护了使用者的隐私，减少了对周围人群正常活动造成的影响，而且，在有声模式下训练深度神经网络，还能够节省训练时间以及提高训练准确度。

可选地，唇语识别方法还包括：步骤300、根据用于训练的唇部图像对应的语音数据，提取用户的语音特征。

具体的，步骤300可以发生在步骤100之后，或者还可以与步骤100同时发生。

可选地，语音特征包括：音色、音调或音量。

可选地，唇语识别方法还包括：根据用户的语音特征和唇部图像对应的内容，合成带有用户特色的语音数据。

在本实施例中，通过合成带有用户特色的语音数据，能够使得通信对端感觉到与用户真实的有声语音通话一样的通话效果，提高了用户体验。

实施例二

基于上述实施例的发明构思，图2为本发明实施例提供的移动终端的一个结构示意图，如图2所示，本发明实施例提供的移动终端设置有有声模式和无声模式，移动终端包括：采集模块10和处理模块20。

具体的，在无声模式下，采集模块10，被配置为采集用户的唇部图像；处理模块20，与采集模块10通讯连接，被配置为根据深度神经网络，识别唇部图像对应的内容。

其中，深度神经网络是在有声模式下建立的。

需要说明的是，启动无声模式的条件为用户输入的唇语识别开启指令，例如点击显示屏上预置的虚拟按键，或者是语音开始识别指令，还可以是本地终端在呼入的语音中包含了相应关键字、关键词或者关键句子，例如：当我说出，“我现在不方便说话”或者“秘密”等，则可以将“秘密”或者“不方便”均可作为启动条件。

可选地，在有声模式下，采集模块10，被配置为采集用于训练的唇部图像和对应的语音数据；处理模块20，被配置为根据用于训练的唇部图像，获得对应的图像数据，图像数据包括像素信息；根据图像数据和语音数据训练深度神经网络。

可选地，在有声模式下，采集模块10，被配置为采集用于训练的唇部图像和对应的语音数据；处理模块20，被配置为根据用于训练的唇部图像，获得对应的图像数据；根据用于训练的唇部图像对应的语音数据，获得对应的文字编码；根据图像数据和文字编码训练深度神经网络。

可选地，图3为本发明实施例提供的移动终端的结构示意图，如图3所示，移动终端包括：采集模块包括：摄像装置11和麦克装置12，具体的，摄像装置用于采集唇语图像和用于训练的唇部图像，麦克装置用于采集用于训练的语音数据。

可选地，摄像装置11包括：照相机或摄像头，需要说明的是，摄像装置可以设置在移动终端的底端，还可以设置在移动终端的侧面，可以是左侧边缘，还可以是右侧边缘，本发明并不对摄像装置的位置进行限定，图3是以摄像装置在移动终端的底端为例进行说明的。

可选地，麦克装置12包括：麦克风，需要说明的是，麦克装置设置在移动终端的底部。

另外，为了获取唇部图像时不影响麦克风采集语音数据，需要将摄像装置设置在麦克装置的左侧。

可选地，处理模块20具体被配置为对唇部图像对应的图像数据采用深度神经网络，识别唇部图像对应的文字编码。

可选地，唇语图像对应的内容包括：唇语图像对应的语音数据或文字编码，需要说明的是，唇语图像对应的内容根据对深度神经网络的训练方式确定。

具体的，若采用图像数据和语音数据进行训练，则唇语图像对应的内容为语音数据，若采用图像数据和文字编码进行训练，则唇语图像对应的内容为文字编码。

本发明实施例提供的移动终端中设置有有声模式和无声模式，移动终端包括：采集模块和处理模块，在无声模式下，采集模块，被配置为采集用户的唇部图像；处理模块，与采集模块通讯连接，被配置为根据深度神经网络，识别唇部图像对应的内容，其中，深度神经网络是在有声模式下建立的。本发明实施例提供的技术方案在有声模式下训练深度神经网络，在无声模式下利用在有声模式下训练好的深度神经网络识别唇部图像对应的内容，解决了现有技术中用户进行发声通话导致的无法保护隐私和对周围人员造成的影响的技术问题，不仅保护了使用者的隐私，减少了对周围人群正常活动造成的影响，而且，在有声模式下训练深度神经网络，还能够节省训练时间以及提高训练准确度。

可选地，图4为本发明实施例提供的移动终端的另一结构示意图，如图4所示，移动终端还包括：特征提取模块30，特征提取模块30与采集模块10通讯连接。

特征提取模块30，被配置为根据用于训练的唇部图像对应的语音数据，获得用户的语音特征。

可选地，语音特征包括：音色、音调或音量。

具体的，移动终端还包括：语音合成模块40，语音合成模块40与特征提取模块30和处理模块20通讯连接。

语音合成模块40被配置为根据语音特征和唇部图像对应的内容，合成带有用户特色的语音数据。

可选地，移动终端还包括：发送模块和接收模块(图中未示出)。

可选地，发送模块，被配置为将合成后的语音数据进行编码通过无线方式发送至通信基站。

可选地，接收模块，被配置为从通信基站接收到信号并进行解码，转换为用户可识别的语音数据。

另外，移动终端还包括：听筒，用于将接收模块转换的用户可识别的语音数据进行播放。

下面以通过图像数据和文本编码对深度神经网络进行训练为例通过对移动终端的工作原理的描述进一步说明本发明实施例的技术方案。

1、有声模式：

在有声通信时，摄像装置采集用户的唇部图像，麦克风采集唇部图像对应的语音数据，处理模块根据用户的唇部图像得到图像数据，根据对应的语音数据得到文字编码，根据图像数据和文字编码训练深度神经网络，并将训练结果保存，来指导无声模式时识别唇部图像的功能，另外，语音识别模块还对唇部图像对应的语音数据进行特征提取，获得用户的语音特征，并进行保存。

2、无声模式：

当用户不方便进行无声通话时，启动无声模式，摄像装置采集用户的唇部图像，处理模块根据唇部图像获得图像数据，根据图像数据采用深度神经网络识别到唇部图像对应的文字编码，将识别到的文字编码传递给语音合成模块，语音合成模块通过合成有声模式下保存的语音特征和识别到的文字编码，合成具有用户特色的语音数据，发送模块对具有用户特色的语音数据进行编码通过无线方式发送至通信基站，接收模块接收通信基站的信号进行解码，通过听筒对解码后的信号进行播放。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种唇语识别方法，其特征在于，应用在移动终端中，所述移动终端设置有有声模式和无声模式；

在所述有声模式下，对深度神经网络进行训练；所述对深度神经网络进行训练包括：采集用于训练的唇部图像和对应的语音数据；

其中，所述深度神经网络是在有声模式下建立的；

所述方法还包括：

根据用于训练的唇部图像对应的语音数据，提取用户的语音特征，所述语音特征包括：音色或音调。

2.根据权利要求1所述的方法，其特征在于，所述对深度神经网络进行训练还包括：

根据所述图像数据和所述语音数据训练所述深度神经网络。

3.根据权利要求1所述的方法，其特征在于，所述对深度神经网络进行训练还包括：

根据所述图像数据和所述文字编码训练所述深度神经网络。

4.根据权利要求3所述的方法，其特征在于，所述根据深度神经网络，识别所述唇部图像对应的内容包括：

根据所述唇部图像，获得唇部图像对应的图像数据；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种移动终端，其特征在于，所述移动终端设置有有声模式和无声模式，所述移动终端包括：采集模块和处理模块；

在有声模式下，所述采集模块，被配置为采集用于训练的唇部图像和对应的语音数据；

其中，所述深度神经网络是在有声模式下建立的；

所述移动终端还包括：特征提取模块；

所述特征提取模块，被配置为根据用于训练的唇部图像对应的语音数据，获得用户的语音特征；所述语音特征包括：音色或音调。

7.根据权利要求6所述的移动终端，其特征在于，所述处理模块，被配置为根据用于训练的唇部图像，获得对应的图像数据，所述图像数据包括像素信息；根据所述图像数据和所述语音数据训练所述深度神经网络。

8.根据权利要求6所述的移动终端，其特征在于，所述处理模块，被配置为根据用于训练的唇部图像，获得对应的图像数据；根据用于训练的唇部图像对应的语音数据，获得对应的文字编码；根据所述图像数据和所述文字编码训练所述深度神经网络。

9.根据权利要求8所述的移动终端，其特征在于，所述处理模块具体被配置为对所述唇部图像对应的图像数据采用深度神经网络，识别所述唇部图像对应的文字编码。

10.根据权利要求6所述的移动终端，其特征在于，所述移动终端还包括语音合成模块；

所述语音合成模块被配置为根据所述语音特征和所述唇部图像对应的内容，合成带有用户特色的语音数据。

11.根据权利要求10所述的移动终端，其特征在于，所述采集模块包括：摄像装置；

所述摄像装置设置在移动终端的底部。