CN108320318B

CN108320318B - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN108320318B
Application number: CN201810036627.0A
Authority: CN
Inventors: 程培; 傅斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2023-07-28
Anticipated expiration: 2038-01-15
Also published as: CN108320318A

Abstract

本申请涉及一种图像处理方法，该方法包括：获取目标图像，所述目标图像中包括目标主体，对所述目标图像中的目标主体进行识别，识别出目标主体区域，实时采集语音数据，将采集到的所述语音数据识别为文本，根据所述目标主体区域，确定所述文本呈现的起始位置，以所述起始位置为起点将所述文本展示在所述目标图像中。该图像处理方法通过将采集到的语音数据转换为文本，然后将文本展示在图像中，不需要进行额外的编辑操作，即可实现将文字添加到采集的图像中，操作简便。此外，还提出了一种图像处理装置、计算机设备及存储介质。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机处理技术领域，特别是涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

随着终端的发展，尤其是移动终端的发展，利用移动终端中的摄像装置进行拍照或拍摄视频已经成为了普遍现象。但是传统的利用移动终端进行拍摄照片或拍摄视频只能简单地进行拍摄，用户如果想要在拍摄的图片中添加内容，需要后期通过修图工具进行编辑处理，操作繁琐。

发明内容

基于此，有必要针对上述问题，提出了一种操作便捷的图像处理方法、装置、计算机设备及存储介质。

一种图像处理方法，所述方法包括：

获取目标图像，所述目标图像中包括目标主体；

对所述目标图像中的目标主体进行识别，识别出目标主体区域；

实时采集语音数据，将采集到的所述语音数据识别为文本；

根据所述目标主体区域，确定所述文本呈现的起始位置；

以所述起始位置为起点将所述文本展示在所述目标图像中。

一种图像处理装置，所述装置包括：

获取模块，用于获取目标图像，所述目标图像中包括目标主体；

图像识别模块，用于对所述目标图像中的目标主体进行识别，识别出目标主体区域；

语音识别模块，用于实时采集语音数据，将采集到的所述语音数据识别为文本；

位置确定模块，用于根据所述目标主体区域，确定所述文本呈现的起始位置；

展示模块，用于以所述起始位置为起点将所述文本展示在所述目标图像中。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取目标图像，所述目标图像中包括目标主体；

实时采集语音数据，将采集到的所述语音数据识别为文本；

根据所述目标主体区域，确定所述文本呈现的起始位置；

以所述起始位置为起点将所述文本展示在所述目标图像中。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取目标图像，所述目标图像中包括目标主体；

实时采集语音数据，将采集到的所述语音数据识别为文本；

根据所述目标主体区域，确定所述文本呈现的起始位置；

以所述起始位置为起点将所述文本展示在所述目标图像中。

上述图像处理方法、装置、计算机设备及存储介质，获取目标图像，对目标图像中的目标主体进行识别，识别出目标主体区域，同时实时采集语音数据，将采集到的语音数据识别为文本，然后根据目标主体区域确定文本呈现的起始位置，以起始位置为起点将文本展示在目标图像中。该图像处理方法通过实时将语音数据转换为文本，然后将文本展示在目标图像中，不需要进行额外的编辑即可实现将文字添加到采集的图像中，操作简便，且根据目标主体区域确定文本在图像中的起始位置，使得文本与图像的展示能够动态结合。

一种图像处理方法，所述方法包括：

获取目标图像，所述目标图像中包括嘴部；

检测所述目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本；

将识别得到的文本同步展示在所述目标图像中。

一种图像处理装置，所述装置包括：

图像获取模块，用于获取目标图像，所述目标图像中包括嘴部；

唇语识别模块，用于检测所述目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本；

同步展示模块，用于将识别得到的文本同步展示在所述目标图像中。

获取目标图像，所述目标图像中包括嘴部；

将识别得到的文本同步展示在所述目标图像中。

获取目标图像，所述目标图像中包括嘴部；

将识别得到的文本同步展示在所述目标图像中。

上述图像处理方法、装置、计算机设备及存储介质，通过获取目标图像，检测目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本，然后将识别得到的文本同步展示在目标图像中。上述图像处理方法，通过识别图像中的嘴部动作进行唇语识别，并将相应的文本与嘴部动作进行同步展示，实现了简便地将文本添加到图像中，并能够实现将文本与嘴巴动作保持一致。

附图说明

图1为一个实施例中图像处理方法的流程图；

图2A为一个实施例中第一个词语展示在目标图像中界面示意图；

图2B为一个实施例中将上一个词语进行偏离展示，下一个词语展示在起始位置的界面示意图；

图2C为一个实施例中多个词语层析在目标图像的界面示意图；

图3为一个实施例中片段文本展示在目标图像中的界面示意图；

图4为另一个实施例中图像处理方法的流程图；

图5为一个实施例中提取到的人脸特征点的示意图；

图6为一个实施例中根据粒子参数控制文本图片以起始展示位置为起点进行动态展示的方法流程图；

图7为一个实施例中粒子***的粒子渲染流程示意图；

图8为另一个实施例中根据粒子参数控制文本图片以起始展示位置为起点进行动态展示的方法流程图；

图9为另一个实施例中图像处理方法的流程图；

图10为一个实施例中图像处理方法的流程示意图；

图11为一个实施例中图像中呈现吐字的效果示意图；

图12为再一个实施例中图像处理方法的流程图；

图13为还一个实施例中图像处理方法的流程图；

图14为一个实施例中图像处理装置的结构框图；

图15为另一个实施例中图像处理装置的结构框图；

图16为又一个实施例中图像处理装置的结构框图；

图17为一个实施例中展示模块的结构框图；

图18为还一个实施例中图像处理装置的结构框图；

图19为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，在一个实施例中，提供了一种图像处理方法。本实施例主要以该方法应用于终端举例说明。参照图1，该图像处理方法具体包括如下步骤：

步骤S102，获取目标图像，目标图像中包括目标主体。

其中，目标图像是指待处理的图像。目标图像的采集方式可以通过拍摄照片的形式，也可以是通过拍摄视频的形式来获取，因为视频可以看作是一帧帧的图片组成的。图像的采集可以通过终端中的前置或后置摄像头来进行采集。目标主体是指图像中待识别的目标物。目标主体可以自定义设置，比如，可以将目标主体设置为人，也可以设置为人脸，还可以更细化地设为嘴巴，当然也可以设置为动物、树木等等，具体可以根据实际情况需求进行自定义设置。目标图像可以是实时采集的图像或视频，也可以是拍摄后的图像或视频。在一个实施例中，获取的目标图像是通过调用摄像头获取的待拍摄的预览图像，预览图像是指尚未保存的图像。

步骤S104，对目标图像中的目标主体进行识别，识别出目标主体区域。

其中，采用目标主体识别方法对目标图像中的目标主体进行识别，比如，假设目标主体为人脸，则采用人脸识别方法对目标图像中的人脸进行识别。识别出目标主体所在的区域，便于后续根据目标主体区域来确定文本的的展示位置。

步骤S106，实时采集语音数据，将采集到的语音数据识别为文本。

其中，语音数据是通过终端中的麦克风实时采集用户语音得到的。接收到用户的语音后，采用语音识别技术对采集到的语音数据进行识别得到文本。文本是指根据语音数据识别得到的文字序列。语音识别技术是采用现有的技术来实现的，比如，对于IOS***，可以通过调用SpeechKit(语音识别工具)中的API来进行语音识别操作。对于安卓***，可以通过调用其他语音识别接口来实现。这里，并不对语音数据的识别进行限定。

步骤S108，根据目标主体区域，确定文本呈现的起始位置。

其中，可以预先设置目标主体与文本之间的位置关系，在采集图像的过程中，当获取到目标主体的位置后就可以确定文本的起始展示位置，然后根据文本的起始展示位置将相应的文本展示在图像中。比如，预先设置将文本的起始位置设置在目标主体的左上方，在确定了目标主体的位置后，就可以确定文本所在的起始位置，在获取到文本后，就可以将文本相应地展示到对应的起始位置。在一个实施例中，还包括一个文本展示框，在确定了目标主体的位置后，首先确定文本展示框的位置，然后将文本展示在文本展示框中，文本展示框的大小可以根据文本的长度进行自动调整。

步骤110，以起始位置为起点将文本展示在目标图像中。

其中，起始位置是指文本的起始展示位置。在确定了文本的起始位置后，将文本以起始位置为起点将文本展示在目标图像中。

上述图像处理方法，获取目标图像，对目标图像中的目标主体进行识别，识别出目标主体区域，同时实时采集语音数据，将采集到的语音数据识别为文本，然后根据目标主体区域确定文本呈现的起始位置，以起始位置为起点将文本展示在目标图像中。该图像处理方法通过实时将语音数据转换为文本，然后将文本展示在目标图像中，不需要进行额外的编辑即可实现将文字添加到采集的图像中，操作简便，且根据目标主体区域确定文本在图像中的起始位置，使得文本与图像的展示能够动态结合。

在一个实施例中，以起始位置为起点将文本展示在目标图像中的步骤包括：当语音数据对应的文本形成词语时，将词语展示在起始位置；当语音数据对应的文本形成下一个词语时，将历史展示的词语向偏离起始位置的方向移动并展示；将下一个词语根据起始位置展示，重复进入当语音数据对应的文本形成下一个词语时的步骤，随着语音数据采集时间的推移以词语移动的方式实时地展示语音数据对应的文本。

其中，实时采集语音数据，当采集到的语音数据对应的文本能够形成词语时，便将词语展示在起始位置，然后当语音数据对应的文本形成下一个词语时，则将历史展示的词语向偏离起始位置的方向移动，同时将下一个词语根据起始位置展示。下一个词语可以直接展示在起始位置，也可以展示在起始位置的附近。随着时间的推移，根据采集到的语音数据不断地形成词语，则不断地将词语按照这样的词语移动方式实时地展示在图像中。如图2A为一个实施例中，将形成的第一个词语展示在目标图像中的起始位置的界面示意图，图2B为形成下一个词语，将上一个词语向偏离起始位置展示，且将下一个词语展示在起始位置的界面示意图，图2C为随着时间的推移有多个词语呈现在目标图像的界面示意图。

在一个实施例中，以起始位置为起点将文本展示在目标图像中的步骤包括：将实时采集的语音数据分段形成语音片段，获取语音片段对应的片段文本；将片段文本展示在起始位置；获取下一个语音片段对应的下一个片段文本，将历史展示的片段文本向偏离起始位置的方向移动并展示；将下一个片段文本根据起始位置展示，重复进入获取下一个语音片段对应的下一个片段文本的步骤，随着语音数据采集时间的推移以片段文本移动的方式实时地展示语音数据对应的文本。

其中，实时采集语音数据，当实时采集的语音数据分段形成语音片段时，获取语音片段对应的片段文本，将识别出的当前片段文本展示在起始位置。其中，语音数据分段的方法可以通过采用静音检测的方法，当出现静音时，则认为静音前面的语音数据为一个语音片段。也可以通过语义识别将表述完整意思的一句话识别为一个语音片段。当获取到下一个语音片段对应的下一个片段文本时，将历史展示的片段文本向偏离起始位置的方向移动展示，同时将该下一个片段文本根据起始位置展示。在一个实施例中，可以将下一片段直接展示在起始位置，在另一个实施例中，也可以设置下一片段展示在起始位置附近。依次类推，按照这样的方式，不断地将形成的片段文本以移动的方式实时地展示在目标图像中。如图3为一个实施例中片段文本展示在目标图像中的界面示意图。

在一个实施例中，上述图像处理方法还包括：将所述文本进行分词处理，得到多个子文本；所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：根据各个子文本对应的语音时间戳确定所述各个子文本对应的起始展示时间；根据各个子文本对应的起始展示时间将各个子文本以所述起始位置为起点按照预设的轨迹随着时间的推移进行动态展示。

其中，分词是指将文字序列切分成一个一个单独的词，单独的词可以是一元词、也可以是多元词。一元词是指一个一个的单词，多元词是指二元及二元以上的词。对文本进行分词处理得到多个子文本。具体地，首先将实时采集的语音数据识别为文本，然后对文本进行分词处理得到多个子文本，根据每个子文本对应的语音时间戳确定各个子文本对应的起始展示时间。语音时间戳是指文本对应的语音数据的采集时间。

在一个实施例中，可以根据子文本对应的语音数据的语音时间戳的先后顺序确定子文本展示的先后顺序。具体地，可以设置语音时间戳与起始展示时间之间的关系，比如，语音时间戳与起始展示时间成正相关，即语音时间戳代表的时间越早，相应的子文本的起始展示时间越早。

在另一个实施例中，对于在同一时间段内(比如，1秒)的多个子文本，可以进行乱序展示，因为同一时间段内的多个子文本组合表达了一个意思，虽然乱序但是却依然可以看出表达的意思，做到“乱中有序”。比如，“你真漂亮”，如果对应生成了三个子文本，分别为“你”、“真”和“漂亮”，那么在展示时，如果进行乱序，比如，“漂亮”、“真”、“你”，依然能够看出“你真漂亮”的意思，而且通过这样的乱序，进一步增加了展示的趣味性。

在确定了各个子文本的起始展示时间后，根据各个子文本对应的起始展示时间将各个子文本按照预设的轨迹以起始位置为起点随着时间的推移进行动态展示。

在一个实施例中，在将文本进行分词处理，得到多个子文本的步骤之后还包括：根据语义识别从多个子文本中提取出关键文本。

以起始位置为起点将文本展示在目标图像中的步骤包括：根据各个关键文本对应的语音时间戳确定各个关键文本对应的起始展示时间；根据各个关键文本对应的起始展示时间将各个关键文本以起始位置为起点按照预设的轨迹随着时间的推移进行动态展示。

其中，关键文本是指通过语义识别得到的关键词。识别得到关键文本后，根据关键文本对应的语音时间戳来确定各个关键文本对应的起始展示时间，继而只将关键文本根据起始展示时间以起始位置为起点按照预设的轨迹随着时间的推移进行动态展示。由于切分得到的子文本可能很长，不需要将所有的文字都展示出来，只需要提取出关键文本进行展示即可。比如“这个夏天真的很热！”，根据语义提取到关键文本“夏天真的热”，可以只将关键文本展示处理即可。

如图4所示，在一个实施例中，上述图像处理方法还包括：

步骤S112，获取拍摄指令，根据拍摄指令获取当前图像和展示在当前图像中的当前文本。

其中，对于实时采集的目标图像，如果想要将目标图像进行保存，还需要获取拍摄指令，拍摄指令是拍摄当前图像的指令，即拍摄照片的指令。拍摄指令是通过检测用户触发拍摄按钮的操作得到的。终端获取到拍摄指令后，获取当前图像和展示在当前图像中的当前文本，当前图像是指当前拍摄时刻对应的图像，当前文本是指当前拍摄时刻对应的展示在图像中的文本。

步骤S114，根据当前文本的当前展示位置，将当前文本与当前图像合成形成合成图像，并保存合成图像。

其中，为了能够获取到包含有当前文本和当前图像的合成图像，根据当前文本在当前图像中的当前展示位置，将当前文本和当前图像进行合成并进行保存得到合成图像。

在一个实施例中，上述图像处理方法还包括：获取起始拍摄指令，根据所述起始拍摄指令不断地将展示在图像中的文本和图像合成形成各个合成图像帧，并保存各个合成图像帧；获取结束拍摄指令，根据所述各个合成图像帧形成合成视频。

其中，起始拍摄指令是指拍摄视频的起始指令。获取到起始拍摄指令后，不断地获取当前图像和当前图像中的当前文本生成合成图像帧，合成图像帧是指拍摄视频的视频帧，即每一视频帧为一个合成图像。当前图像是指当前时刻对应的图像，当前文本是指当前时刻对应的文本，随着时间的变化，当前时刻不断变化，所以不断地将展示在当前图像中的文本和当前图像合成得到合成图像帧，并实时保存各个合成图像帧。结束拍摄指令是指拍摄视频的结束指令。合成视频是由一帧帧连续的合成图像帧组成的。获取到结束拍摄指令后，停止拍摄，并根据保存的各个合成图像帧生成合成视频。

在一个实施例中，目标主体为人脸；所述识别所述图像中的目标主体的步骤包括：提取所述图像中的人脸特征点，根据所述人脸特征点确定人脸的位置。

其中，将人脸作为目标主体，为了识别图像中的人脸，首先，提取图像中人脸特征点，人脸特征点也称人脸关键点，其用于定位人脸的位置，其中人脸的位置包括但不限于眼睛、嘴巴、鼻子、眉毛等脸部位置。根据提取到的人脸特征点就可以确定人脸所在的位置。具体地，可以采用人脸标记定位技术来提取人脸图像中的人脸特征点，具体可以分为两个步骤，一个是人脸检测，一个是人脸标记。首先通过人脸检测获取图像中人脸所处的粗略位置，一般是框住人脸的一个矩形框，然后在该矩形框的基础上，通过人脸标记寻找更精密的位置，然后返回一系列人脸特征点位置的坐标。如图5所示，为一个实施例中，通过标记定位得到的人脸特征点的示意图。人脸标记定位的方法可以采用现有的方法，比如可以采用AAM(Active Appearance Models人脸外观模型)、ERT(Ensemble of Regression tree，回归树组合)等。这里并不对人脸标记定位的方法进行限制。

在一个实施例中，所述在采集图像的过程中根据所述目标主体的位置将所述文本展示在所述图像中的步骤包括：根据所述人脸特征点中代表嘴部的特征点确定嘴部位置，根据所述嘴部位置确定所述文本的展示位置，根据所述展示位置将所述文本展示在所述图像中。

其中，人脸特征点中包含有嘴部的特征点，从人脸特征点中提取出代表嘴部的特征点，然后根据嘴部的特征点就可以确定嘴部位置。预先设置文本的展示位置与嘴部位置之间的对应关系，当确定了嘴部位置后，根据嘴部位置确定文本的展示位置，然后将文本展示在展示位置。由于人是由嘴巴来说话的，所以将相应的文本展示在嘴巴周围，可以营造出用户说话的情景。通过利用该特征，可以在拍照或拍视频的同时，通过录入语音数据，来自动添加一些表达自己心情或描述场景画面的文本，增加了拍摄的趣味性。

在一个实施例中，以起始位置为起点将文本展示在目标图像中的步骤包括：根据所述文本对应的展示控制参数控制所述文本以所述起始位置为起点进行动态展示。

其中，展示控制参数是指用于控制文本进行动态展示的参数。展示控制参数包括速度参数、角度参数、颜色参数、大小参数、时间参数中的至少一种。其中，速度参数包括初速度、加速度等用于控制运动速度的参数，其中，初速度、加速度是矢量，即是带有方向的速度和加速度，所以根据速度参数和起始位置就可以计算得到文本的运动速度和位置。角度参数包括旋转角度参数，即根据该角度参数控制文本进行角度的旋转运动。颜色参数用于控制文本的颜色展示变化。大小参数用于控制文本的大小的展示变化，时间参数用于控制文本的展示时长。具体地，根据文本对应的展示控制参数控制文本以初始展示位置为起点进行动态展示，其中，动态展示包括位置变动、角度变化、颜色变化、大小变化、停留时间等中的至少一种动态。

在一个实施例中，根据文本对应的展示控制参数控制文本以初始展示位置为起点进行动态展示的步骤包括：获取前向帧图像中文本的展示位置；根据展示控制参数和前向帧图像中文本的展示位置计算得到当前帧图像中文本的目标位置，在当前帧图像中的目标位置展示文本。

其中，如果文本在图像中是以运动的方式进行展示时，其运动的位置是需要根据展示控制参数和前向帧图像中文本的展示位置进行实时计算得到，前向帧图像是指处于当前帧前面的图像帧。在一个实施例中，展示控制参数中包括有初速度、加速度等用于控制运动速度的参数，根据前向帧图像中文本的位置，就可以计算得到当前帧图像中文本的展示位置。在一个实施例中，假设任一前向帧图像中文本的位置为A，该前向帧对应的时间为t1，初始时刻设为t0，假设初速度为v0，加速度为a，且假设初速度和加速度方向一致，当前帧图像对应的时间为t2。那么就可以通过如下公式计算得到当前帧图像中文本的位置B，S＝v0(t2-t1)+a(t2-t1)(t2+t1)/2，在已知前向帧的位置A的前提下，计算得到A与B之间的距离S，且已知运动方向，便可计算得到B位置。

在一个实施例中，在采集语音数据，在所述实时采集语音数据，将采集到的所述语音数据识别为文本的步骤之后还包括：将文本转换为文本图片。其中，在将语音数据识别得到文本后，将文本转换为文本图片。在一个实施例中，文本图片的背景色为透明。

在一个实施例中，所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤S110包括：将文本图片作为粒子***中的粒子，根据粒子***中预先设置的粒子参数控制文本图片以起始位置为起点进行动态展示。

其中，将转换成的文本图片作为粒子***中的粒子。粒子***是指表示三维计算机图形学中模拟一些特定的模糊现象的技术，粒子是在三维空间中渲染的二维图形，它们主要用于诸如烟、火、水滴或树叶等效果。一个粒子***是由三个部分组成的：粒子发射器、粒子动画器和粒子渲染去。其中，粒子发射器用于控制粒子的产生以及初始状态。粒子动画器用于随着时间控制粒子的运动状态，粒子渲染器将它们绘制在屏幕上。其中，粒子发射器和粒子动画器主要是由一组粒子参数来表示的。粒子参数可以包括粒子生成速度(即单位时间粒子生成的数目)，粒子初始速度向量(例如，什么时候向什么方向运动)、粒子寿命(经过多长时间粒子湮灭)、粒子颜色、在粒子生命周期中的变化(比如，大小的变化)等等用于控制粒子变化的参数。

如图6所示，在一个实施例中，粒子参数包括速度参数、角度参数、颜色参数、大小参数、时间参数中的至少一种；

根据所述粒子***中预先设置的粒子参数控制所述文本图片以所述起始位置为起点进行动态展示的步骤包括：

步骤S602，获取前向帧图像中文本图片状态，文本图片状态包括文本的位置、大小、角度、颜色中的至少一种。

其中，前向帧图像是指处于当前帧前向的图像帧。文本图片状态包括文本图片的位置、大小、角度、颜色中的至少一种。具体地，为了计算得到当前帧图像中的文本图片所处的状态，需要根据粒子参数和前向帧图像中的文本图片状态进行计算得到。

步骤S604，根据粒子参数和前向帧图像中文本图片状态计算得到当前帧图像中文本图片状态，根据当前帧图像中文本图片状态展示文本图片。

其中，粒子参数包括速度参数、角度参数、颜色参数、大小参数、时间参数中的至少一种。其中，速度参数用于控制粒子的运动速度和方向，可以根据速度参数计算得到粒子当前所处的位置。角度参数用于控制粒子的旋转角度以及旋转速度，根据角度参数可以计算得到粒子当前所处的角度。颜色参数用于控制粒子的颜色的展示。大小参数用于控制粒子的大小以及相应的变化。时间参数用于控制粒子的寿命，即粒子生存的时间。在计算得到前向帧图像中文本图片状态后，可以根据文本图片状态和粒子参数计算得到当前帧图像中文本图片状态，进而根据当前帧图像中文本图片状态来展示文本图片，即计算得到当前文本图片的位置、大小、角度、颜色，然后进行展示。

在一个实施例中，粒子参数只包含有速度参数。那么文本图片状态除了位置在变化，其他都保持不变。获取到的前向视频帧的文本图片状态也只有位置，根据前向视频帧中文本图片的位置和速度参数计算得到当前帧视频图像中文本图片的位置。

在一个实施例中，前向帧图像采用当前帧的前一帧图像，即根据前一帧图像中文本图片的状态计算当前帧图像中文本图片的状态，并调用粒子渲染器根据当前帧图像中文本图片的状态进行渲染。如图7为一个实施例中粒子***的粒子渲染流程示意图，首先，获取文本图片的初始状态，即第一帧图像中文本图片的状态，然后，通过根据前一帧图像中文本图片的状态计算当前帧图像中文本图片的状态的原理进行计算，最后，将相应的文本图片进行渲染绘制在屏幕上。

在一个实施例中，将文本转换为文本图片的步骤包括：对文本进行切词处理，得到多个展示词，每个展示词对应生成一个文本图片，得到多个文本图片。

其中，切词又称为“分词”，是指将文字序列切分成一个一个单独的词，单独的词可以是一元词、也可以是多元词。一元词是指一个一个的单词，多元词是指二元及二元以上的词，包含了词与词之间的前后顺序关系的词组。切分得到词称为“展示词”。每个展示词对应生成一个文本图片，这样得到多个文本图片。

在一个实施例中，将文本转换为文本图片的步骤包括：根据语义识别出文本中的目标关键词；将目标关键词转换为文本图片。

其中，目标关键字是指通过语义识别得到的需要重点处理的词。识别得到目标关键词后，将目标关键词转换为文本图片。比如“这个夏天真的很热！”，根据语义提取到关键词“夏天”、“真的”、“热”，后续针对目标关键词进行重点显示，对于非目标关键字，比如，“这个”、“很”可以进行淡化显示或者不显示。

如图8所示，在一个实施例中，将文本图片作为粒子***中的粒子，根据粒子***中预先设置的粒子参数控制文本图片以起始展示位置为起点进行动态展示的步骤包括：

步骤S802，根据文本图片对应的语音数据的语音时间戳确定文本图片的起始展示时间。

其中，由于文本图片是由文本生成的，而文本又是通过对语音数据进行识别得到的，语音时间戳是指获取语音数据的时间。所以可以将语音时间戳作为文本图片对应的时间戳，以便根据文本图片对应的时间戳来确定相应的起始展示时间。在一个实施例中，可以根据文本图片对应的语音数据的语音时间戳的先后顺序确定文本图片展示的先后顺序。具体地，可以设置语音时间戳与起始展示时间之间的关系，比如，语音时间戳与起始展示时间成正相关，即语音时间戳代表的时间越早，相应的文本图片的起始展示时间越早。在另一个实施例中，对于在同一时间段内(比如，1秒)的多个文本图片，可以进行乱序展示，因为同一时间段内的多个文本图片组合表达了一个意思，虽然乱序但是却依然可以看出表达的意思，做到“乱中有序”。比如，“你真漂亮”，如果对应生成了三个文本图片，分别为“你”、“真”和“漂亮”，那么在展示时，如果进行乱序，比如，“漂亮”、“真”、“你”，依然能够看出“你真漂亮”的意思，而且通过这样的乱序，进一步增加了拍摄的趣味性。

步骤S804，根据每个文本图片对应的粒子参数分别控制相应的文本图片以起始展示位置和起始展示时间为起点状态进行动态展示。

其中，起始展示位置是指文本图片最初展示在图像中的位置，起始展示时间是指文本图片的起始时间。在确定了文本图片的起始展示时间和起始展示位置后，就可以根据文本图片对应的粒子参数进行动态展示。不同的文本图片对应的粒子参数可以相同，也可以不同。比如，对于所有粒子都可以设置相同的粒子参数，只是每个粒子的展示时间不同。针对不同的粒子也可以设置不同的粒子参数。

如图9所示，在一个实施例中，上述图像处理方法还包括：

步骤S116，记录采集到的每一帧视频图像的图像时间戳。

其中，图像时间戳是指采集到的每一视频帧对应的时间，即采集该视频图像的时间。具体地，终端在进行视频采集时，记录每一帧视频图像的采集时间，得到一系列视频图像对应的图像时间戳序列(time1，time2，time3……)，以便根据采集时间确定相应的先后顺序，

步骤S118，记录获取到的语音数据对应的语音时间戳，将相应的语音时间戳与识别出的文本进行关联。

其中，语音数据的语音时间戳是指采集语音数据时对应的时间，根据语音识别出文本后，将语音时间戳与识别出的文本进行关联存储。

步骤S120，根据图像时间戳和语音时间戳使得视频图像与相应的文本进行同步展示。

其中，为了使得视频图像与文本进行同步播放，根据图像时间戳和语音时间戳来确定文本的展示时间。具体地，将图像时间戳和语音时间戳一致的文本和图像进行同步展示。通过记录语音时间戳和图像时间戳实现了同步展示文本和图像，即实现了文字和口型同步。

如图10所示为一个实施例中图像处理方法的流程示意图，主要包括三个步骤：1，通过摄像头实时采集图像，对采集图像进行人脸检测，提取人脸特征点，根据人脸特征点确定嘴巴的位置；2，在采集图像的过程中，通过麦克风接收语音数据，然后对语音数据进行语音识别得到识别文本，然后将识别的文本转换为文本图片；3，将文本图片作为粒子***中的粒子，将粒子发射起始区域设置在嘴角附近，营造出实时“吐字”的效果。如图11为一个实施例中，实时“吐字”的效果示意图。其中，人脸识别可以通过调用人脸识别的SDK(SoftwareDevelopment Kit，软件开发工具包)实现，语音数据可以通过调用语音识别的SDK实现。

如图12所示，在一个实施例中，提出了一种图像处理方法，该方法包括以下步骤：

步骤S1201，获取目标图像，目标图像中包括人脸。

步骤S1202，提取目标图像中的人脸特征点，根据人脸特征点确定人脸区域。

步骤S1203，实时采集语音数据，将采集到的语音数据识别为文本。

步骤S1204，对文本进行切词处理，得到多个展示词，每个展示词对应生成一个文本图片，得到多个文本图片。

步骤S1205，根据人脸特征点中代表嘴部的特征点确定嘴部位置，根据嘴部位置确定文本图片的起始位置。

步骤S1206，根据文本图片对应的语音数据的语音时间戳确定文本图片的起始展示时间。

步骤S1207，将文本图片作为粒子***中的粒子，根据每个文本图片对应的粒子参数分别控制相应的文本图片以起始展示位置和起始展示时间为起点状态进行动态展示。

步骤S1208，获取拍摄指令，根据拍摄指令获取当前图像和展示在当前图像中的当前文本图片。

步骤S1209，根据当前文本图片的当前展示位置，将当前文本与当前图像合成形成合成图像，并保存合成图像。

如图13所示，在一个实施例中，提出一种图像处理方法，该方法包括：

步骤S1302，获取目标图像，目标图像中包括嘴部。

其中，目标图像是指待处理的图像。目标图像的采集方式可以通过拍摄照片的形式，也可以是通过拍摄视频的形式来获取，因为视频可以看作是一帧帧的图片组成的。图像的采集可以通过终端中的前置或后置摄像头来进行采集。目标图像可以是实时采集的图像或视频，也可以是拍摄后的图像或视频。在一个实施例中，获取的目标图像是通过调用摄像头获取的待拍摄的预览图像，预览图像是指尚未保存的图像。

步骤S1304，检测目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本。

其中，通过提取人脸特征点的形式确定嘴部的特征点，然后根据嘴部的特征点确定嘴部的位置和嘴部的动作。唇语识别是一项集机器视觉与自然语言处理于一体的技术，可以直接从人讲话的图像中识别出讲话的内容，即根据嘴部动作便可以识别得到对应的文本，其中，唇语识别可以通过调用唇语SDK来实现。SDK是指编写好的用于唇语识别的软件工具包。

步骤S1306，将识别得到的文本同步展示在目标图像中。

其中，通过实时对图像中嘴部动作进行识别得到文字，然后将识别得到的文字和对应的包含有相应嘴部动作的图像进行同步展示。

上述图像处理方法，通过获取目标图像，检测目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本，然后将识别得到的文本同步展示在目标图像中。上述图像处理方法，通过识别图像中的嘴部动作进行唇语识别，并将相应的文本与嘴部动作进行同步展示，实现了简便地将文本添加到图像中，并能够实现将文本与嘴巴动作保持一致。

在一个实施例中，将识别得到的文本同步展示在目标图像中的步骤包括：根据嘴部的位置确定文本的展示位置，将文本同步展示在目标图像中的展示位置。

其中，预先设置展示位置与嘴部位置之间的对应关系，在确定了嘴部的位置后，即确定了文本的展示位置，然后将文本同步展示在图像中的展示位置。通过将文本展示在嘴部周边，营造出一种实时吐字的效果。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图14所示，在一个实施例中，提出了一种图像处理装置，该装置包括：

获取模块1402，用于获取目标图像，所述目标图像中包括目标主体；

图像识别模块1404，用于对所述目标图像中的目标主体进行识别，识别出目标主体区域；

语音识别模块1406，用于实时采集语音数据，将采集到的所述语音数据识别为文本；

位置确定模块1408，用于根据所述目标主体区域，确定所述文本呈现的起始位置；

展示模块1410，用于以所述起始位置为起点将所述文本展示在所述目标图像中。

在一个实施例中，展示模块还用于当语音数据对应的文本形成词语时，将所述词语展示在所述起始位置；当语音数据对应的文本形成下一个词语时，将历史展示的词语向偏离所述起始位置的方向移动并展示；将所述下一个词语根据所述起始位置展示，重复进入所述当语音数据对应的文本形成下一个词语时的步骤，随着语音数据采集时间的推移以词语移动的方式实时地展示语音数据对应的文本。

在一个实施例中，展示模块还用于将实时采集的语音数据分段形成语音片段，获取所述语音片段对应的片段文本；将所述片段文本展示在所述起始位置；获取下一个语音片段对应的下一个片段文本，将历史展示的片段文本向偏离所述起始位置的方向移动并展示；将所述下一个片段文本根据所述起始位置展示，重复进入所述获取下一个语音片段对应的下一个片段文本的步骤，随着语音数据采集时间的推移以片段文本移动的方式实时地展示语音数据对应的文本。

如图15所示，在一个实施例中，所述装置还包括：

分词模块1412，用于将所述文本进行分词处理，得到多个子文本；

所述展示模块还用于根据各个子文本对应的语音时间戳确定所述各个子文本对应的起始展示时间，根据各个子文本对应的起始展示时间将各个子文本以所述起始位置为起点按照预设的轨迹随着时间的推移进行动态展示。

如图16所示，在一个实施例中，所述装置还包括：

提取模块1414，用于根据语义识别从所述多个子文本中提取出关键文本；

所述展示模块还用于根据各个关键文本对应的语音时间戳确定所述各个关键文本对应的起始展示时间；根据各个关键文本对应的起始展示时间将各个关键文本以所述起始位置为起点按照预设的轨迹随着时间的推移进行动态展示。

在一个实施例中，上述图像处理装置还包括：图像拍摄模块，用于获取拍摄指令，根据所述拍摄指令获取当前图像和展示在所述当前图像中的当前文本，根据当前文本的当前展示位置，将所述当前文本与所述当前图像合成形成合成图像，并保存所述合成图像。

在一个实施例中，上述图像处理装置还包括：视频拍摄模块，用于获取起始拍摄指令，根据所述起始拍摄指令不断地将展示在图像中的文本和图像合成形成各个合成图像帧，并保存各个合成图像帧，获取结束拍摄指令，根据所述各个合成图像帧形成合成视频。

在一个实施例中，所述目标主体为人脸；所述图像识别模块还用于提取所述图像中的人脸特征点，根据所述人脸特征点确定人脸的位置；所述展示模块还用于根据所述人脸特征点中代表嘴部的特征点确定嘴部位置，根据所述嘴部位置确定所述文本的展示位置，根据所述展示位置将所述文本展示在所述图像中。

在一个实施例中，展示模块还用于根据所述文本对应的展示控制参数控制所述文本以所述起始位置为起点进行动态展示。

在一个实施例中，所述展示模块还用于获取前向帧图像中文本的展示位置，根据所述展示控制参数和所述前向帧图像中文本的展示位置计算得到当前帧图像中文本的目标位置，在当前帧图像中的目标位置展示所述文本。

在一个实施例中，上述图像处理装置还包括：转换模块，用于将所述文本转换为文本图片；所述展示模块还用于将所述文本图片作为粒子***中的粒子，根据所述目标主体的位置确定所述文本图片的起始展示位置，根据所述粒子***中预先设置的粒子参数控制所述文本图片以所述起始展示位置为起点进行动态展示。

如图17所示，在一个实施例中，所述粒子参数包括速度参数、角度参数、颜色参数、大小参数、时间参数中的至少一种；

所述展示模块包括：

前向文本图片状态获取模块1410A，用于获取前向帧图像中文本图片状态，所述文本图片状态包括文本的位置、大小、角度、颜色中的至少一种；

文本图片展示模块1410B，用于根据所述粒子参数和所述前向帧图像中文本的状态计算得到当前帧图像中文本图片状态，根据所述当前帧图像中文本图片状态展示所述文本图片。

在一个实施例中，所述转换模块还用于对所述文本进行切词处理，得到多个展示词，每个展示词对应生成一个文本图片，得到多个文本图片。

在一个实施例中，所述转换模块还用于根据语义识别出所述文本中的目标关键词，将所述目标关键词转换为文本图片。

在一个实施例中，所述展示模块还用于根据所述文本图片对应的语音数据的语音时间戳确定所述文本图片的起始展示时间，根据每个文本图片对应的粒子参数分别控制相应的文本图片以所述起始展示位置和所述起始展示时间为起点状态进行动态展示。

在一个实施例中，上述图像处理装置还包括：同步展示模块，用于记录采集到的每一帧视频图像的图像时间戳，记录获取到的语音数据对应的语音时间戳，将相应的语音时间戳与识别出的文本进行关联，根据所述图像时间戳和所述语音时间戳使得视频图像与相应的文本进行同步展示。

如图18所示，在一个实施例中，提出了一种图像处理装置，该装置包括：

图像获取模块1802，用于获取目标图像，所述目标图像中包括嘴部。

唇语识别模块1804，用于检测所述目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本。

同步展示模块1806，用于将识别得到的文本同步展示在所述目标图像中。

在一个实施例中，所述同步展示模块1806还用于根据所述嘴部的位置确定所述文本的展示位置，将所述文本同步展示在所述图像中的展示位置。

图19示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器。如图19所示，该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置、图像采集装置、语音采集装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现图像处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行图像处理方法。计算机设备的图像采集装置为摄像头，用于采集图像，语音采集装置为麦克风，用于采集语音数据。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解，图19中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的图像处理方法可以实现为一种计算机程序的形式，计算机程序可在如图19所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像处理装置的各个程序模块，比如，图14所示的获取模块1402、图像识别模块1404、语音识别模块1406、位置确定模块1408和展示模块1410。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像处理装置中的步骤。例如，图19所示的计算机设备可以通过如图14所示的图像处理装置中的获取模块1402获取目标图像，所述目标图像中包括目标主体；通过图像识别模块1404对所述目标图像中的目标主体进行识别，识别出目标主体区域；通过语音识别模块1406实时采集语音数据，将采集到的所述语音数据识别为文本；通过位置确定模块1408根据所述目标主体区域，确定所述文本呈现的起始位置；通过展示模块1410以所述起始位置为起点将所述文本展示在所述目标图像中。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取目标图像，所述目标图像中包括目标主体；对所述目标图像中的目标主体进行识别，识别出目标主体区域；实时采集语音数据，将采集到的所述语音数据识别为文本；根据所述目标主体区域，确定所述文本呈现的起始位置；以所述起始位置为起点将所述文本展示在所述目标图像中。

在一个实施例中，所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：当语音数据对应的文本形成词语时，将所述词语展示在所述起始位置；当语音数据对应的文本形成下一个词语时，将历史展示的词语向偏离所述起始位置的方向移动并展示；将所述下一个词语根据所述起始位置展示，重复进入所述当语音数据对应的文本形成下一个词语时的步骤，随着语音数据采集时间的推移以词语移动的方式实时地展示语音数据对应的文本。

在一个实施例中，所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：将实时采集的语音数据分段形成语音片段，获取所述语音片段对应的片段文本；将所述片段文本展示在所述起始位置；获取下一个语音片段对应的下一个片段文本，将历史展示的片段文本向偏离所述起始位置的方向移动并展示；将所述下一个片段文本根据所述起始位置展示，重复进入所述获取下一个语音片段对应的下一个片段文本的步骤，随着语音数据采集时间的推移以片段文本移动的方式实时地展示语音数据对应的文本。

在一个实施例中，所述处理器还用于执行以下步骤：将所述文本进行分词处理，得到多个子文本；

所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：根据各个子文本对应的语音时间戳确定所述各个子文本对应的起始展示时间；根据各个子文本对应的起始展示时间将各个子文本以所述起始位置为起点按照预设的轨迹随着时间的推移进行动态展示。

在一个实施例中，所述处理器在执行所述将所述文本进行分词处理，得到多个子文本的步骤之后，还用于执行以下步骤：根据语义识别从所述多个子文本中提取出关键文本；所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：根据各个关键文本对应的语音时间戳确定所述各个关键文本对应的起始展示时间；根据各个关键文本对应的起始展示时间将各个关键文本以所述起始位置为起点按照预设的轨迹随着时间的推移进行动态展示。

在一个实施例中，所述处理器还用于执行以下步骤：获取拍摄指令，根据所述拍摄指令获取当前目标图像和展示在所述当前目标图像中的当前文本；根据当前文本的当前展示位置，将所述当前文本与所述当前目标图像合成形成合成图像，并保存所述合成图像。

在一个实施例中，所述处理器还用于执行以下步骤：获取起始拍摄指令，根据所述起始拍摄指令不断地将展示在目标图像中的文本和目标图像合成形成各个合成图像帧，并保存各个合成图像帧；获取结束拍摄指令，根据所述各个合成图像帧形成合成视频。

在一个实施例中，所述目标主体为人脸；所述对所述目标图像中的目标主体进行识别，识别出目标主体区域的步骤包括：提取所述图像中的人脸特征点，根据所述人脸特征点确定人脸区域；所述根据所述目标主体区域，确定所述文本呈现的起始位置的步骤包括：根据所述人脸特征点中代表嘴部的特征点确定嘴部位置，根据所述嘴部位置确定所述文本的起始位置。在一个实施例中，所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：根据所述文本对应的展示控制参数控制所述文本以所述起始位置为起点进行动态展示。

在一个实施例中，所述根据所述文本对应的展示控制参数控制所述文本以所述初始展示位置为起点进行动态展示的步骤包括：获取前向帧图像中文本的展示位置；根据所述展示控制参数和所述前向帧图像中文本的展示位置计算得到当前帧图像中文本的目标位置，在当前帧图像中的目标位置展示所述文本。

在一个实施例中，所述处理器在执行所述实时采集语音数据，将采集到的所述语音数据识别为文本的步骤之后，还用于执行以下步骤：将所述文本转换为文本图片；所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：将所述文本图片作为粒子***中的粒子，根据所述粒子***中预先设置的粒子参数控制所述文本图片以所述起始位置为起点进行动态展示。

在一个实施例中，所述粒子参数包括速度参数、角度参数、颜色参数、大小参数、时间参数中的至少一种；根据所述粒子***中预先设置的粒子参数控制所述文本图片以所述起始位置为起点进行动态展示的步骤包括：获取前向帧图像中文本图片状态，所述文本图片状态包括文本图片的位置、大小、角度、颜色中的至少一种；根据所述粒子参数和所述前向帧图像中文本图片状态计算得到当前帧图像中文本图片状态，根据所述当前帧图像中文本图片状态展示所述文本图片。

在一个实施例中，所述将所述文本图片作为粒子***中的粒子，根据所述粒子***中预先设置的粒子参数控制所述文本图片以所述起始位置为起点进行动态展示的步骤包括：根据所述文本图片对应的语音数据的语音时间戳确定所述文本图片的起始展示时间；根据每个文本图片对应的粒子参数分别控制相应的文本图片以所述起始位置和所述起始展示时间为起点状态进行动态展示。

在一个实施例中，所述处理器还用于执行以下步骤：记录采集到的每一帧视频图像的图像时间戳；记录获取到的语音数据对应的语音时间戳，将相应的语音时间戳与识别出的文本进行关联；根据所述图像时间戳和所述语音时间戳使得视频图像与相应的文本进行同步展示。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取目标图像，所述目标图像中包括嘴部；检测所述目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本；将识别得到的文本同步展示在所述目标图像中。

在一个实施例中，所述将识别得到的文本同步展示在所述目标图像中的步骤包括：根据所述嘴部的位置确定所述文本的展示位置，将所述文本同步展示在所述目标图像中的展示位置。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：获取目标图像，所述目标图像中包括目标主体；对所述目标图像中的目标主体进行识别，识别出目标主体区域；实时采集语音数据，将采集到的所述语音数据识别为文本；根据所述目标主体区域，确定所述文本呈现的起始位置；以所述起始位置为起点将所述文本展示在所述目标图像中。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：获取目标图像，所述目标图像中包括嘴部；检测所述目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本；将识别得到的文本同步展示在所述目标图像中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理方法，所述方法包括：

获取目标图像，所述目标图像中包括目标主体，目标主体是指图像中待识别的目标物；

采用目标主体识别方法对所述目标图像中的目标主体进行识别，识别出目标主体区域；

实时采集语音数据，将采集到的所述语音数据识别为文本；

根据所述目标主体区域，确定所述文本呈现的起始位置；

以所述起始位置为起点将所述文本展示在所述目标图像中，包括：将所述文本进行分词处理，得到多个子文本；根据各个子文本对应的语音时间戳确定所述各个子文本对应的起始展示时间；根据各个子文本对应的起始展示时间将各个子文本以所述起始位置为起点随着时间的推移进行动态展示，对于在同一时间段内的多个子文本，进行乱序展示。

2.根据权利要求1所述的方法，其特征在于，所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：

当语音数据对应的文本形成词语时，将所述词语展示在所述起始位置二

当语音数据对应的文本形成下一个词语时，将历史展示的词语向偏离所述起始位置的方向移动并展示；

将所述下一个词语根据所述起始位置展示，重复进入所述当语音数据对应的文本形成下一个词语时的步骤，随着语音数据采集时间的推移以词语移动的方式实时地展示语音数据对应的文本。

3.根据权利要求1所述的方法，其特征在于，所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：

将实时采集的语音数据分段形成语音片段，获取所述语音片段对应的片段文本；

将所述片段文本展示在所述起始位置；

获取下一个语音片段对应的下一个片段文本，将历史展示的片段文本向偏离所述起始位置的方向移动并展示二

将所述下一个片段文本根据所述起始位置展示，重复进入所述获取下一个语音片段对应的下一个片段文本的步骤，随着语音数据采集时间的推移以片段文本移动的方式实时地展示语音数据对应的文本。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据子文本对应的语音数据的语音时间戳的先后顺序确定子文本展示的先后顺序，语音时间戳与起始展示时间成正相关。

5.根据权利要求4所述的方法，其特征在于，在所述将所述文本进行分词处理，得到多个子文本的步骤之后还包括：

根据语义识别从所述多个子文本中提取出关键文本二

所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：

根据各个关键文本对应的语音时间戳确定所述各个关键文本对应的起始展示时间二

根据各个关键文本对应的起始展示时间将各个关键文本以所述起始位置为起点按照预设的轨迹随着时间的推移进行动态展示。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取拍摄指令，根据所述拍摄指令获取当前目标图像和展示在所述当前目标图像中的当前文本二

根据当前文本的当前展示位置，将所述当前文本与所述当前目标图像合成形成合成图像，并保存所述合成图像。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取起始拍摄指令，根据所述起始拍摄指令不断地将展示在目标图像中的文本和目标图像合成形成各个合成图像帧，并保存各个合成图像帧；

获取结束拍摄指令，根据所述各个合成图像帧形成合成视频。

8.根据权利要求1所述的方法，其特征在于，所述目标主体为人脸；

所述对所述目标图像中的目标主体进行识别，识别出目标主体区域的步骤包括：

提取所述图像中的人脸特征点，根据所述人脸特征点确定人脸区域二

所述根据所述目标主体区域，确定所述文本呈现的起始位置的步骤包括：根据所述人脸特征点中代表嘴部的特征点确定嘴部位置，根据所述嘴部位置确定所述文本的起始位置。

9.根据权利要求1所述的方法，其特征在于，所述以所述起始位置为起点将所述文本展示在所述目标图像中的步骤包括：

根据所述文本对应的展示控制参数控制所述文本以所述起始位置为起点进行动态展示。

10.根据权利要求9所述的方法，其特征在于，所述根据所述文本对应的展示控制参数控制所述文本以所述起始位置为起点进行动态展示的步骤包括：

获取前向帧图像中文本的展示位置二

根据所述展示控制参数和所述前向帧图像中文本的展示位置计算得到当前帧图像中文本的目标位置，在当前帧图像中的目标位置展示所述文本。

11.根据权利要求1所述的方法，其特征在于，在所述实时采集语音数据，将采集到的所述语音数据识别为文本的步骤之后还包括：

将所述文本转换为文本图片；

将所述文本图片作为粒子***中的粒子，根据所述粒子***中预先设置的粒子参数控制所述文本图片以所述起始位置为起点进行动态展示。

12.根据权利要求11所述的方法，其特征在于，所述粒子参数包括速度参数、角度参数、颜色参数、大小参数、时间参数中的至少一种；

获取前向帧图像中文本图片状态，所述文本图片状态包括文本图片的位置、大小、角度、颜色中的至少一种二

根据所述粒子参数和所述前向帧图像中文本图片状态计算得到当前帧图像中文本图片状态，根据所述当前帧图像中文本图片状态展示所述文本图片。

13.根据权利要求11所述的方法，其特征在于，所述将所述文本图片作为粒子***中的粒子，根据所述粒子***中预先设置的粒子参数控制所述文本图片以所述起始位置为起点进行动态展示的步骤包括：

根据所述文本图片对应的语音数据的语音时间戳确定所述文本图片的起始展示时间；

根据每个文本图片对应的粒子参数分别控制相应的文本图片以所述起始位置和所述起始展示时间为起点状态进行动态展示。

14.根据权利要求1至13中任一项所述的方法，其特征在于，所述方法还包括：

记录采集到的每一帧视频图像的图像时间戳；

记录获取到的语音数据对应的语音时间戳，将相应的语音时间戳与识别出的文本进行关联；

根据所述图像时间戳和所述语音时间戳使得视频图像与相应的文本进行同步展示。

15.一种图像处理方法，所述方法包括：

获取目标图像，所述目标图像中包括嘴部；

检测所述目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本，包括：通过提取人脸特征点的形式确定嘴部的特征点，根据嘴部的特征点确定嘴部的位置和嘴部的动作，唇语识别通过调用唇语SDK来实现，SDK是指编写好的用于唇语识别的软件工具包；

将实时识别得到的文本同步展示在所述目标图像中，包括：根据所述嘴部的位置确定所述文本的展示位置，将所述文本同步展示在所述目标图像中的展示位置。

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

预先设置展示位置与嘴部位置之间的对应关系。

17.一种图像处理装置，所述装置包括：

获取模块，用于获取目标图像，所述目标图像中包括目标主体，目标主体是指图像中待识别的目标物；

图像识别模块，用于采用目标主体识别方法对所述目标图像中的目标主体进行识别，识别出目标主体区域二

展示模块，用于以所述起始位置为起点将所述文本展示在所述目标图像中，包括：将所述文本进行分词处理，得到多个子文本；根据各个子文本对应的语音时间戳确定所述各个子文本对应的起始展示时间；根据各个子文本对应的起始展示时间将各个子文本以所述起始位置为起点随着时间的推移进行动态展示，对于在同一时间段内的多个子文本，进行乱序展示。

18.一种图像处理装置，所述装置包括：

唇语识别模块，用于检测所述目标图像中的嘴部，根据嘴部动作进行唇语识别，得到对应的识别文本，包括：通过提取人脸特征点的形式确定嘴部的特征点，根据嘴部的特征点确定嘴部的位置和嘴部的动作，唇语识别通过调用唇语SDK来实现，SDK是指编写好的用于唇语识别的软件工具包；

同步展示模块，用于将实时识别得到的文本同步展示在所述目标图像中，包括：根据所述嘴部的位置确定所述文本的展示位置，将所述文本同步展示在所述目标图像中的展示位置。

19.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至16中任一项所述方法的步骤。

20.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至16中任一项所述方法的步骤。