CN109189985B

CN109189985B - 文本风格处理方法、装置、电子设备及存储介质

Info

Publication number: CN109189985B
Application number: CN201810943330.2A
Authority: CN
Inventors: 申世伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2020-10-09
Anticipated expiration: 2038-08-17
Also published as: CN109189985A

Abstract

本申请公开了一种文本风格处理方法、装置、电子设备及存储介质，包括下述步骤：获取目标媒体中的文本信息，识别文本信息中文字所表达的情绪信息，根据情绪信息对目标媒体进行图像处理，以使目标媒体中的文本信息通过文字形态表征情绪信息，通过将不同的文本信息处理成不同风格化的图像，并展示在视频字幕或者音乐歌词等目标媒体中，丰富了文字信息在目标媒体的展示效果，从而提高了文字信息的可观赏性。

Description

文本风格处理方法、装置、电子设备及存储介质

技术领域

本申请公开涉及文本图像处理领域，尤其是一种文本风格处理方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的不断发展，音频、视频、文字作为不同的表现形式传播的。在影视、音乐视频或者直播中，视频已经开始主导人们生活的各方各面，人们往往希望通过后期编辑视频，使得编辑后的视频更能引起用户的注意，使用户产生更大的观看视频兴趣。

一般对视频的处理很多时候只是对视频画面的处理，忽略了视频字幕或者音乐歌词等文字信息也是表达视频内容最为直观的载体之一，然而现有的文字展示风格单一、缺乏趣味性，导致视频字幕或者音乐歌词平淡无奇。

发明内容

为克服相关技术中存在的问题，本申请提供一种文本风格处理方法、装置、电子设备及存储介质。

根据本申请实施例的第一方面，提供一种文本风格处理方法，包括下述步骤：

获取目标媒体中的文本信息；

识别所述文本信息中文字所表达的情绪信息；

根据所述情绪信息对所述目标媒体进行图像处理，以使所述目标媒体中的文本信息通过文字形态表征所述情绪信息。

可选地，所述情绪信息为文本信息的情绪分类结果，所述识别所述文本信息中文字所表达的情绪信息的步骤包括：

将所述文本信息输入到预设的文本分类模型中，其中，所述文本分类模型为训练至收敛的用于文本分类的神经网络模型；

获取所述文本分类模型输出的所述文本信息的情绪分类的置信度；

当所述置信度大于预设第一阈值时，确认所述置信度所表征的情绪分类结果为所述情绪信息。

可选地，所述根据所述情绪信息对所述目标媒体进行图像处理，以使所述目标媒体中的文本信息通过文字形态表征所述情绪信息的步骤包括：

在预设的风格图片数据库中获取与所述情绪信息具有对应关系的风格图片；

将所述文本信息像素化生成内容图片；

将所述内容图片与所述风格图片输入到预设的图像融合模型中，其中，所述图像融合模型为训练至收敛的用于图像融合的神经网络模型；

获取所述图像融合模型根据所述内容图片与所述风格图片生成的融合图片，其中，所述融合图片包括所述文本信息的文字图像，且所述文字图像的文字形态表征所述情绪信息。

可选地，所述获取所述图像融合模型根据所述内容图片与所述风格图片生成的融合图片的步骤之后，还包括下述步骤：

通过格拉姆矩阵计算所述融合图片与所述内容图片之间的内容损失；

通过格拉姆矩阵计算所述融合图片与所述风格图片之间的风格损失；

通过所述内容损失与所述风格损失计算所述融合图片的总损失值；

将所述总损失值与所述图像融合模型的梯度损失函数的梯度阈值进行比对，当所述总损失值大于所述梯度阈值时，通过所述图像融合模型的反向传播算法校正所述图像融合模型中的权值，至所述图像融合模型输出的融合图片的总损失值小于或等于所述梯度损失函数的最小梯度阈值时为止。

可选地，所述总损失值的特征描述为：

l_total(a,x,p)＝α×l_style(a,x)+β×l_content(p,x)

其中，a表示所述风格图片，x表示所述融合图片，p表示所述内容图片，l_total(a,x,p)表示所述总损失值，l_style(a,x)表示所述风格损失，l_content(p,x)表示所述内容损失，α和β表示调节所述风格图片与所述内容图片的权重因子。

可选地，所述目标媒体为视频数据，所述根据所述情绪信息对所述目标媒体进行图像处理，以使所述目标媒体中的文本信息通过文字形态表征所述情绪信息之后，所述文本风格处理方法还包括：

获取所述文本信息在所述目标媒体的位置信息；

根据所述位置信息将所述融合图片***至所述目标媒体的指定位置，以替换所述文本信息。

可选地，所述文本风格处理方法还包括：

获取标记有分类判断信息的训练样本数据；

将所述训练样本数据输入第一神经网络模型中获取所述训练样本数据的分类参照信息，所述第一神经网络模型为用于训练所述文本分类模型的预设神经网络模型；

通过损失函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致；

当所述模型分类参照信息与所述分类判断信息不一致时，反复循环迭代的更新所述第一神经网络模型中的权重，至所述比对结果与所述分类判断信息一致时结束。

可选地，所述文本风格处理方法还包括：

获取有标记信息的图片样本，所述图片样本包括内容样本和风格样本；

将所述内容样本输入到第二神经网络模型进行训练，提取出所述内容样本与所述风格样本融合后对应的融合样本图像，所述第二神经网络模型为用于训练所述图像融合模型的预设神经网络模型；

通过梯度下降方法计算所述融合样本图像的梯度值；

根据所述梯度值更新所述第二神经网络模型的权重，直至所述融合样本图像的梯度值趋于局部最优解时停止训练。

根据本申请实施例的第二方面，提供一种文本风格处理装置，包括：

获取单元，被配置为获取目标媒体中的文本信息；

执行单元，被配置为识别所述文本信息中文字所表达的情绪信息；

处理单元，被配置为根据所述情绪信息对所述目标媒体进行图像处理，以使所述目标媒体中的文本信息通过文字形态表征所述情绪信息。

可选地，所述文本风格处理装置还包括：

第一输入单元，被配置为将所述文本信息输入到预设的文本分类模型中，其中，所述文本分类模型为训练至收敛的用于文本分类的神经网络模型；

第二获取单元，被配置为获取所述文本分类模型输出的所述文本信息的情绪分类的置信度；

第一确认单元，被配置为当所述置信度大于预设第一阈值时，确认所述置信度所表征的情绪分类结果为所述情绪信息。

可选地，所述文本风格处理装置还包括：

第三获取单元，被配置为在预设的风格图片数据库中获取与所述情绪信息具有对应关系的风格图片；

第一生成子单元，被配置为将所述文本信息像素化生成内容图片；

第二输入单元，被配置为将所述内容图片与所述风格图片输入到预设的图像融合模型中，其中，所述图像融合模型为训练至收敛的用于图像融合的神经网络模型；

第四获取单元，被配置为获取所述图像融合模型根据所述内容图片与所述风格图片生成的融合图片，其中，所述融合图片包括所述文本信息的文字图像，且所述文字图像的文字形态表征所述情绪信息。

可选地，所述文本风格处理装置还包括：

第一计算单元，被配置为通过格拉姆矩阵计算所述融合图片与所述内容图片之间的内容损失；

第二计算单元，被配置为通过格拉姆矩阵计算所述融合图片与所述风格图片之间的风格损失；

第三计算单元，被配置为通过所述内容损失与所述风格损失计算所述融合图片的总损失值；

第一比对单元，被配置为将所述总损失值与所述图像融合模型的梯度损失函数的梯度阈值进行比对，当所述总损失值大于所述梯度阈值时，通过所述图像融合模型的反向传播算法校正所述图像融合模型中的权值，至所述图像融合模型输出的融合图片的总损失值小于或等于所述梯度损失函数的最小梯度阈值时为止

可选地，所述总损失值的特征描述为：

l_total(a,x,p)＝α×l_style(a,x)+β×l_content(p,x)

可选地，所述目标媒体为视频数据，所述文本风格处理装置还包括：

第五获取单元，被配置为获取所述文本信息在所述目标媒体的位置信息；

第一***单元，被配置为根据所述位置信息将所述融合图片***至所述目标媒体的指定位置，以替换所述文本信息。

可选地，所述文本风格处理装置还包括：

第六获取单元，被配置为获取标记有分类判断信息的训练样本数据；

第七获取单元，被配置为将所述训练样本数据输入到神经网络模型获取所述训练样本数据的分类参照信息，所述第一神经网络模型为用于训练所述文本分类模型的预设神经网络模型；

第二比对单元，被配置为通过损失函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致；

第三比对单元，被配置为当所述模型分类参照信息与所述分类判断信息不一致时，反复循环迭代的更新所述第一神经网络模型中的权重，至所述比对结果与所述分类判断信息一致时结束，得到训练至收敛的所述文本分类模型。

可选地，所述文本风格处理装置还包括：

第八获取单元，被配置为获取有标记信息的图片样本，所述图片样本包括内容样本和风格样本；

第一提取单元，被配置为将所述内容样本输入到第二神经网络模型进行训练，提取出所述内容样本与所述风格样本融合后对应的融合样本图像，所述第二神经网络模型为用于训练所述图像融合模型的预设神经网络模型；

第四计算单元，被配置为通过梯度下降方法计算所述融合样本图像的梯度值；

更新单元，被配置为根据所述梯度值更新所述第二神经网络模型的权重，直至所述融合样本图像的梯度值趋于局部最优解时停止训练。

根据本申请公开实施例的第三方面，提供一种电子设备，包括处理器，用于存储处理器可执行指令的存储器，所述处理器被配置为执行上述文本风格处理方法的步骤。

根据本申请公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述文本风格处理方法的步骤。

根据本申请公开实施例的第五方面，提供计算机程序产品，包括计算机程序代码，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述文本风格处理方法的步骤。

本申请公开的实施例提供的技术方案可以包括以下有益效果：获取目标媒体中的文本信息，识别文本信息中文字所表达的情绪信息，根据情绪信息对目标媒体进行图像处理，以使目标媒体中的文本信息通过文字形态表征情绪信息，通过将不同的文本信息处理成不同风格化的图像，并展示在视频字幕或者音乐歌词等目标媒体中，丰富了文字信息在目标媒体的展示效果，从而提高了文字信息的可观赏性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种文本风格处理方法的流程图。

图2是根据一示例性实施例示出的识别情绪信息的一种实施方式流程图。

图3是根据一示例性实施例示出的将情绪信息进行图像处理的一种实施方式流程图。

图4是根据一示例性实施例示出的将情绪信息进行图像处理的另一种实施方式流程图。

图5是根据一示例性实施例示出的***融合图片的流程图。

图6是根据一示例性实施例示出的训练文本分类模型的流程图。

图7是根据一示例性实施例示出的一种文本风格处理装置的框图。

图8是根据一示例性实施例示出的一种电子设备的结构框图。

图9是根据一示例性实施例示出的另外一种电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种文本风格处理方法的流程图，如图1所示，文本风格处理方法包括以下步骤：

S1100：获取目标媒体中的文本信息；

具体地，目标媒体包括但不限于直播视频、音乐视频或者电影视频等。

电子设备可以是手机、平板、pc等移动终端，也可以是服务器。电子设备根据预设的字幕检测方式检测目标媒体中是否存在字幕区域；当检测到目标媒体中存在字幕区域时，通过预设的字幕定位方式获取字幕帧；通过预设的二值化算法将字幕帧处理得到二值化字幕图像，并使用OpenCV(一个基于BSD许可(开源)发行的跨平台计算机视觉库)将该二值化字幕图像转化成文本信息。

其中，预设的字幕检测方式包括但不限于基于直方图方法、基于像素差方法或者基于轮廓方法等。预设的字幕定位方式可以是边缘检测算法、连通区域定位法或者纹理定位法等。预设的二值化算法包括但不限于全局阀值二值化、局部阀值二值化或者Qstu算法(又称大津法)。

S1200：识别所述文本信息中文字所表达的情绪信息；

将步骤S1100获取的文本信息进行分词处理输入到预设的文本分类模型中，由于文本分类模型中具备训练好每个文本信息中文字所表征的情绪分类器，故通过预设的文本分类模型，能识别出每个文本信息中文字所表达的情绪信息。情绪信息包括情绪分类结果和非情绪分类结果，例如情绪分类结果包括愤怒、抑郁、开心、惊讶等，例如，当文本信息是“笑的合不拢嘴”时，该文本信息对应的情绪信息是开心。非情绪分类结果指文本信息表征为不带情绪色彩。

S1300：根据所述情绪信息对所述目标媒体进行图像处理，以使所述目标媒体中的文本信息通过文字形态表征所述情绪信息。

根据得到的文本信息中文字所表达的情绪信息，对目标媒体进行图像处包括：在预设的风格图片数据库中获取与该情绪信息具有对应关系的风格图片；将文本信息像素化生成内容图片；将风格图片和内容图片输入到预设的图像融合模型中，最终获取到内容图片与风格图片结合生成的融合图片，该融合图片为文本信息表征情绪信息的图像。

在本申请的实施方式中，获取目标媒体中的文本信息，识别文本信息中文字所表达的情绪信息，根据情绪信息对目标媒体进行图像处理，以使目标媒体中的文本信息通过文字形态表征情绪信息，通过将不同的文本信息处理成不同风格化的图像，并展示在视频字幕或者音乐歌词等目标媒体中，丰富了文字信息在目标媒体的展示效果，从而提高了文字信息的可观赏性。

当情绪信息为文本信息的情绪分类结果，识别文本信息中文字所表达的情绪信息的过程具体请参阅图2，图2为本实施例示出的识别情绪信息的一种实施方式流程图。如图2所示，步骤S1200具体包括下述步骤：

S1211：将所述文本信息输入到预设的文本分类模型中，其中，所述文本分类模型为训练至收敛的用于文本分类的神经网络模型；

在本实施方式中，使用LSTM网络(长短期记忆人工神经网络模型，Long Short-Term Memory)作为神经网络模型。LSTM网络通过“门”(gate)来控制丢弃或者增加信息，从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构，由一个sigmoid(S型生长曲线)函数和一个点乘操作组成。sigmoid函数的输出值在[0，1]区间，0代表完全丢弃，1代表完全通过。训练至收敛的神经网络模型具备了能识别文本信息所表征的情绪信息的分类器，其中，文本分类模型包括上述的神经网络模型，该神经网络模型包括了N+1个情绪分类器，N为正整数。

具体地，通过将文本信息输入到预设的文本分类模型中，得到文本信息中每个分词在情绪分类器中的分类结果，其中，分类结果包括文本信息对应的情绪分类和情绪分类的置信度(Confidence)。

S1212：获取所述文本分类模型输出的所述文本信息的情绪分类的置信度；

获取步骤S1211中的分类结果，其中，情绪分类的置信度是指文本信息经过文本分类模型进行筛选分类后，文本信息被归类到一种以上的情绪分类以及得到文本信息占该情绪分类的百分值。由于最终得到文本信息中的分词对应的情绪信息为一种，故需要将同一文本信息的各个情绪分类的置信度进行比较，例如，文本信息“她笑到流泪”，被分类到开心的置信度为0.95，被分类到忧伤的置信度为0.75。

S1213：当所述置信度大于预设第一阈值时，确认所述置信度所表征的情绪分类结果为所述情绪信息。

预设第一阈值一般设置为0.9到1之间的数值。通过筛选出置信度大于预设第一阈值的情绪信息作为最终的情绪分类结果，即确认置信度所表征的情绪信息。例如，当预设第一阈值为0.9时，并且文本信息“她笑到流泪”，被分类到开心的置信度为0.95，由于0.95>0.9，所以“她笑到流泪”的情绪信息为开心。

通过将文本信息输入到预设的文本分类模型中，并获取文本分类模型输出的文本信息的情绪分类的置信度，当置信度大于预设第一阈值时，确认置信度所表征的情绪分类结果为情绪信息，从而提高了识别文本信息的情绪分类准确度。

根据情绪信息对目标媒体进行图像处理，以使目标媒体中的文本信息通过文字形态表征情绪信息的过程具体请参阅图3，图3为本实施例示出的将情绪信息进行图像处理的一种实施方式流程图。如图3所示，步骤S1300具体包括下述步骤：

S1311：在预设的风格图片数据库中获取与所述情绪信息具有对应关系的风格图片；

预设的风格图片数据库包括了各个情绪分类对应的风格图片。根据获取的情绪信息，在预设的风格图片数据库中获取与情绪信息相对应的风格图片。例如，情绪信息为开心时，获取到的风格图像为粉色桃花的风格图像。

S1312：将所述文本信息像素化生成内容图片；

像素化是指通过使用ImageDraw库将文本信息自动拷贝在背景颜色为白色的图片上，使文本信息由文本转化成内容图像。

需要说明的是，风格图片和内容图片的大小都转化成大小一致的尺寸值。

S1313：将所述内容图片与所述风格图片输入到预设的图像融合模型中，其中，所述图像融合模型为训练至收敛的神经网络模型；

图像融合模型可以采用VGG16的神经网络模型，其中，VGG16的神经网络模型包含13个卷积层和3个全连层。

具体地，在图像融合模型中，高层特征图一般是关于输入图像的物体和布局等信息，低层特征图一般表达输入图像的像素信息。

具体地，将风格图片、内容图片以及随机初始化生成的白噪声图片在图像融合模型的每个卷积层中分别提取到风格图片的低层特征图、内容图片的高层特征图以及噪声图片的特征图，其中，特征图包括高层特征图和低层特征图。

需要说明的是，白噪声图片通过随机选取内容图片或者风格图片进行复制得到，使得白噪声图片在图像融合模型中训练时，白噪声图片与内容图片以及风格图片具有相似性。

S1314：获取所述图像融合模型根据所述内容图片与所述风格图片生成的融合图片，其中，所述融合图片包括所述文本信息的文字图像，且所述文字图像的文字形态表征所述情绪信息。

将白噪声图片的特征图分别与风格图片的低层特征图和内容图片的高层特征图的特征图进行一系列的损失函数计算之后，将白噪声图片处理成具有风格图片特征和内容图片特征的融合图片，其中，文字图像为内容图片的特征，文字形态为风格图片的特征。

通过将获取的风格图片，内容图片输入到预设的图像融合模型中，得到具有表征情绪信息的文字图像、文字形态的融合图片，实现了文本信息的风格化处理，使得文本信息在目标媒体的展示上更加丰富生动。

获取图像融合模型根据内容图片与风格图片生成的融合图片的过程中，具体请参阅图4，图4为本实施例示出的将情绪信息进行图像处理的另一种实施方式流程图。如图4所示，文本风格处理方法具体还包括下述步骤：

S1321：通过格拉姆矩阵计算所述融合图片与所述内容图片之间的内容损失；

将一个图像的风格转移到另一个图像的过程实质可认为是纹理转移。由于格拉姆矩阵可以用来衡量一张图像的纹理特征，故通过格拉姆矩阵方式计算白噪声图片与内容图片的平方差损失，从而得到内容损失。

具体地，每个特征图的大小一般是M×N×C，其中，M×N表示矩阵大小，C表示厚度，也就是C个M×N的矩阵叠在一起。格拉姆矩阵方式具体指由特征图的厚度决定的格拉姆矩阵的大小，即C×C，每一个格拉姆矩阵的元素由特征图中的第i层和第j层提取出来的两个M×N的矩阵相乘求和得到，拉姆矩阵中每个元素表示为两层特征图的一种组合。也就是说，拉姆矩阵方式是通过计算特征图的格拉姆矩阵来提取像素与像素之间的关联，从而定义了图片的风格。

S1322：通过格拉姆矩阵计算所述融合图片与所述风格图片之间的风格损失；

同样地，通过计算融合图片的格拉姆矩阵与风格图片的格拉姆矩阵之差来得到风格损失。

S1323：通过所述内容损失与所述风格损失计算所述融合图片的总损失值；

将计算得到的内容损失与风格损失分别与各自的权重因子进行相乘叠加后，得到融合图片的总损失值。

具体地，总损失值的特征描述为：

l_total(a,x,p)＝α×l_style(a,x)+β×l_content(p,x)

其中，a表示所述风格图片，x表示所述融合图片，p表示所述内容图片，l_total(a,x,p)表示所述总损失值，l_style(a,x)表示所述风格图片a与所述融合图片x通过格拉姆矩阵之差得到的风格损失值，l_content(p,x)表示所述内容图片p与所述融合图片x通过平方差得到的内容损失值，α和β表示调节所述风格图片与所述内容图片的权重因子。

S1324：将所述总损失值与所述图像融合模型的梯度损失函数的梯度阈值进行比对，当所述总损失值大于所述梯度阈值时，通过所述图像融合模型的反向传播算法校正所述图像融合模型中的权值，至所述图像融合模型输出的融合图片的总损失值小于或等于所述梯度损失函数的最小梯度阈值时为止。

具体地，梯度损失函数的特征表示为：

更新融合图片梯度值的特征表示为：

其中，

表示融合图片的梯度值，L_total表示总损失值，λ表示预设参数值。

具体地，反向传播算法是通过公式(1)和公式(2)更新融合图片的梯度值，再重新计算内容损失和风格损失，进而改变图像融合模型中的权重。通过步骤S1321-步骤S1324，使得生成的融合图片更逼近内容图片和风格图片的特征。

当目标媒体为视频数据时，根据情绪信息对目标媒体进行图像处理，以使目标媒体中的文本信息通过文字形态表征所述情绪信息过程之后，具体请参阅图5，图5为本实施例示出的***融合图片的流程图。如图5所示，文本风格处理方法具体还包括下述步骤：

S1331：获取所述文本信息在所述目标媒体的位置信息；

通过预测的字幕定位方法，例如，边缘检测算法、连通区域定位法或者纹理定位法等，获取目标媒体的位置信息，其中，位置信息指文本信息在目标媒体的坐标位置。

S1332：将所述融合图片***至所述目标媒体的所述位置信息对应的位置，以替换所述文本信息。

根据目标媒体的坐标位置，释放目标媒体中的文本信息，并将融合图片***到目标媒体的指定位置。

具体请参阅图6，图6为本实施例示出的训练文本分类模型的流程图。如图6所示，文本风格处理方法具体还包括下述步骤：

S1341：获取标记有分类判断信息的训练样本数据；

训练样本数据可以是整个训练集的构成单位，训练集是由若干个训练样本训练数据组成的。

训练样本数据可以是由文本数据以及对文本数据进行标记的分类判断信息组成的。

分类判断信息是指人们根据输入神经网络模型的训练方向，通过普适性的判断标准和事实状态对训练样本数据做出的人为的判断，也就是人们对神经网络模型输出数值的期望目标。如，在一个训练样本数据中，人工标定训练样本在文本信息对应的情绪信息，该情绪信息则为神经网络模型输出分类数据的期望目标。

S1342：将所述训练样本数据输入第一神经网络模型中获取所述训练样本数据的分类参照信息，所述第一神经网络模型为用于训练所述文本分类模型的预设神经网络模型；

将训练样本集依次输入到第一神经网络模型中，训练样本通过输入层分别进入到第一通道和第二通道中，第一通道和第二通道分别对文本信息进行特征提取和分类，其中，第一通道的全连接层和第二通道的全连接层输出的数据即为分类参照信息。

分类参照信息可以是第一神经网络模型根据输入的文本信息而输出的激励数据，在第一神经网络模型未被训练至收敛之前，分类参照信息为离散性较大的数值，当第一神经网络模型未被训练至收敛之后，分类参照信息为相对稳定的数据。

S1343：通过损失函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致；

损失函数是用于检测第一神经网络模型中模型分类参照信息，与期望的分类判断信息是否具有一致性的检测函数。当第一神经网络模型的输出结果与分类判断信息的期望结果不一致时，需要对第一神经网络模型中的权重进行校正，以使第一神经网络模型的输出结果与分类判断信息的期望结果相同。

S1344：当所述模型分类参照信息与所述分类判断信息不一致时，反复循环迭代的更新所述第一神经网络模型中的权重，至所述比对结果与所述分类判断信息一致时结束，得到训练至收敛的所述文本分类模型。

第一神经网络模型的分类输出输出结果与分类判断信息的期望结果不一致时，需要对第一神经网络模型中的权重进行校正，以使第一神经网络模型的输出结果与分类判断信息的期望结果相同。当第一通道和第二通道输出的分类数据均与预设的分类判断信息一致，且第一通道的提取的训练样本的特征数据与第二通道输出的特征数据之间的欧式距离达标后，停止对该训练样本的训练。训练时采用多个训练样本进行训练(例如一万条文本信息)，通过反复的训练与校正，当第一神经网络模型输出分类数据与各训练样本的分类参照信息比对达到(不限于)99.9％时，训练结束。

根据所述情绪信息对所述目标媒体进行图像处理之前，对图像融合模型的第二神经网络模型执行训练的步骤包括：

获取有标记信息的图片样本，图片样本包括内容样本和风格样本；

将内容样本输入到第二神经网络模型进行训练，提取出内容样本与风格样本融合后对应的融合样本图像，第二神经网络模型为用于训练图像融合的预设神经网络模型；

通过梯度下降方法计算融合样本图像的梯度值；根据梯度值更新第二神经网络模型的权重，直至融合样本图像的梯度值趋于局部最优解时停止训练。

需要说明的是，当融合样本图像的梯度值约等于局部最优解时，也就是第二神经网络模型训练至收敛，取此时的权重作为更新后的图像融合模型的第二神经网络模型的权重，该图像融合模型能提高图片之间的融合质量。

值得说明的是，针对本申请中的图像融合模型，每当获取到新的一个媒体A中的文本信息后，在使用文本分类模型以及图像融合模型以使该媒体A中的文本信息通过文字形态表征其对应的情绪信息之后，可以使用该媒体A中的文本信息(内容图片)继续对当前的图像融合模型进行训练，得到收敛的图像融合模型。即每次获取新的媒体中的文本信息后，需要进行图像融合模型的训练。

通过每次使用文本信息训练图像融合模型(不断的迭代图像融合模型)可以使得不同图像进行风格化时保证纹理信息上的一致性。当然，此次再训练，由于使用的文本信息较少，使得训练图像融合模型的时间较短。

图7是根据一示例性实施例示出的一种文本风格处理装置框图。参照图7，该装置包括获取单元2100，处理单元2200和执行单元2300。其中，获取单元2100，被配置为获取目标媒体中的文本信息；执行单元2200，被配置为识别文本信息中文字所表达的情绪信息；处理单元2300，被配置为根据情绪信息对目标媒体进行图像处理，以使目标媒体中的文本信息通过文字形态表征情绪信息。

在一些实施方式中，文本风格处理装置还包括：第一输入单元、第二获取单元和第一确认单元。其中，第一输入单元，被配置为将文本信息输入到预设的文本分类模型中，其中，文本分类模型为训练至收敛的用于文本分类的神经网络模型；第二获取单元，被配置为获取文本分类模型输出的文本信息的情绪分类的置信度；第一确认单元，被配置为当置信度大于预设第一阈值时，确认置信度所表征的情绪分类结果为情绪信息。

在一些实施方式中，文本风格处理装置还包括：第三获取单元、第一生成子单元、第二输入单元和第四获取单元。其中，第三获取单元，被配置为在预设的风格图片数据库中获取与情绪信息具有对应关系的风格图片；第一生成子单元，被配置为将文本信息像素化生成内容图片；第二输入单元，被配置为将内容图片与风格图片输入到预设的图像融合模型中，其中，图像融合模型为训练至收敛的用于图像融合的神经网络模型；第四获取单元，被配置为获取图像融合模型根据内容图片与风格图片生成的融合图片，其中，融合图片包括文本信息的文字图像，且文字图像的文字形态表征情绪信息。

在一些实施方式中，文本风格处理装置还包括：第一计算单元、第二计算单元、第三计算单元、第一比对单元。其中，第一计算单元，被配置为通过格拉姆矩阵计算融合图片与内容图片之间的内容损失；第二计算单元，被配置为通过格拉姆矩阵计算融合图片与风格图片之间的风格损失；第三计算单元，被配置为通过内容损失与风格损失计算融合图片的总损失值；第一比对单元，被配置为将总损失值与图像融合模型的梯度损失函数的梯度阈值进行比对，当总损失值大于梯度阈值时，通过图像融合模型的反向传播算法校正图像融合模型中的权值，至图像融合模型输出的融合图片的总损失值小于或等于梯度损失函数的最小梯度阈值时为止

在一些实施方式中，总损失值的特征描述为：

l_total(a,x,p)＝α×l_style(a,x)+β×l_content(p,x)

其中，a表示所述风格图片，x表示所述融合图片，p表示所述内容图片，l_total(a,x,p)表示总损失值，l_style(a,x)表示风格损失，l_content(p,x)表示内容损失，α和β表示调节风格图片与内容图片的权重因子。

在一些实施方式中，目标媒体为视频数据，文本风格处理装置还包括：第五获取单元和第一***单元。其中，第五获取单元，被配置为获取文本信息在目标媒体的位置信息；第一***单元，被配置为将融合图片***至目标媒体的位置信息对应的位置，以替换文本信息。

在一些实施方式中，所述文本风格处理装置还包括：第六获取单元、第六七获取单元、第二比对单元和第三比对单元。其中，第六获取单元，被配置为获取标记有分类判断信息的训练样本数据；第七获取单元，被配置为将训练样本数据输入神经网络模型中获取训练样本数据的分类参照信息；第二比对单元，被配置为通过损失函数比对训练样本数据内不同样本的模型分类参照信息与分类判断信息是否一致；第三比对单元，被配置为当模型分类参照信息与分类判断信息不一致时，反复循环迭代的更新卷积神经网络模型中的权重，至比对结果与分类判断信息一致时结束，得到训练至收敛的文本分类模型。

在一些实施方式中，文本风格处理装置还包括：第八获取单元、第一提取单元、第四计算单元和更新单元。其中，第八获取单元，被配置为获取有标记信息的图片样本，图片样本包括内容样本和风格样本；第一提取单元，被配置为将内容样本输入到第二神经网络模型进行训练，提取出内容样本与风格样本融合后对应的融合样本图像，第二神经网络模型为用于训练图像融合模型的预设神经网络模型；第四计算单元，被配置为通过梯度下降方法计算融合样本图像的梯度值；更新单元，被配置为根据梯度值更新第二神经网络模型的权重，直至融合样本图像的梯度值趋于局部最优解时停止训练。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请的执行主体可以是电子设备，其中，电子设备可以是手机、平板、pc等移动终端，也可以是服务器。如图8所示的是一种电子设备的结果框图；如图9所示的是另外一种电子设备的结构框图

图8是根据一示例性实施例示出的一种电子设备800的框图，该电子设备800为用于文本风格处理的移动终端。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个单元，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体单元，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口单元之间提供接口，上述***接口单元可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)单元，以促进短程通信。例如，在NFC单元可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述文本风格处理方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图9是根据一示例性实施例示出的另外一种电子设备900的框图，该电子设备900为用于文本风格处理的服务器。参照图9，电子设备900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的单元。此外，处理组件922被配置为执行指令，以执行上述方法文本风格处理方法。

电子设备900还可以包括一个电源组件926被配置为执行电子设备900的电源管理，一个有线或无线网络接口950被配置为将电子设备900连接到网络，和一个输入输出(I/O)接口958。电子设备900可以操作基于存储在存储器932的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如上述文本风格处理方法。

一种计算机程序产品，包括计算机程序代码，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述文本风格处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种文本风格处理方法，其特征在于，包括：

获取目标媒体中的文本信息；

识别所述文本信息中文字所表达的情绪信息；

根据所述情绪信息对所述目标媒体进行图像处理，以使所述目标媒体中的文本信息通过文字形态表征所述情绪信息；

其中，所述根据所述情绪信息对所述目标媒体进行图像处理，包括：

将所述文本信息像素化生成内容图片；

2.根据权利要求1所述的文本风格处理方法，其特征在于，所述情绪信息为文本信息的情绪分类结果；所述识别所述文本信息中文字所表达的情绪信息，包括：

3.根据权利要求1所述的文本风格处理方法，其特征在于，所述获取所述图像融合模型根据所述内容图片与所述风格图片生成的融合图片，包括：

4.根据权利要求3所述的文本风格处理方法，其特征在于，所述总损失值的特征描述为：

l_total(a,x,p)＝α×l_style(a,x)+β×l_content(p,x)

5.根据权利要求1所述的文本风格处理方法，其特征在于，所述目标媒体为视频数据，所述根据所述情绪信息对所述目标媒体进行图像处理之后，还包括：

获取所述文本信息在所述目标媒体的位置信息；

将所述融合图片***至所述目标媒体的位置信息对应的位置，以替换所述文本信息。

6.根据权利要求2所述的文本风格处理方法，其特征在于，所述识别所述文本信息中文字所表达的情绪信息之前，还包括：

获取标记有分类判断信息的训练样本数据；

将所述训练样本数据输入到第一神经网络模型中获取所述训练样本数据的分类参照信息，所述第一神经网络模型为用于训练所述文本分类模型的预设神经网络模型；

当所述模型分类参照信息与所述分类判断信息不一致时，反复循环迭代的更新所述第一神经网络模型中的权重，至所述比对结果与所述分类判断信息一致时结束，得到训练至收敛的所述文本分类模型。

7.根据权利要求1所述的文本风格处理方法，其特征在于，所述根据所述情绪信息对所述目标媒体进行图像处理之前，还包括：

通过梯度下降方法计算所述融合样本图像的梯度值；

8.一种文本风格处理装置，其特征在于，所述文本风格处理装置包括：

获取单元，被配置为获取目标媒体中的文本信息；

处理单元，被配置为根据所述情绪信息对所述目标媒体进行图像处理，以使所述目标媒体中的文本信息通过文字形态表征所述情绪信息；

其中，所述文本风格处理装置还包括：

9.根据权利要求8所述的文本风格处理装置，其特征在于，所述文本风格处理装置还包括：

10.根据权利要求8所述的文本风格处理装置，其特征在于，所述文本风格处理装置还包括：

第一比对单元，被配置为将所述总损失值与所述图像融合模型的梯度损失函数的梯度阈值进行比对，当所述总损失值大于所述梯度阈值时，通过所述图像融合模型的反向传播算法校正所述图像融合模型中的权值，至所述图像融合模型输出的融合图片的总损失值小于或等于所述梯度损失函数的最小梯度阈值时为止。

11.根据权利要求10所述的文本风格处理装置，其特征在于，所述总损失值的特征描述为：

l_total(a,x,p)＝α×l_style(a,x)+β×l_content(p,x)

12.根据权利要求8所述的文本风格处理装置，其特征在于，所述目标媒体为视频数据，所述文本风格处理装置还包括：

13.根据权利要求9所述的文本风格处理装置，其特征在于，所述文本风格处理装置还包括：

第七获取单元，被配置为将所述训练样本数据输入到第一神经网络模型获取所述训练样本数据的分类参照信息，所述第一神经网络模型为用于训练所述文本分类模型的预设神经网络模型；

14.根据权利要求8所述的文本风格处理装置，其特征在于，所述文本风格处理装置还包括：

15.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至7中任一项权利要求所述文本风格处理方法的步骤。

16.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如权利要求1至7中任一项所述的文本风格处理方法。