CN113220834B

CN113220834B - 基于新闻内容语义分析的多媒体智能配图方法

Info

Publication number: CN113220834B
Application number: CN202110496811.5A
Authority: CN
Inventors: 朱迦榕; 马利庄; 杨太海
Original assignee: Shanghai Finance Union Financial Technology Co ltd
Current assignee: Shanghai Finance Union Financial Technology Co ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2023-08-29
Anticipated expiration: 2041-05-07
Also published as: CN113220834A

Abstract

本发明公开了一种基于新闻内容语义分析的多媒体智能配图方法，包括如下步骤：S1提取已有配图新闻的标题并分类；S2根据S1分类结果，将已有配图新闻的图片进行归类，并得到第一向量α；S3读取未配图新闻的标题和内容并得到第二向量β；S4根据α和β及词频和描述等来确定匹配度，根据匹配度选出备选图片；S5构建背景图片库和风格图片库，将备选图片接入语义分割网络，处理后得到背景更新图片；S6对背景更新图片进行风格迁移和平滑处理。该方法能够实现新闻配图的自动匹配、场景变化及风格迁移，提升智能配图的新闻关联性，节省人力的同时也对图片库进行扩充，保证图片来源的合法性并在一定程度上解决了配图库单调的问题。

Description

基于新闻内容语义分析的多媒体智能配图方法

技术领域

本发明属于自然语言处理、信息检索和图像生成技术结合领域，具体涉及一种基于新闻内容语义分析的多媒体智能配图方法。

背景技术

近年来，人工智能技术与互联网新媒体的结合越来越紧密，显著提升了新闻生产和推送的效率。例如，在新闻配图领域，传统新闻配图大多需要编辑在图库中进行人工选择，费时费力；而通过深度学习的方法可以对图片及新闻内容进行语义特征描述，通过语义特征匹配的方法实现自动化配图，这极大提高了配图效率。但是，随着社会整体对图片版权保护意识的提升，新闻配图不仅要考虑图片与新闻内容的契合度，还要提升所用图片版权的法律安全性，这首先要求图片库素材来源的合法性，同时，在配图后还要考虑图文整体的协调性和风格的统一性。目前现有的配图方法主要关注的是图片内容和新闻内容的一致性，未能很好地解决图片来源的法律安全性问题。此外，通过深度学习的方法进行配图也常存在图片与新闻内容的匹配度不高、风格不够协调等问题。

发明内容

本发明的目的是提出了一种基于新闻内容语义分析的多媒体智能配图方法，该方法采用已有配图新闻图片作为素材，自动进行图片分类及图片描述，实现新闻配图的自动匹配、场景变化及风格迁移，提升智能配图的新闻关联性，在不改变原始配图准则情况下，进行媒体新闻自动化配图，在节省人力的同时也对图片库进行扩充，保证图片来源的合法性并在一定程度上解决了配图库单调的问题。

为解决上述技术问题，本发明的具体如下技术方案：

一种基于新闻内容语义分析的多媒体智能配图方法，包括如下步骤：

S1：提取已有配图新闻的标题，并利用分类器对标题自动进行分类；

S2：根据S1的分类结果，将已有配图新闻的图片进行归类，并由对应的标题生成对已有配图新闻的图片的第一文字描述，然后对所述第一文字描述进行向量化处理，得到第一向量α；

S3：读取未配图新闻的标题和内容，并根据S1的分类结果对未配图新闻的标题进行归类，并根据未配图新闻的标题或内容生成对未配图新闻的第二文字描述，然后对所述第二文字描述进行向量化处理，得到第二向量β；

S4：根据所述第一向量α和所述第二向量β及所述第一文字描述与所述未配图新闻标题或内容相同词的词频确定所述第一文字描述和第二文字描述的匹配度，并根据所述匹配度选出若干张已有配图新闻的图片作为备选图片；

S5：构建背景图片库和风格图片库，将所述备选图片接入语义分割网络，利用输出语义分割结果的掩膜进行基于语义分割的背景切换，得到背景更新图片；

S6：对背景更新图片进行风格迁移和平滑处理。

优选的，所述S1中分类时分为两类，一类为固定模式配图，一类为可变模式配图。

优选的，所述S2中按如下方法生成对所述已有配图新闻的图片的第一文字描述：将所述已配图新闻的标题作为所述已配图新闻的图片的初始描述，对于所述已配图新闻的图片相同的所述已配图新闻的标题，取所述已配图新闻的标题的并集作为所述已配图新闻的图片初始描述；根据图片分类结果，对所述已配图新闻的图片的初始描述进行内容提取，生成对所述已有配图新闻的图片的第一文字描述。

优选的，在所述S3中按如下方法生成对未配图新闻的第二文字描述：若为固定模式配图则使用新闻标题作为所述未配图新闻的初始描述；若为可变模式则使用textrank算法对所述未配图新闻进行摘要提取，同时与所述未配图新闻的标题取并集作为所述未配图新闻的初始描述；然后对所述未配图新闻的初始描述进行内容提取，生成对所述未配图新闻的第二文字描述。

优选的，在所述S2中，对所述第一文字描述使用预训练bert模型进行向量化得到所述第一向量α，在所述S3中对所述第二文字描述使用预训练bert模型进行向量化得到所述第二向量β，计算所述第一向量α和第二向量β的余弦距离：

再计算所述第一文字描述和第二文字描述相同词的匹配次数：

matches(a，b)＝match(a，b)/max_match

其中a为从所述第一文本描述中提取的词，b为从所述第二文本描述提取的词，matches(a，b)为a,b中形同词的匹配次数，max_match为所有matches(a，b)中的最大值；

再计算所述已配图新闻的图片与所述未配图新闻的匹配度：

l＝matches(a，b)-k*dis(α,β)；

其中k为***预设的超参数；

选择所有所述已配图新闻的图片与所述未配图新闻的匹配度中最大值预设区间内的若干张图片作为备选图片。

优选的，所述S5中，将所述背景库的图片与所述备选图片通过双线性插值的方式放缩至统一尺寸，再对固定背景语义的部分进行切换。

优选的，训练一个以图像重构为损失函数的自动编码器，将使用自动编码器提取到的特征送入WCT算子进行变换，然后进行解码还原为相应的RGB空间图片；使用gram矩阵定义相似像素的相似风格，然后将风格差异结合像素的相似性矩阵定义出一个目标损失函数，通过优化目标损失最小得到风格统一的图片。

优选的，所述固定模式配图针对配图逻辑固定的专栏类新闻；所述可变模式配图针对配图与标题和新闻内容都相关的新闻。

优选的，按如下方法对所述已配图新闻的图片的初始描述进行内容提取，生成对所述已有配图新闻的图片的第一文字描述：若为固定模式配图，则利用候选词库进行规则匹配关键词，生成所述第一文字描述；若为可变模式配图，则利用TF-IDF进行关键词提取，其中TF范围为当前所述已配图新闻的图片的初始描述，IDF范围为所有已配图新闻的图片的初始描述的集合

本发明具有如下有益效果，首先，利用已有配图新闻作为素材，对该新闻的标题进行自动分类，然后对其图片再进行归类，并生成对图片的第一文字描述，对新闻提供商而言，其拥有大量的已配图新闻，而且这些图片往往经过人工编辑，图文统一性好，并且版权来源合规，按新闻标题生成对图片描述更能体现图片的特点，为以后适配提供基础。通过对未配图新闻标题和内容生成第二文字描述，并由对第一、第二文字描述的向量化和词频次数去计算图片与未配图新闻的匹配度，能够使备选图片与未配图新闻的内容更匹配、更契合，最后对图片进行背景变换和风格迁移可以使图片与新闻内容更协调一致，还可以增加不同风格图片数量，扩充素材库。本方法能够进行自动化新闻配图，大量节省人力，配图效果好。

具体实施方式

为了便于理解本发明，以下结合附图及实施例对本发明进行详细说明。

基于新闻内容分析的多媒体智能配图方法，包括以下步骤：

S1:对已有配图新闻的标题自动进行分类，具体步骤为：

S1-1:输入一定数量的已有配图新闻的标题作为数据集；

S1-2:对标题进行人工标注，分为2类，一类是固定模式配图，一类是可变模式配图。

S1-3:使用fasttext算法对人工标注的标题进行训练测试，生成分类器模型；

S1-4:利用训练好的分类器模型对所有已有配图新闻的标题数据集进行分类，即分入固定模式配图和可变模式配图的两类中；

S2:够建图像分类库以及相应图片描述，具体步骤为：

S2-1:根据S1中已有配图新闻标题的分类结果，将已有配图新闻的图片进行归类，即归入固定模式配图和可变模式配图的两类中；

S2-2:将已有配图新闻的标题作为所对应的图片(原始配图)的初始描述，对于原始配图相同的标题，取标题的并集作为初始描述；

S2-3:根据已有配图新闻的图片分类结果，对初始描述进行内容提取，生成图片的第一文字描述(即最终图片描述)。

S3:未配图新闻内容分析，生成关键内容描述，即第二文字描述，具体步骤为：

S3-1:读取未配图新闻文章内容及标题；

S3-2:对未配图标题进行归类:若为固定模式配图则使用未配图新闻标题作为未配图新闻文章的初始描述；若为可变模式配图则使用textrank算法对未配图新闻文章内容进行摘要提取，同时与未配图新闻文章标题取并集作为未配图新闻文章的初始描述；

S3-3:对未配图新闻文章的初始描述进行内容提取，生成第二文字描述(即未配图新闻的最终文章描述)；

S4:文本匹配搜索配图，具体步骤为：

S4-1:将已有配图新闻的图片数据库对应的文本描述(即第一文字描述)使用预训练bert模型进行向量化，得到第一向量α(此步骤也可以在S2-3得到第一文字描述即进行向量化)；

S4-2:将S3提取到的第二文字描述使用与S4-1相同语料预训练的bert模型进行向量化，得到第二向量β(生成第二向量β也可以在S3-3得到第二文字描述后进行)。通过余弦距离和词频匹配共同定义图片文本描述与新闻内容的匹配响应程度，余弦距离定义：如下式所示，其中α,β分别表示经过bert模型向量化的新闻关键词文本向量和一张图片的文本描述向量。

词频匹配定义：a,b分别为图片文本描述的句子与新闻内容提取的词，match定义为a,b中词语相同匹配的次数。max_match定义为所有数据中match的最大值。

matches(a,b)＝match(a，b)/max_match

由上述可以定义一幅图和新闻内容的匹配程度如下式：其中k是超参数，用于平衡两项不同距离定义的贡献，***可以对k进行预设，如设置为0.7。

l＝matches(a，b)-k*dis(α，β)

通过计算出图片数据集合中每一张图片与新闻内容的匹配程度，可以选择出其中最大的10张图片作为备选。

S5:图片背景切换，具体步骤为：

S5-1:构建一个背景图片库，以及风格图片库。按照需求以及新闻内容，进行一个背景图片以及风格图片库的构建。

S5-2:将S4得到的备选图片接入语义分割网络，利用输出语义分割结果的掩膜进行基于语义分割的背景切换。将背景图片与备选图片通过双线性插值的方式放缩至统一尺寸，再对固定背景语义的部分进行切换。例如针对室外场景可以进行天空的背景切换。即将掩膜中的天空的图片部分切换为对应天空背景图片的像素。

S6:图片风格迁移，具体步骤为：

S6-1风格迁移：通过训练一个以图像重构为损失函数的自动编码器，使用编码器提取到的特征送入WCT算子进行变换，然后进行解码还原为相应的RGB空间图片。通过优化图像重构损失函数变小来得到风格差异小的图片。

S6-2图像平滑：一个风格统一的图片可以定义为局部区域的相似像素应有相似风格，使用gram矩阵定义相似像素的相似风格，然后可以将风格差异结合像素的相似性矩阵定义出一个目标损失函数如下，通过优化目标损失最小得到符合风格统一的图片。我们定义其中y_i表示优化过程中上一步输出的像素，r_i表示优化过程中这一步得到的图R中的像素。W与d的定义如下所示。

W＝{w_ij}∈R^n·n

本发明从已有配图新闻中选取图片作为配图素材，解决了图片版权问题，并进一步实现了自动化配图，通过背景变换和风格迁移还在一定程度上增加了图片多样性，扩充了图片集。本发明可被应用于媒体新闻配图需求场景上，在节省人力的同时实现一种评价客观的配图方式。

上述实施例只是对本发明构思和实现的说明，并非对其进行限制，在本发明构思下，未经实质变换的技术方案仍然在保护范围内。

Claims

1.一种基于新闻内容语义分析的多媒体智能配图方法，其特征在于包括如下步骤：

S6：对背景更新图片进行风格迁移和平滑处理。

2.如权利要求1所述的基于新闻内容语义分析的多媒体智能配图方法，其特征在于，所述S1中分类时分为两类，一类为固定模式配图，一类为可变模式配图。

3.如权利要求1所述的基于新闻内容语义分析的多媒体智能配图方法，其特征在于，所述S2中按如下方法生成对所述已有配图新闻的图片的第一文字描述：将所述已配图新闻的标题作为所述已配图新闻的图片的初始描述，对于所述已配图新闻的图片相同的所述已配图新闻的标题，取所述已配图新闻的标题的并集作为所述已配图新闻的图片初始描述；根据图片分类结果，对所述已配图新闻的图片的初始描述进行内容提取，生成对所述已有配图新闻的图片的第一文字描述。

4.如权利要求2所述的基于新闻内容语义分析的多媒体智能配图方法，其特征在于，在所述S3中按如下方法生成对未配图新闻的第二文字描述：若为固定模式配图则使用新闻标题作为所述未配图新闻的初始描述；若为可变模式则使用textrank算法对所述未配图新闻进行摘要提取，同时与所述未配图新闻的标题取并集作为所述未配图新闻的初始描述；然后对所述未配图新闻的初始描述进行内容提取，生成对所述未配图新闻的第二文字描述。

5.如权利要求1所述的基于新闻内容语义分析的多媒体智能配图方法，其特征在于，在所述S2中，对所述第一文字描述使用预训练bert模型进行向量化得到所述第一向量α，在所述S3中对所述第二文字描述使用预训练bert模型进行向量化得到所述第二向量β，计算所述第一向量α和第二向量β的余弦距离：

matches(a，b)＝match(a，b)/max_match

其中a为从所述第一文字描述中提取的词，b为从所述第二文字描述提取的词，matches(a，b)为a,b中形同词的匹配次数，max_match为所有matches(a，b)中的最大值；

再计算所述已配图新闻的图片与所述未配图新闻的匹配度：

l＝matches(a，b)-k*dis(α，β)；

其中k为***预设的超参数；

6.如权利要求1所述的基于新闻内容语义分析的多媒体智能配图方法，其特征在于，所述S5中，将所述背景库的图片与所述备选图片通过双线性插值的方式放缩至统一尺寸，再对固定背景语义的部分进行切换。

7.如权利要求1所述的基于新闻内容语义分析的多媒体智能配图方法，其特征在于，按如下操作进行所述风格迁移和平滑处理：

训练一个以图像重构为损失函数的自动编码器，将使用自动编码器提取到的特征送入WCT算子进行变换，然后进行解码还原为相应的RGB空间图片；使用gram矩阵定义相似像素的相似风格，然后将风格差异结合像素的相似性矩阵定义出一个目标损失函数，通过优化目标损失最小得到风格统一的图片。

8.根据权利要求2所述的基于新闻内容语义分析的多媒体智能配图方法，其特征在于，所述固定模式配图针对配图逻辑固定的专栏类新闻；所述可变模式配图针对配图与标题和新闻内容都相关的新闻。

9.根据权利要求2所述的基于新闻内容语义分析的多媒体智能配图方法，其特征在于，按如下方法对所述已配图新闻的图片的初始描述进行内容提取，生成对所述已有配图新闻的图片的第一文字描述：若为固定模式配图，则利用候选词库进行规则匹配关键词，生成所述第一文字描述；若为可变模式配图，则利用TF-IDF进行关键词提取，其中TF范围为当前所述已配图新闻的图片的初始描述，IDF范围为所有已配图新闻的图片的初始描述的集合。