CN117075778B

CN117075778B - 一种图片文字的信息处理***

Info

Publication number: CN117075778B
Application number: CN202311320696.1A
Authority: CN
Inventors: 马孟歆
Original assignee: Beijing Zhiwen Chuangxiang Technology Co ltd
Current assignee: Beijing Zhiwen Chuangxiang Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-12-26
Anticipated expiration: 2043-10-12
Also published as: CN117075778A

Abstract

本发明公开了一种图片文字的信息处理***，涉及计算机技术领域，本发明通过深度卷积神经网络进行图像分割，提取图像中的语义区域，再通过文本信息提取和关联识别图像中的关键物体，以及包含文本的区域，文本区域经过光学字符识别转换为可读文本，然后通过比较物体的边界框和文本区域实现的物体与文本之间的关联，将图像中的物体与对应的文本信息关联起来，采用语义关系图对图文进行信息展示，以节点代表图像中的文本、物体和背景的语义信息，以边表示节点之间的关系，采用图神经网络模型关系进行捕捉，从而实现对文本和图像的推理性解释，使***能够更深入地理解文本和图像之间的复杂语义关系。

Description

一种图片文字的信息处理***

技术领域

本发明涉及计算机技术领域，具体为一种图片文字的信息处理***。

背景技术

在日常生活中，人们可以将图像中的场景、色彩、逻辑关系等低层视觉特征信息自动建立关系，从而感知图像的高层语义信息，但是计算机作为工具只能提取到数字图像的低层数据特征，而无法像人类大脑一样生成高层语义信息，这就是计算机视觉中的“语义鸿沟”问题。

而图片文字识别技术即图片文字的信息处理技术，则是实现跨越“语义鸿沟”的技术，通常来说，图片文字识别首先需要对原始图片进行预处理，包含：灰度化、二值化、降噪、倾斜矫正、文字切分，图片预处理完毕后，在进行特征提取和降维以及分类器设计、训练，最后再对分类器的分类结果进行优化，最终输出图片文字的可识别信息。

然而传统的图片文字信息处理***难以捕捉图像和文本之间的复杂语义关系，导致输出结果缺乏深度理解，无法深度理解图像和文本之间的复杂关系，容易错过关键信息导致输出结果的信息丢失、不准确性或者产生歧义，因此亟需一种可以对文本和图像进行推理性解释的图片文字的信息处理***来解决此类问题。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种图片文字的信息处理***，解决现有技术中存在的难以捕捉图像和文本之间的复杂语义关系，容易错过关键信息导致输出结果的信息丢失、不准确性或者产生分歧的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现，本发明提供了一种图片文字的信息处理***，包括：

图像分割模块，用于对预处理后的图像进行图像分割，并提取图像中的语义区域；

目标检测模块，对所述预处理后的图像进行目标检测，识别图像中的关键物体，并基于SSD技术提取文本信息进行识别，将物体与语义区域进行关联；

文本关联模块，包括语义关系图，语义关系图基于图神经网略模型进行构建，对文本和图像进行推理性解释；

所述推理性解释方法具体为：

将每个节点的特征表示作为初始特征输入选择的模型中进行特征传播；

此处的所述节点即图像中的文本、物体和背景的语义信息需要根据邻近的节点信息进行更新；

通过关系预测来推断文本和物体之间的关系；

所述关系预测方法具体为：

使用所选择的图神经网络模型学习节点的表示，设初始节点为：，其中代表节点v的特征；

进行推理性解释步骤中的节点信息更新，更新规则为：

，

其中，是节点v在k+1层的表示，用激活函数表示，N(v) 是节点v的邻居节点集合，W为学习的权重矩阵；

采用分类器对节点间的关系进行预测，所述分类器为全连接层分类器，设节点间有C种类别关系，则：

，

其中，是节点u和v之间的关系预测概率，/>和/>是分类器的权重矩阵，和/>分别是节点u和v在最终层K的表示；

可视化结果输出单元，将识别的文本与图像中的语义区域以及物体进行可视化关联，以可视化形式输出，输出内容包括实体识别，图文关联、背景分析和关联性分析。

本发明进一步地设置为：所述图像预处理内容至少包括：除噪、增强对比度；

所述图像分割模块通过深度卷积神经网络CNN，从预处理后的图像中提取特征；

所述从预处理后的图像中提取特征方法具体包括：

将预处理后的图像作为输入并表示为I，I为W*C*H的张量，W为图像的宽度，H为图像的高度，C为通道数，采用卷积层进行特征提取，卷积操作公式为：

，

其中表示卷积层的输出特征图，/>为滤波器的权重，/>为偏置项，/>表示ReLU激活函数；

进行多层卷积，每个层具有不同数量的卷积核，用于提取不同级别的特征，用来捕捉图像的局部和全局特征；

采用平均池化减少特征图尺寸，提取关键特征：

，/>就是池化后的特征图像素值；

再通过多个全连接层进行分类、回归；

本发明进一步地设置为：所述从预处理后的图像中提取特征方法还包括：

基于深度学习模型FCN对提取的特征进行处理，将图像中的每个像素分配到对应的语义类别，生成具有语义标签的分割结果，包含了图像中的不同物体和文本；

本发明进一步地设置为：所述FCN进行特征提取步骤中：

输入图像I的卷积和池化层，并提取特征；

转置卷积使所提取特征分辨率与原始图像相匹配，并进行采样；

对上采样后的特征图应用1x1卷积层生成每个像素的语义分数；

再通过softmax获得像素级别的类别分布，为每个像素提供与每个语义类别相关的概率分布；

以最高概率的语义类别作为其语义标签，即包含语义标签的分割结果；

本发明进一步地设置为：所述目标检测模块中，进行文本提取和识别的步骤包括：

将预处理后的图像作为输入，基于SSD模型进行目标检测，输出每个物体的边界框和类别标签；

基于图像的文本区域检测算法检测包含文本的区域；

将检测到的文本区域提取出来，采用光学字符识别OCR转换为可读文本；

本发明进一步地设置为：所述物体与语义区域进行关联步骤包括：

通过比较物体的边界框和文本区域，将目标检测步骤中检测到的物体与文本识别步骤中识别的文本相关联；

再将关联的物体和文本信息整合到同一数据结构；

本发明进一步地设置为：所述语义关系图构建方式具体为：

图节点为图像中的文本、物体和背景的语义信息；

图边为节点关系，即文本与物体之间的关联、文本物体间的关系、文本之间的关系；

用所述图节点和图边构建语义关系图；

选用GCN、GAT模型对节点关系进行捕捉，建立图神经网络模型。

（三）有益效果

本发明提供了一种图片文字的信息处理***。具备以下有益效果：

本申请所提供的图片文字的信息处理***，在图像处理过程中通过深度卷积神经网络进行图像分割，提取图像中的语义区域，再通过文本信息提取和关联识别图像中的关键物体，以及包含文本的区域，文本区域经过光学字符识别转换为可读文本，然后通过比较物体的边界框和文本区域实现的物体与文本之间的关联，将图像中的物体与对应的文本信息关联起来。

在文本关联模块中，采用语义关系图对图文进行信息展示，以节点代表图像中的文本、物体和背景的语义信息，以边表示节点之间的关系，采用图神经网络模型关系进行捕捉，从而实现对文本和图像的推理性解释，使***能够更深入地理解文本和图像之间的复杂语义关系，有助于更深入地理解文本和图像之间的关系，提高了语义解释的质量。

解决了现有技术中存在的难以捕捉图像和文本之间的复杂语义关系，容易错过关键信息导致输出结果的信息丢失、不准确性或者产生分歧的问题。

附图说明

图1为本发明的图片文字的信息处理***框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1，本发明提供一种图片文字的信息处理***，包括：

S1.图像分割模块，用于对预处理后的图像进行图像分割，并提取图像中的语义区域。

图像预处理内容至少包括：除噪、增强对比度；

图像分割模块通过深度卷积神经网络CNN，从预处理后的图像中提取特征；

从预处理后的图像中提取特征方法具体包括：

，

采用平均池化减少特征图尺寸，提取关键特征：

，/>就是池化后的特征图像素值；

再通过多个全连接层进行分类、回归；

训练过程中，权重以及偏置项/>通过反向传播和优化算法进行调整，使网络更高效学习图像特征，用于后续的图文关联。

基于深度学习模型FCN对提取的特征进行处理，将图像中的每个像素分配到对应的语义类别，生成具有语义标签的分割结果，包含了图像中的不同物体和文本。

FCN进行特征提取步骤中：

输入图像I的卷积和池化层，并提取特征；

对上采样后的特征图应用1x1卷积层生成每个像素的语义分数，语义分数表示像素属于每个语义类别的概率；

以最高概率的语义类别作为其语义标签，即包含语义标签的分割结果。

S2.目标检测模块，对预处理后的图像进行目标检测，识别图像中的关键物体，并基于SSD技术提取文本信息进行识别，将物体与语义区域进行关联。

目标检测模块中，进行文本提取和识别的步骤包括：

基于图像的文本区域检测算法检测包含文本的区域；

将检测到的文本区域提取出来，采用光学字符识别OCR转换为可读文本。

物体与语义区域进行关联步骤包括：

再将关联的物体和文本信息整合到同一数据结构。

S3.文本关联模块，包括语义关系图，语义关系图基于图神经网略模型进行构建，对文本和图像进行推理性解释。

语义关系图构建方式具体为：

图节点为图像中的文本、物体和背景的语义信息；

用图节点和图边构建语义关系图；

选用GCN、GAT模型对节点关系进行捕捉，建立图神经网络模型；

推理性解释方法具体为：

此处的节点即图像中的文本、物体和背景的语义信息需要根据邻近的节点信息进行更新；

通过关系预测来推断文本和物体之间的关系。

关系预测方法具体为：

进行推理性解释步骤中的节点信息更新，更新规则为：

，

采用分类器对节点间的关系进行预测，分类器为全连接层分类器，设节点间有C种类别关系，则：

，

其中，是节点u和v之间的关系预测概率，/>和/>是分类器的权重矩阵，和/>分别是节点u和v在最终层K的表示。

S4.可视化结果输出单元，将识别的文本与图像中的语义区域以及物体进行可视化关联，以可视化形式输出，输出内容包括实体识别，图文关联、背景分析和关联性分析。

综合以上内容，在本申请中：

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种图片文字的信息处理***，其特征在于，包括：

文本关联模块，包括语义关系图，语义关系图基于图神经网络模型进行构建，对文本和图像进行推理性解释；

所述推理性解释方法具体为：

通过关系预测来推断文本和物体之间的关系；

所述关系预测方法具体为：

使用所选择的图神经网络模型学习节点的表示，设初始节点为：

其中X_v代表节点v的特征；

进行推理性解释步骤中的节点信息更新，更新规则为：

其中，是节点v在k+1层的表示，用激活函数表示，N(v)是节点v的邻居节点集合，W为学习的权重矩阵；

其中，y_uv是节点u和v之间的关系预测概率，W_c和W_r是分类器的权重矩阵，和/>分别是节点u和v在最终层K的表示；

可视化结果输出单元，将识别的文本与图像中的语义区域以及物体进行可视化关联，以可视化形式输出，输出内容包括实体识别，图文关联、背景分析和关联性分析；

所述图像预处理内容至少包括：除噪、增强对比度；

所述从预处理后的图像中提取特征方法具体包括：

F_i＝σ(W_i*I+b_i)，

其中F_i表示卷积层的输出特征图，W_i为滤波器的权重，b_i为偏置项，σ表示ReLU激活函数；

采用平均池化减少特征图尺寸，提取关键特征：

P_i.j就是池化后的特征图像素值，m和n分别用于定义窗口的高度和宽度，F_i[m，n]表示在第i个卷积层的特征图中位于位置(m，n)的像素值；

再通过多个全连接层进行分类、回归。

2.根据权利要求1所述的一种图片文字的信息处理***，其特征在于，所述从预处理后的图像中提取特征方法还包括：

3.根据权利要求2所述的一种图片文字的信息处理***，其特征在于，所述FCN进行特征提取步骤中：

输入图像I的卷积和池化层，并提取特征；

4.根据权利要求1所述的一种图片文字的信息处理***，其特征在于，所述目标检测模块中，进行文本提取和识别的步骤包括：

基于图像的文本区域检测算法检测包含文本的区域；

5.根据权利要求1所述的一种图片文字的信息处理***，其特征在于，所述物体与语义区域进行关联步骤包括：

再将关联的物体和文本信息整合到同一数据结构。

6.根据权利要求1所述的一种图片文字的信息处理***，其特征在于，所述语义关系图构建方式具体为：

图节点为图像中的文本、物体和背景的语义信息；

用所述图节点和图边构建语义关系图；