CN112801099B

CN112801099B - 一种图像处理方法、装置、终端设备及介质

Info

Publication number: CN112801099B
Application number: CN202010490243.3A
Authority: CN
Inventors: 曹浩宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2024-05-24
Anticipated expiration: 2040-06-02
Also published as: CN112801099A

Abstract

本申请实施例公开了一种图像处理方法、装置、终端设备及介质，其中方法包括：可将待处理图像转换为文本序列，并确定文本序列包括的键字段和值字段，将键字段和值字段两两组合，得到至少一个键值文本序列，获取每个键值文本序列中键字段和值字段的特征信息，依照该特征信息对每个键值文本序列中的键字段和值字段进行配对处理，基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本。通过将图像数据转换为结构化数据，能够为用户提供更有价值的参考数据，提升了图像处理方案的实用性和智能性。

Description

一种图像处理方法、装置、终端设备及介质

技术领域

本申请涉及互联网技术领域，具体涉及计算机技术领域，尤其涉及一种图像处理方法、一种图像处理装置、一种终端设备及一种计算机存储介质。

背景技术

随着移动互联网的迅速发展，图像文字识别技术的应用也日益广泛。该图像文字识别技术例如可以为OCR(Optical Character Recognition，光学字符识别)技术，OCR技术主要是对输入图像进行电子扫描并从中提取文字信息，从而减轻用户输入对应文字信息的负担，方便用户存储、编辑对应的文字信息，能节省大量人力资源。但是OCR技术识别出的结果仅仅是一串可编辑的字符串，对于用户而言其价值性较小，这种图像文字识别技术的实用性较低。

发明内容

本申请实施例提供了一种图像处理方法、装置、终端设备及介质，通过将图像数据转换为结构化数据，能够为用户提供更有价值的参考数据，提升了图像处理方案的实用性和智能性。

一方面，本申请实施例提供了一种图像处理方法，该方法包括：

将待处理图像转换为文本序列；

对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段；

将键字段和值字段两两组合，得到至少一个键值文本序列，每个键值文本序列中包括一个键字段和一个值字段；

获取每个键值文本序列中键字段和值字段的特征信息；

依照特征信息对每个键值文本序列中的键字段和值字段进行配对处理；

基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本。

另一方面，本申请实施例提供了一种图像处理装置，该图像处理装置包括：

转换单元，用于将待处理图像转换为文本序列；

处理单元，用于对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段，将键字段和值字段两两组合，得到至少一个键值文本序列，获取每个键值文本序列中键字段和值字段的特征信息，依照特征信息对每个键值文本序列中的键字段和值字段进行配对处理；

输出单元，用于基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本。

相应地，本申请实施例还提供了一种终端设备，该终端设备包括输出设备、处理器和存储装置；存储装置，用于存储程序指令；处理器，用于调用程序指令并执行上述的图像处理方法。

相应地，本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述的图像处理方法。

本申请实施例可将待处理图像转换为文本序列，对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段。进一步地，可以将键字段和值字段两两组合，得到至少一个键值文本序列，并获取每个键值文本序列中键字段和值字段的特征信息，依照该特征信息对每个键值文本序列中的键字段和值字段进行配对处理，进而基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本。通过将图像数据转换为结构化数据，能够为用户提供更有价值的参考数据，提升了图像处理方案的实用性和智能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的应用场景图；

图2是本申请实施例提供的一种图像处理方法的流程示意图；

图3是本申请实施例提供的一种命名实体模型的结果示意图；

图4是本申请实施例提供的一种通过命名实体模型进行键值分类的场景示意图；

图5是本申请实施例提供的一种键值配对的流程示意图；

图6是本申请实施例提供的另一种图像处理方法的流程示意图；

图7a是本申请实施例提供的另一种图像处理方法的应用场景图；

图7b是本申请实施例提供的又一种图像处理方法的应用场景图；

图7c是本申请实施例提供的又一种图像处理方法的应用场景图；

图8是本申请实施例提供的一种特征提取和配对处理的场景示意图；

图9是本申请实施例提供的一种确定键字段和值字段在待处理图像中宽高比的场景示意图；

图10是本申请实施例提供的一种图像处理装置的结构示意图；

图11是本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

AI(Artificial Intelligence，人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

NLP(Nature Language processing，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在计算机视觉中OCR是一种图像文字识别技术，是对输入图像进行电子扫描并从中提取文字的过程，可以减轻用户输入对应文字信息的负担，方便用户存储、编辑对应的文字信息，有利于节省大量人力资源。但OCR识别出的结果仅仅是一串可编辑的字符串，不包含任何结构化信息，其价值性较小，而对于用户而言，真正有价值的恰恰是结构化数据。例如在企业执照识别中，用户需要的是企业名称、法人等重要字段的识别结果而非单纯文字识别结果。因此，如何将图像数据转换为结构化数据成为一个重要研究方向。其中，结构化数据可以理解为Key键Value值对这类的结构化结果。

示例性地，参见图1，假设待处理的图像为如图1左图所示的营业执照图像，那么该营业执照图像对应的结构化数据则可以如图1右图所示，该结构化数据中包括的键值对分别为如表1所示。

表1

目前，可以通过OCR结构化方法将图像数据转换为结构化数据，现有的OCR结构化方法通常可以包括基于图像特征的模版配准方法和基于文本特征的定制字段检测方法。

其中，基于图像特征的模版配准方法可以根据模版图像中的锚点特征(例如固定文字、字段分布等)将待结构化的图像映射到模板图像，并根据位置信息提取相应字段的结构化结果，从而实现图像数据到结构化数据的转换。该方法存在如下缺点：

1.对图像质量及文字的识别结果要求较高，难以应对旋转、透视、扭曲等问题；

2.针对与模板图像版式不同的图像无法进行结构化数据的提取，仅适用于固定版式图像的OCR结构化场景。例如，上述模板配置方法中涉及的模板图像为居民身份证图像，那么表明该模板配置方法仅能较为准确地针对与该居民身份证图像版式相同的待处理图像进行相应处理。对于其它版式的身份证件图像，例如护照、驾照等，或者其它业务类型的图像，例如社保卡、营业执照、增值税***等，均无法检测或者检测准确度极低。

基于文本特征的定制检测方法可以通过专用的文本字段检测器检出所需待结构化字段的位置，然后通过文本识别器得到字段识别结果，从而实现图像数据到结构化数据的转换。该方法存在如下缺点：仅适用于固定版式图像的OCR结构化场景，在非固定版式图像的OCR结构化场景中，由于不同版式的图像中所需待结构化字段的位置不同，无法通过专用的文本字段检测器准确地检测出不同版式的图像中所需待结构化字段的位置，进而影响结构化数据提取的准确度。

可见，现有的OCR结构化方法均无法应用于非固定版式图像的结构化场景，适用范围受限。基于此，本申请实施例提出了一种图像处理方法，该方法可以由终端设备或者服务器执行，该终端设备可以访问图像处理平台或者运行有图像处理平台对应的应用，该服务器可以为图像处理平台对应的服务器。此处的终端设备可以为以下任一种：智能手机、平板电脑、膝上计算机等便携式设备，以及台式电脑，等等。相应的，上述服务器可以指为上述图像处理平台提供相应服务的服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***。

本申请实施例中，用户可以通过图像处理平台采集待处理图像(例如开启摄像装置拍摄图像)或者上传待处理图像，并触发对待处理图像的文本识别。这种情况下，终端设备或服务器可以将待处理图像转换为文本序列，对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段。进一步地，可以将键字段和值字段两两组合，得到至少一个键值文本序列，并获取每个键值文本序列中键字段和值字段的特征信息，依照该特征信息对每个键值文本序列中的键字段和值字段进行配对处理，进而基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本，其中，每个键值文本序列中包括一个键字段和一个值字段。通过将图像数据转换为结构化数据，能够为用户提供更有价值的参考数据，提升了图像处理方案的实用性和智能性。

可以看出，本申请实施例在将图像数据转换到结构化数据的过程中既不依赖于模板图像也不依赖于专用的文本字段检测器，输出结果的准确度不受待处理图像版式变化的影响，可以更加准确地从非固定版式的图像中提取出对应的结构化数据，适用于各类非固定版式图像的结构化场景，相比于现有的OCR结构化方法而言，应用范围更广。

除此之外，本申请实施例在对文本序列中键字段和值字段的配对处理过程中，是将文本序列中的每个键字段与所有值字段两两组合，得到至少一个键值文本序列，后续以键值文本序列为处理单位，可以使得每次特征信息的获取和配对处理，针对的对象仅为键值文本序列中的键字段和值字段，不存在其它字段信息的干扰，有利于提高配对结果的准确度，从而提高后续基于该配对处理结果所输出的结构化文本的准确度，也即，提高从待处理图像中提取对应结构化数据的准确度。

可以理解的是，上述固定版式的图像可以理解为单一版式，特指一种版式的图像；上述非固定版式的图像可以理解为多种版式的图像。例如，本申请实施例提出的图像处理方法，既可以从居民身份图像对应的图像数据中准确提取出对应的结构化文本，也可以从护照图像对应的图像数据中准确提取出对应的结构化文本，可以适用于多种版式的图像的OCR结构化场景。本申请实施例中的待处理图像可以包括以下任一种：营业执照图像、增值***图像、身份证图像或社保卡图像，对此不做具体限定。

在一个实施例中，上述将待处理图像转换为文本序列的过程可以是基于OCR方法实现，上述键值分类以及配对处理均可以是基于NLP方法实现，基于此，本申请实施例提出了另一种图像处理方法，该方法可以由上述所提及的终端设备或者服务器执行，请参见图2，该图像处理方法可包括以下步骤S201-S204：

S201：图像输入、OCR识别和排版处理。用户可以通过图像处理平台采集待处理图像或者上传待处理图像，并触发对待处理图像的文本识别。这种情况下，终端设备或服务器可以通过OCR对输入图像处理平台的待处理图像进行识别，并对识别结果进行排版处理得到文本序列。其排版处理的具体实施方式可以为：将识别结果包括的离散字符拼接形成段落文本。

S202：键值分类。具体实现中，可以对文本序列进行键值分类，得到键值分类结果，该键值分类结果包括文本序列中各个字符的分类标签，每个分类标签用于指示对应字符的字符类型及字符在所属字段中的位置，该位置包括以下任一种或者多种：起始位置、中间位置和结束位置，字符类型包括以下任一种或者多种：键字符、值字符和其它字符。

其中，上述键值分类可以是调用命名实体模型或者基于位置的单字分类模型进行的。具体实现中，在调用命名实体模型或者基于位置的单字分类模型之间，均可以预先通过大量标注有分类标签的文本序列对命名实体模型或者基于位置的单字分类模型进行训练，后续可以将执行步骤S201后得到的文本序列输入训练完成的命名实体模型或者基于位置的单字分类模型，由该命名实体模型或者基于位置的单字分类模型输出包括文本序列中各个字符的分类标签的键值分类结果。

其中，上述基于位置的单字分类模型可以为CUTIE(Convolutional UniversalText Information Extractor，卷积通用文本信息提取器)与分类器相结合的模型，该CUTIE用于提取文本序列中各个字符的特征信息，并输入分类器；该分类器用于根据各个字符的特征信息对各个字段进行分类，确定各个字符的分类标签。上述命名实体模型可以为Bi-LSTM(Bi-directional Long Short-Term Memory，双向长短时记忆循环神经网络)与CRF(conditional random field，条件随机场)相结合的模型，其网络结构图参见图3所示，包括文本输入模块、特征提取模块、语义模型和键值分类模块。其中，文本输入模块，用于输入文本序列；特征提取模块，用于提取文本序列中各个字符的向量特征，并将各个字符的向量特征输入至语义模型中；语义模型，用于输出每个字符的向量属于各个分类标签的概率[p1，p2，...pi]，也可以理解为输出每个字符属于各个分类标签的概率[p1，p2，...pi]；键值分类，用于基于语义模型输出的各个字符属于各个分类标签的概率，将各个概率最高的分类标签确定为各个字符的目标分类标签，其中，i为大于0的整数。例如，文本序列中字符“成”属于分类标签1的概率最高，字符“立”属于分类标签2的概率最高，则可以将分类标签1确定为字符“成”的目标分类标签，将分类标签2确定为字符“立”的目标分类标签。该分类标签可以如表2所示。可以看出，本申请实施例提出的命名实体模型，区别于传统命名实体识别方法，一方面，其输出的标签结果仅为Key、Value两大类，收敛性及算法效果更好；另一方面，不依赖于待识别文本的版式信息及图像特征，适用领域更为广泛。

表2

示例性地，参见图4，当文本序列的内容为“成立日期2019年”时，调用图3所示的命名实体模型进行键值分类，该命名实体模型可以输出文本序列中9个字符“成”、“立”、“日”、“期”、“2”、“0”、“1”、“9”和“年”的分类标签，分别为：“B-Key”、“I-Key”、“I-Key”、“E-Key”、“B-Value”、“I-Value”、“I-Value”、“I-Value”和“E-Value”。

进一步地，在得到包括文本序列中各个字符的分类标签的键值分类结果后，可以基于键值分类结果确定文本序列包括的键字段和值字段。具体地，可以按照各个字符的分类标签的指示，将文本序列中字符类型为键字符且属于同一字段的字符整合为键字段，以及将文本序列中字符类型为值字符且属于同一字段的字符整合为值字段。示例性地，结合图4和表2，可以看出，通过文本序列“成立日期2019年”中各个字符的分类标签的指示，字符“成”、“立”、“日”和“期”均为键字符，且均属于同一字段，则可以将字符“成”、“立”、“日”和“期”整合为键字段“成立日期”。相应地，字符“2”、“0”、“1”、“9”和“年”均为值字符，且均属于同一字段，则可以将字符“2”、“0”、“1”、“9”和“年”整合为值字段“2019年”。

S203：特征提取和键值配对。作为一种可行的实施方式，参见图5，在确定出文本序列中的键字段和值字段之后，终端设备或者服务器可以提取文本序列中各个键字段和值字段的特征信息，基于各个键字段和值字段的特征信息对各个键字段和值字段进行配对处理，确定各个键字段与各个值字段两两所属的关系对类别，该关系对类别包括键值对类别或其它类别。进一步地，基于各个键字段与各个值字段两两所属的关系对类别，输出针对文本序列中键字段和值字段的配对结果，该配对结果指示了文本序列中各个键字段与各个值字段两两所属的关系对类别。

其中，基于各个键字段和值字段的特征信息对各个键字段和值字段进行配对处理的具体方式可以为：调用匹配模型对各个键字段和值字段的特征信息进行解析，确定文本序列中各个键字段和值字段的配对结果。此处的特征信息可包括以下任一种或者多种：语义信息、位置信息和图像信息。其中，位置信息可以为各个键字段和值字段在待处理图像中的位置信息(例如位置坐标或者行列信息)，该图像信息可以为各个键字段和值字段在待处理图像中所处图像区域的图像信息，例如图像RGB值、灰度值、像素值等等。

具体实现中，可以通过NLP模型(如语义表示模型Bert、Transformer)等)提取各个键字段和各个值字段的语义信息；可以通过位置信息提取模型确定各个键字段和值字段在待处理图像中的位置信息；可以通过图像信息提取模型确定各个键字段和值字段在待处理图像中的图像信息。其中，上述位置信息提取模型和图像信息提取模型均可以为CNN(Convolutional Neural Network，卷积神经网络)，可以通过不同的训练样本对CNN进行训练，从而得到位置信息提取模型和图像信息提取模型。具体地，位置信息提取模型对应的训练样本包括样本字段，以及标注有样本字段的位置信息的样本图像；图像信息提取模型对应的训练样本包括样本字段，以及标注有样本字段所处图像区域的图像信息的样本图像。

在一个实施例中，在确定出文本序列包括的键字段和值字段之后，可以将文本序列中的各个键字段和值字段输入上述NLP模型，通过NLP模型提取各个键字段和值字段的语义信息。将待处理图像、文本序列中的各个键字段和值字段输入训练得到的位置信息提取模型和图像信息提取模型，通过位置信息提取模型确定各个键字段和值字段在待处理图像中的位置信息，通过图像信息提取模型确定各个键字段和值字段在待处理图像中所处图像区域的图像信息。

可以理解是，当上述特征信息包括语义信息、位置信息和图像信息时，语义信息、位置信息和图像信息的提取过程分别为三个独立的过程，执行不存在先后顺序，可以并行，本申请对此不作具体限定。

其中，上述匹配模型可以为分类模型(如随机森林、线性回归、逻辑回归、决策树、SVM(Support Vector Machine，支持向量机)、神经网络等)或者图模型(如GCN(GraphConvolutional Network，图卷积神经网络)等)。

以分类模型为例，在确定出文本序列包括的所有键字段和值字段的特征信息之后，可以一一将各个键字段的特征信息与所有值字段的特征信息合并输入分类模型，分类模型可以确定各个键字段与各个值字段是否为关系对，并输出配对结果，该配对结果指示了键字段和值字段所属的关系对类别。

示例性地，假设文本序列中包括的所有键字段和值字段分别为键字段1、键字段2、键字段3、值字段1、值字段2和值字段3，这种情况下，在确定出文本序列包括的所有键字段和值字段的特征信息之后，可以首先将键字段1的特征信息与所有值字段的特征信息合并输入分类模型，通过分类模型确定键字段1的特征信息与每个值字段是否为关系对，若确定出键字段1和与值字段2互为关系对，则可以输出配对结果，该配对结果指示了键字段1和值字段2所属的关系对类别为键值对类别。依次类推，后续可以依次将键字段2的特征信息与所有值字段的特征信息合并输入分类模型，将键字段3的特征信息与所有值字段的特征信息合并输入分类模型，并输出对应的配对结果。

可以理解是，若文本序列中的键字段和值字段之间的关系是一一对应关系，那么在通过分类模型对各个键字段和各个值字段进行配对的过程中，若已确定出目标键字段与目标值字段互为关系对(即两者所属的关系对类别为键值对类别)，那么后续再确定与其它键字段互为关系对的值字段时，可以无需将所有值字段的特征信息均输入分类模型，仅输入除目标值字段以外的其它值字段的特征信息，有利于减少分类模型的计算量，提高键字段和值字段的配对效率。例如，文本序列中包括的所有键字段和值字段分别为键字段1、键字段2、键字段3、值字段1、值字段2和值字段3，在此之前，已通过分类模型确定键字段1和与值字段2互为关系对，那么后续在确定与键字段2互为关系对的值字段时，可以将键字段2、值字段1和值字段3的特征信息合并输入分类模型，而无需输入所有值字段的特征信息。

或者，在确定与所有键字段中的最后一个键字段互为关系对的值字段时，可以无需通过分类模型确定，而是直接将所有值字段中未与任一个键字段配对的目标值字段，确定为与上述最后一个键字段互为关系对的值字段。例如，文本序列中包括的所有键字段和值字段分别为键字段1、键字段2、键字段3、值字段1、值字段2和值字段3，在此之前，已通过分类模型确定出键字段1和与值字段2互为关系对，键字段2和值字段3互为关系对，这种情况下，可以直接确定键字段3和值字段1互为关系对。

作为另一种可行的实施方式，在确定出文本序列中的键字段和值字段之后，终端设备或者服务器可以将键字段和值字段两两组合，得到至少一个键值文本序列。进一步地，可以获取每个键值文本序列中键字段和值字段的特征信息，依照特征信息对每个键值文本序列中的键字段和值字段进行配对处理，得到每个键值文本序列中键字段和值字段的配对结果，其中，每个键值文本序列中包括一个键字段和一个值字段，该配对结果指示了每个键值文本序列中键字段和值字段所属的关系对类别。

S204：结构化输出。具体实现中，终端设备或者服务器可以基于上述配对结果的指示确定与文本序列中各个键字段配对的目标值字段，并在视频处理平台的页面上关联性显示各个键字段以及各个键字段各自对应的目标值字段。该关联性显示例如可以为在同一行中显示各个键字段和各个键字段各自对应的目标值字段(例如图1的右图所示)。

基于上述的描述，本申请实施例提出又一种图像处理方法，该方法可以由上述所提及的终端设备或者服务器执行，请参见图6，该图像处理方法可包括以下步骤S601-S605：

S601，将待处理图像转换为文本序列。其中，待处理图像可以为多种业务图像，例如可以包括以下任一种：营业执照图像、增值***图像、身份证图像或社保卡图像。在一个实施例中，用户可以通过图像处理平台采集待处理图像(例如开启摄像装置拍摄图像)或者上传待处理图像，并触发对待处理图像的文本识别。示例性地，参见图7a，待处理图像为营业执照图像，用户通过图像处理平台开启摄像头拍摄营业执照图像，图像处理平台可以在页面(如图7a右图所示)中展示用户拍摄得到的营业执照图像，用户可以通过点击、按压或者语音等方式触发该页面中的“文本识别”功能按钮，从而触发对该营业执照图像的文本识别。

进一步地，在检测到用户触发对待处理图像的文本识别之后，终端设备或者服务器可以调用文本检测模型对获取到的待处理图像进行文本识别，并排版处理文本识别结果，得到待处理图像对应的文本序列。其中，该文本检测模型例如可以为OCR文本检测模型(如EAST(An Efficient and Accurate Scene Text Detector，一种高效准确的场景文本检测器)或者其它用于文本识别的神经网络网络模型。

其中，由于文本识别结果通常为一串离散字符，上述排版处理文本识别结果，得到待处理图像对应的文本序列的具体实施方式可以为：对文本识别结果进行排版处理，将离散字符拼接形成段落文本(即文本序列)。有利于在后续对文本序列处理的过程中快速从中提取出有效信息。

S602，对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段。其中，值字段为文本序列中的命名实体，键字段为命名实体对应的文本项，所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还可包括数字、日期、货币、地址等等。示例性地，假设待处理图像为图1右图所示的营业执照图像，该营业执照图像中的“XX服务有限公司”即为命名实体，“名称”即为“XX服务有限公司”对应的文本项。

在一个实施例中，可以预先通过大量标注有分类标签的文本序列对命名实体模型或者基于位置的单字分类模型进行训练，在将待处理图像转换为文本序列之后，可以调用训练完成的上述命名实体模型或者基于位置的单字分类模型对文本序列进行键值分类，输出包括文本序列中各个字符的分类标签的键值分类结果。示例性地，该命名实体模型可以为如图3所示的Bi-LSTM与CRF相结合的模型，调用该命名实体模型对文本序列进行键值分类的具体实施方式，可参上上述实施例中对步骤S202的相关描述，此处不再赘述。

其中，文本序列可以包括包含多个字段，每个字段包括一个或多个字符，每个分类标签(如上述表2所示)用于指示字符的字符类型及字符在所属字段中的位置，该位置包括以下任一种或者多种：起始位置、中间位置和结束位置，该字符类型包括以下任一种或者多种：键字符、值字符和其它字符。这种情况下，在通过上述命名实体模型或者基于位置的单字分类模型确定出包括文本序列中各个字符的分类标签的键值分类结果后，可以按照各个字符的分类标签的指示，将文本序列中字符类型为键字符且属于同一字段的字符整合为键字段，以及将文本序列中字符类型为值字符且属于同一字段的字符整合为值字段。

示例性地，假设文本序列的内容为“成立日期2019年”，文本序列中9个字符“成”、“立”、“日”、“期”、“2”、“0”、“1”、“9”和“年”的分类标签，分别为：“B-Key”、“I-Key”、“I-Key”、“E-Key”、“B-Value”、“I-Value”、“I-Value”、“I-Value”和“E-Value”。这种情况下，通过9个字符中各个字符的分类标签的指示，字符“成”、“立”、“日”和“期”均为键字符，且均属于同一字段，则可以将字符“成”、“立”、“日”和“期”整合为键字段“成立日期”。相应地，字符“2”、“0”、“1”、“9”和“年”均为值字符，且均属于同一字段，则可以将字符“2”、“0”、“1”、“9”和“年”整合为值字段“2019年”。

S603，将键字段和值字段两两组合，得到至少一个键值文本序列，每个键值文本序列中包括一个键字段和一个值字段。

S604，获取每个键值文本序列中键字段和值字段的特征信息，并依照特征信息对每个键值文本序列中的键字段和值字段进行配对处理。

在一个实施例中，当获取到每个键值文本序列中键字段和值字段的特征信息之后，可以将每个键值文本序列中键字段和值字段的特征信息输入匹配模型，通过匹配模型解析每个键值文本序列中键字段和值字段的特征信息，并对每个键值文本序列中键字段和值字段进行配对处理，得到每个键值文本序列中键字段和值字段的配对结果。其中，该配对结果指示了每个键值文本序列中键字段和值字段所属的关系对类别，该关系对类别包括键值对类别或其它类别；上述匹配模型可以为分类模型(如随机森林、线性回归、逻辑回归、决策树、SVM(Support Vector Machine，支持向量机)、神经网络等)或者图模型(如GCN(GraphConvolutional Network，图卷积神经网络)等)。

以分类模型为例，对于任一键值文本序列，在确定出该任一键值文本序列中键字段和值字段的特征信息之后，可以将该任一键值文本序列中键字段和值字段的特征信息合并输入分类模型，分类模型可以基于该任一键值文本序列中键字段和值字段的特征信息判断该任一键值文本序列中键字段和值字段是否为关系对，若是，则确定该任一键值文本序列中键字段和值字段所属的关系对类别为键值对类别；若否，则可以确定该任一键值文本序列中键字段和值字段所属的关系对类别为其它类别。进一步地，可以基于上述确定出的该任一键值文本序列中键字段和值字段所属的关系对类别，输出针对该任一键值文本序列中键字段和值字段的配对结果，该配对结果指示了该任一键值文本序列中键字段和值字段所属的关系对类别。

示例性地，假设文本序列中包括的所有键字段和值字段分别为键字段1、键字段2、值字段1和值字段2，将每个键字段和所有值字段两两组合，得到4个键值文本序列，每个键值文本序列包括的键字段和值字段如表3所示。在确定出每个键值文本序列中键字段和值字段的特征信息之后，可以首先将键值文本序列1中键字段1和值字段1的特征信息合并输入分类模型，通过分类模型确定键值文本序列1中键字段1和值字段1是否为关系对，若是，则确定键值文本序列1中键字段1和值字段1所属的关系对类别为键值对类别，若否，则可以确定键值文本序列1中键字段1和值字段1所属的关系对类别为其它类别，并基于确定出的键字段1和值字段1所属的关系对类别，输出针对键值文本序列1中键字段1和值字段1的配对结果，该配对结果指示了键值文本序列1中键字段1和值字段1所属的关系对类别。依次类推，后续可以依次将键值文本序列2中键字段1和值字段2的特征信息合并输入分类模型，将键值文本序列3中键字段2和值字段1的特征信息合并输入分类模型，将键值文本序列4中键字段2和值字段2的特征信息合并输入分类模型，从而得到针对键值文本序列2中键字段1和值字段2、键值文本序列3中键字段2和值字段1，以及键值文本序列4中键字段2和值字段2的配对结果。

表3

键值文本序列	包括的键字段和值字段
		键值文本序列1	键字段1和值字段1
键值文本序列2	键字段1和值字段2
		键值文本序列3	键字段2和值字段1
键值文本序列4	键字段2和值字段2

其中，上述特征信息可以包括以下任一种或者多种：每个键值文本序列中键字段和值字段的语义信息、位置信息和属性信息，该属性信息用于表征每个键值文本序列中键字段和值字段的字段类型，该字段类型包括键字段类型或值字段类型，该位置信息用于表征每个键值文本序列中键字段和值字段在待处理图像中的相对位置，该位置信息包括每个键值文本序列中键字段和值字段在待处理图像中的位置坐标或相对于待处理图像的宽高比。

可以理解的是，键字段和值字段的出现通常具有很强的位置相关性，该位置相关性主要指键字段和值字段在待处理图像中的显示位置，例如中文版式的键字段和值字段在待处理图像中的显示位置通常为：键字段在左，值字段在右(如图1的左图所示)，或者键字段在上，值字段在下等等。本申请实施例中，可以结合每个键值文本序列中键字段和值字段的语义信息、位置信息和属性信息对文本序列中的键字段和值字段进行配对处理，有利于进一步提高配对结果的准确性。

在一个实施例中，上述特征信息包括语义信息，终端设备或者服务器获取每个键值文本序列中键字段和值字段的语义信息的具体实施方式可以为：依照每个键值文本序列中键字段和值字段的位置对每个键值文本序列进行切分处理，并通过语义表示模型对每个切分处理后的键值文本序列进行特征提取，得到每个键值文本序列中键字段和值字段的语义信息。

其中，上述依照每个键值文本序列中键字段和值字段的位置对每个键值文本序列进行切分处理可以包括：依照每个键值文本序列中键字段和值字段的位置在每个键值文本序列中添加输入起始标志位、输入结束标志位、键字段的起始标志位、键字段的结束标志位、值字段的起始标志位和值字段的结束标志位。后续在通过语义表示模型对切分处理后的键值文本序列进行特征提取过程中，语义标志模型可以更加关注每个键值文本序列中键字段内和值字段内的语义信息，不受其它字段的影响，从而提高所提取到的语义信息的准确度。

示例性地，参见图8，假设某一键值文本序列中包括键字段1和值字段2，上述特征信息包括语义信息，上述语义表示模型可以为Bert，输入起始标志位、输入结束标志位、键字段的起始标志位、键字段的结束标志位、值字段的起始标志位和值字段的结束标志位分别如表4所示。这种情况下，可以基于上述键字段1和值字段2的位置，在上述键值文本序列中添加输入起始标志位“[Beg]”、输入结束标志位“[End]”、键字段1的起始标志位“[E1]”，键字段1的结束标志位“[/E1]”，值字段2的起始标志位“[E2]”，值字段2的结束标志位“[/E2]”，进一步地，可以将添加各个标志位后的键值文本序列输入Bert，通过Bert提取键字段1的语义信息和值字段2的语义信息。进一步地，可以将键字段1的语义信息和值字段2的语义信息输入分类模型，通过分类模型解析键字段1和值字段2的语义信息，并对键字段1和值字段2进行配对处理，得到键字段1和值字段2的配对结果，该配对结果指示了键字段1和值字段2所属的关系对类别，该关系对类别包括键值对类别(即图8中的KV对)，其它类别(如图8中的KK对和其它)。

表4

输入起始标志位	[Beg]
		键字段的起始标志位	[E1]
键字段的结束标志位	[/E1]]
		值字段的起始标志位	[E2]
值字段的结束标志位	[/E2]
		输入结束标志位	[End]

在一个实施例中，可以将待处理图像放入平面直角坐标系进行分析，上述特征信息包括位置信息，该位置信息用于表征每个键值文本序列中键字段和值字段在待处理图像中的相对位置，该位置信息包括每个键值文本序列中键字段和值字段在待处理图像中的位置坐标，该位置坐标包括横坐标(即平面直角坐标系中x轴的坐标)和纵坐标(即平面直角坐标系中y轴的坐标)。这种情况下，终端设备或者服务器调用上述文本检测模型对获取到的待处理图像进行文本识别，得到的文本识别结果不仅包括从待处理图像中提取到的字符串，还包括字符串中每个字符在待处理图像中的位置坐标，本申请实施例中可以将每个字符的中心点在待处理图像中位置坐标确定为每个字符在待处理图像中的位置坐标。进一步地，在确定出文本序列中包括的所有键字段和值字段之后，可以从上述文本识别结果中获取每个键字段中每个字符的位置坐标，每个值字段中每个字符的位置坐标，并依照每个键字段中每个字符的位置坐标确定每个键字段在待处理图像中的位置坐标，依照每个值字段中每个字符的位置坐标确定每个值字段在待处理图像中的位置坐标。

其中，依照每个键字段中每个字符的位置坐标确定每个键字段在待处理图像中的位置坐标的具体实施方式可以包括以下任一种或者多种：将每个键字段中第一个字符的位置坐标确定为每个键字段在待处理图像中的位置坐标、将每个键字段中最后一个字符的位置坐标确定为每个键字段在待处理图像中的位置坐标，以及将每个键字段中心点的位置坐标确定为每个键字段在待处理图像中的位置坐标。例如，某一键字段为“成立日期”，包括4个字符，每个字符的位置坐标分别为：(m1，n)、(m2，n)、(m3，n)和(m4，n)，那么该键字段“成立日期”中心点的位置坐标可以为((m1+m2+m3+m4)/2，n)。与之类似的，值字段在待处理图像中的位置坐标也可以采用与键字段相似的方式确定，此处不再赘述。

进一步地，在确定出文本序列中包括的所有键字段和值字段的位置坐标之后，可以将文本序列中包括的所有键字段和值字段的位置坐标存储至指定存储区域(例如终端设备或者服务器的本地存储区域、区块链或者云存储区域等等)。后续终端设备或者服务器可以从该指定存储区域中获取每个键值文本序列中键字段和值字段分别在待处理图像中的位置坐标，作为每个键值文本序列中键字段和值字段的位置信息。

或者，上述位置信息还包括每个键值文本序列中键字段和值字段相对于待处理图像的宽高比，在另一个实施例中，终端设备或服务器从上述文本识别结果中获取键字段中每个字符的位置坐标，值字段中每个字符的位置坐标之后，还可以获取待处理图像的宽度w(w>0)和高度h(h>0)，依照键字段中字符的位置坐标确定键字段的宽度x0以及高度y0，依照值字段中字符的位置坐标确定值字段的宽度x1以及高度y1，从而计算得到键字段相对于待处理图像的宽高比为：x0/w和y0/h；值字段相对于待处理图像的宽高比为：x1/w、y1/h。进一步地，可以将确定出的文本序列中包括的所有键字段和值字段相对于待处理图像的宽高比存储至上述指定存储区域。后续终端设备或者服务器可以从该指定存储区域中获取每个键值文本序列中键字段和值字段相对于待处理图像的宽高比，作为每个键值文本序列中键字段和值字段的位置信息。

示例性地，参见图9，假设待处理图像的宽度为w，高度为h，图9中“Kxy”的K表征键字段，下标“xy”分别表征对应键字段在待处理图像的宽度和高度；图9中“Vxy”的V表征值字段，下标“xy”分别表征对应值字段在待处理图像的宽度和高度。可以看出，终端设备或服务器可以根据文本序列中包括的所有键字段和值字段在待处理图像中的宽度和高度，以及待处理图像的宽度w和高度h，确定文本序列中所有键字段和值字段相对于待处理图像的宽高比。

其中，依照键字段中字符的位置坐标确定键字段的宽度x0以及高度y0的具体实施方式可以为：将键字段中最后一个字符与第一个字段之间横坐标的差值确定为该键字段的宽度x0，将键字段中任一个字符的纵坐标确定为该键字段的高度y0。相应地，依照值字段中字符的位置坐标确定值字段的宽度x1以及高度y1的方式，可以与键字段相似，此处不再赘述。

例如，假设宽度和高度的单位为厘米，键字段为“姓名”，第一个字符“姓”的位置坐标为(4，2)，第二个字符“名”的位置坐标为(6，2)，那么，该键字段的宽度可以确定为2厘米，高度可以确定为2厘米。

S605，基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本。该结构化文本可以指基于一定的显示规则或者显示方式显示的键字段以及与该键字段配对的目标值字段。

在一个实施例中，上述配对结果指示了每个键值文本序列中键字段和值字段所属的关系对类别，该关系对类别包括键值对类别或其它类别。终端设备或服务器可以依照每个键值文本序列中键字段和值字段的配对结果的指示，确定与文本序列中各个键字段配对的目标值字段，该目标值字段为文本序列中与对应键字段所属的关系对类别为键值对类别的值字段。进一步地，可以按照显示规则显示各个键字段以及与各个键字段配对的目标值字段。

示例性地，假设文本序列中包括的所有键字段和值字段分别为键字段1、键字段2、值字段1和值字段2，将每个键字段和所有值字段两两组合，得到4个键值文本序列，每个键值文本序列包括的键字段和值字段如表3所示，上述4个键值文本序列中键字段和值字段的配对结果分别指示了：键字段1和值字段1所属的关系对类别为键值对类别；键字段1和值字段2所属的关系对类别为其它类别；键字段2和值字段1所属的关系对类别为其它类别，键字段2和值字段2所属的关系对类别为键值对类别。这种情况下，终端设备或服务器可以确定与文本序列中键字段1配对的目标值字段为值字段1，与键字段2配对的目标值字段为值字段2。

其中，假设目标键字段为上述各个键字段中的任一个键字段，目标值字段为与目标键字段配对的值字段。上述显示规则可以包括在同一行中显示目标键字段及目标值字段，示例性地，假设文本序列中各个键字段与值字段的配对情况如表5所示，依照该显示规则显示各个键字段以及与各个键字段配对的目标值字段的效果可以如图1中的右图所示。

表5

键字段	配对的值字段
		统一社会信用代码	91440300MA3EL54E2H
法定代表人	李X
		名称	XX服务有限公司
住所	深圳市福田区XXX
		主体类型	有限责任公司(自然独资)
成立日期	2017年06月26日

或者，上述显示规则可以包括采用相邻行显示目标键字段及目标值字段，且目标键字段的显示行位于目标值字段的显示行之前，示例性地，假设文本序列中各个键字段与值字段的配对情况如表5所示，依照该显示规则显示各个键字段以及与各个键字段配对的目标值字段的效果可以如图7b所示。

在另一个实施例中，在基于该配对结果的指示确定与文本序列中各个键字段配对的目标值字段之后，还可以基于各个键字段和各个值字段在待处理图像中的位置信息，确定各个键字段和值字段在待处理图像中的显示方式，并根据该显示方式显示各个键字段以及与各个键字段配对的目标值字段。示例性地，参见图7c，待处理图像为营业执照图像，可以基于各个键字段和值字段在待处理图像中的显示方式在图像处理平台的页面中显示各个键字段以及与各个键字段配对的目标值字段，其显示效果如图7c的右图所示。可以看出，各个键字段和值字段在图像处理平台的页面中的显示方式与在营业执照图像中的显示方式保持一致。采用这样的方式，便于用户从输出的结构化文本中快速定位到自身需要的目标信息，提高目标信息的获取效率。

本申请实施例中，可以将待处理图像转换为文本序列，对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段。进一步地，可以将键字段和值字段两两组合，得到至少一个键值文本序列，并获取每个键值文本序列中键字段和值字段的特征信息，依照该特征信息对每个键值文本序列中的键字段和值字段进行配对处理，进而基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本，实现图像数据到结构化数据的转换。一方面，既不依赖于模板图像也不依赖于专用的文本字段检测器，输出结果的准确度不受待处理图像版式变化的影响，可以更加准确地从非固定版式的图像中提取出对应的结构化数据，适用于各类非固定版式图像的结构化场景，有利于扩大应用范围。另一方面，每次特征信息的获取和配对处理，针对的对象为每个键值文本序列中的键字段和值字段，不存在其它字段信息的干扰，有利于提高各个键字段和各个值字段之间配对结果的准确度，从而进一步提高从待处理图像中提取对应结构化数据的准确度。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

再请参见图10，是本申请实施例的一种图像处理装置的结构示意图，本申请实施例的图像处理装置可以设置在上述终端设备中，也可以为运行于终端设备中的一个计算机程序(包括程序代码)。

本申请实施例的装置的一个实现方式中，装置包括如下结构。

转换单元80，用于将待处理图像转换为文本序列；

处理单元81，用于对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段，将键字段和值字段两两组合，得到至少一个键值文本序列，获取每个键值文本序列中键字段和值字段的特征信息，依照特征信息对每个键值文本序列中的键字段和值字段进行配对处理；

输出单元82，用于基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本。

在一个实施例中，特征信息包括以下任一种或者多种：每个键值文本序列中键字段和值字段的语义信息、位置信息和属性信息，属性信息用于表征每个键值文本序列中键字段和值字段的字段类型，字段类型包括键字段类型或值字段类型，位置信息用于表征每个键值文本序列中键字段和值字段在待处理图像中的相对位置，位置信息包括每个键值文本序列中键字段和值字段在待处理图像中的位置坐标或相对于待处理图像的宽高比。

在一个实施例中，上述特征信息包括语义信息，处理单元81，具体用于依照每个键值文本序列中键字段和值字段的位置对每个键值文本序列进行切分处理；通过语义表示模型对每个切分处理后的键值文本序列进行特征提取，得到每个键值文本序列中键字段和值字段的语义信息。

在一个实施例中，处理单元81，还具体用于依照每个键值文本序列中键字段和值字段的位置在每个键值文本序列中添加输入起始标志位、输入结束标志位、键字段的起始标志位、键字段的结束标志位、值字段的起始标志位和值字段的结束标志位。

在一个实施例中，配对处理是调用匹配模型进行的，配对结果指示了所述每个键值文本序列中键字段和值字段所属的关系对类别，关系对类别包括键值对类别或其它类别，输出单元82，具体用于依照每个键值文本序列中键字段和值字段的配对结果的指示，确定与文本序列中各个键字段配对的目标值字段，目标值字段为文本序列中与对应键字段所属的关系对类别为键值对类别的值字段；按照显示规则显示各个键字段以及与各个键字段配对的目标值字段。

在一个实施例中，文本序列包含多个字段，每个字段包括一个或多个字符；键值分类结果包括文本序列中各个字符的分类标签，分类标签用于指示字符的字符类型及字符在所属字段中的位置；该位置包括以下任一种或者多种：起始位置、中间位置和结束位置；字符类型包括以下任一种或者多种：键字符、值字符和其它字符。

在一个实施例中，处理单元81，具体用于按照各个字符的分类标签的指示，将文本序列中字符类型为键字符且属于同一字段的字符整合为键字段，以及将文本序列中字符类型为值字符且属于同一字段的字符整合为值字段。

在一个实施例中，键值分类是调用命名实体模型或者基于位置的单字分类模型进行的，值字段为文本序列中的命名实体，键字段为命名实体对应的文本项。

在一个实施例中，转换单元80，具体用于调用文本检测模型对获取到的待处理图像进行文本识别，排版处理文本识别结果，得到待处理图像对应的文本序列。

在一个实施例中，待处理图像包括以下任一种：营业执照图像、增值***图像、身份证图像或社保卡图像。

在本申请实施例中，上述各个单元的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。

本申请实施例中的图像处理装置可将待处理图像转换为文本序列，对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段。进一步地，可以将键字段和值字段两两组合，得到至少一个键值文本序列，并获取每个键值文本序列中键字段和值字段的特征信息，依照该特征信息对每个键值文本序列中的键字段和值字段进行配对处理，进而基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本，实现图像数据到结构化数据的转换。既不依赖于模板图像也不依赖于专用的文本字段检测器，输出结果的准确度不受待处理图像版式变化的影响，可以更加准确地从非固定版式的图像中提取出对应的结构化数据，适用于各类非固定版式图像的结构化场景，有利于扩大应用范围。

再请参见图11，是本申请实施例的一种终端设备的结构示意图，本申请实施例的终端设备包括供电模块等结构，并包括处理器90、存储装置91、输入设备92以及输出设备93。处理器90、存储装置91、输入设备92以及输出设备93之间可以交互数据，由处理器90实现相应的图像处理功能。

存储装置91可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置91也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置91还可以包括上述种类的存储器的组合。

处理器90可以是中央处理器90(central processing unit，CPU)。在一个实施例中，处理器90还可以是图形处理器90(Graphics Processing Unit，GPU)。处理器90也可以是由CPU和GPU的组合。在终端设备中，可以根据需要包括多个CPU和GPU进行相应的图像处理。

输入设备92可以包括触控板、指纹采传感器、麦克风等，输出设备93可以包括显示器(LCD等)、扬声器等。

在一个实施例中，存储装置91用于存储程序指令。处理器90可以调用程序指令，实现如本申请实施例中上述涉及的各种方法。

在第一个可能的实施方式中，终端设备的处理器90，调用存储装置91中存储的程序指令，用于将待处理图像转换为文本序列，对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段，将键字段和值字段两两组合，得到至少一个键值文本序列，获取每个键值文本序列中键字段和值字段的特征信息，依照该特征信息对每个键值文本序列中的键字段和值字段进行配对处理，基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本。

在一个实施例中，上述特征信息包括语义信息，处理器90，具体用于依照每个键值文本序列中键字段和值字段的位置对每个键值文本序列进行切分处理；通过语义表示模型对每个切分处理后的键值文本序列进行特征提取，得到每个键值文本序列中键字段和值字段的语义信息。

在一个实施例中，处理器90，还具体用于依照每个键值文本序列中键字段和值字段的位置在每个键值文本序列中添加输入起始标志位、输入结束标志位、键字段的起始标志位、键字段的结束标志位、值字段的起始标志位和值字段的结束标志位。

在一个实施例中，配对处理是调用匹配模型进行的，配对结果指示了所述每个键值文本序列中键字段和值字段所属的关系对类别，关系对类别包括键值对类别或其它类别，处理器90，还具体用于依照每个键值文本序列中键字段和值字段的配对结果的指示，确定与文本序列中各个键字段配对的目标值字段，目标值字段为文本序列中与对应键字段所属的关系对类别为键值对类别的值字段；通过输出设备93按照显示规则显示各个键字段以及与各个键字段配对的目标值字段。

在一个实施例中，处理器90，具体用于按照各个字符的分类标签的指示，将文本序列中字符类型为键字符且属于同一字段的字符整合为键字段，以及将文本序列中字符类型为值字符且属于同一字段的字符整合为值字段。

在一个实施例中，处理器90，还具体用于调用文本检测模型对获取到的待处理图像进行文本识别，排版处理文本识别结果，得到待处理图像对应的文本序列。

在本申请实施例中，上述处理器90的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。

本申请实施例中的终端设备可将待处理图像转换为文本序列，对文本序列进行键值分类，并基于键值分类结果确定文本序列包括的键字段和值字段。进一步地，可以将键字段和值字段两两组合，得到至少一个键值文本序列，并获取每个键值文本序列中键字段和值字段的特征信息，依照该特征信息对每个键值文本序列中的键字段和值字段进行配对处理，进而基于每个键值文本序列中键字段和值字段的配对结果输出待处理图像对应的结构化文本，实现图像数据到结构化数据的转换。既不依赖于模板图像也不依赖于专用的文本字段检测器，输出结果的准确度不受待处理图像版式变化的影响，可以更加准确地从非固定版式的图像中提取出对应的结构化数据，适用于各类非固定版式图像的结构化场景，有利于扩大应用范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所描述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

将待处理图像转换为文本序列，所述文本序列包含多个字段，每个字段包括一个或多个字符；

对所述文本序列进行键值分类，并基于键值分类结果确定所述文本序列包括的键字段和值字段，所述键值分类结果包括所述文本序列中各个字符的分类标签，所述分类标签用于指示字符的字符类型及字符在所属字段中的位置；所述位置包括以下任一种或者多种：起始位置、中间位置和结束位置；所述字符类型包括以下任一种或者多种：键字符、值字符和其它字符；

将所述键字段和所述值字段两两组合，得到至少一个键值文本序列，每个键值文本序列中包括一个键字段和一个值字段；

获取所述每个键值文本序列中键字段和值字段的特征信息；

依照所述特征信息对所述每个键值文本序列中的键字段和值字段进行配对处理；

基于所述每个键值文本序列中键字段和值字段的配对结果输出所述待处理图像对应的结构化文本；其中，基于各个键字段和各个值字段在所述待处理图像中的位置信息，确定各个键字段和各个值字段在所述待处理图像中的显示方式，并根据所述显示方式显示各个键字段以及与各个键字段配对的目标值字段。

2.如权利要求1所述的方法，其特征在于，所述特征信息包括以下任一种或者多种：所述每个键值文本序列中键字段和值字段的语义信息、位置信息和属性信息，所述属性信息用于表征所述每个键值文本序列中键字段和值字段的字段类型，所述字段类型包括键字段类型或值字段类型，所述位置信息用于表征所述每个键值文本序列中键字段和值字段在所述待处理图像中的相对位置，所述位置信息包括所述每个键值文本序列中键字段和值字段在所述待处理图像中的位置坐标或相对于所述待处理图像的宽高比。

3.如权利要求1所述的方法，其特征在于，所述特征信息包括语义信息，所述获取所述每个键值文本序列中键字段和值字段的特征信息，包括：

依照所述每个键值文本序列中键字段和值字段的位置对所述每个键值文本序列进行切分处理；

通过语义表示模型对每个切分处理后的键值文本序列进行特征提取，得到所述每个键值文本序列中键字段和值字段的语义信息。

4.如权利要求3所述的方法，其特征在于，所述依照所述每个键值文本序列中键字段和值字段的位置对所述每个键值文本序列进行切分处理，包括：

依照所述每个键值文本序列中键字段和值字段的位置在所述每个键值文本序列中添加输入起始标志位、输入结束标志位、键字段的起始标志位、键字段的结束标志位、值字段的起始标志位和值字段的结束标志位。

5.如权利要求1所述的方法，其特征在于，所述配对处理是调用匹配模型进行的，所述配对结果指示了所述每个键值文本序列中键字段和值字段所属的关系对类别，所述关系对类别包括键值对类别或其它类别，所述基于所述每个键值文本序列中的键字段和值字段的配对结果输出所述待处理图像对应的结构化文本，包括：

依照所述每个键值文本序列中键字段和值字段的配对结果的指示，确定与所述文本序列中各个键字段配对的目标值字段，所述目标值字段为所述文本序列中与对应键字段所属的关系对类别为键值对类别的值字段；

按照显示规则显示所述各个键字段以及与所述各个键字段配对的目标值字段。

6.如权利要求2所述的方法，其特征在于，所述基于键值分类结果确定所述文本序列包括的键字段和值字段，包括：

按照所述各个字符的分类标签的指示，将所述文本序列中字符类型为键字符且属于同一字段的字符整合为键字段，以及将所述文本序列中字符类型为值字符且属于同一字段的字符整合为值字段。

7.如权利要求1所述的方法，其特征在于，所述键值分类是调用命名实体模型或者基于位置的单字分类模型进行的，所述值字段为所述文本序列中的命名实体，所述键字段为命名实体对应的文本项。

8.如权利要求1所述的方法，其特征在于，所述将待处理图像转换为文本序列，包括：

调用文本检测模型对获取到的待处理图像进行文本识别；

排版处理文本识别结果，得到所述待处理图像对应的文本序列。

9.一种图像处理装置，其特征在于，所述装置包括：

转换单元，用于将待处理图像转换为文本序列，所述文本序列包含多个字段，每个字段包括一个或多个字符；

处理单元，用于对所述文本序列进行键值分类，并基于键值分类结果确定所述文本序列包括的键字段和值字段，所述键值分类结果包括所述文本序列中各个字符的分类标签，所述分类标签用于指示字符的字符类型及字符在所属字段中的位置；所述位置包括以下任一种或者多种：起始位置、中间位置和结束位置；所述字符类型包括以下任一种或者多种：键字符、值字符和其它字符；将所述键字段和所述值字段两两组合，得到至少一个键值文本序列，获取每个键值文本序列中键字段和值字段的特征信息，依照所述特征信息对所述每个键值文本序列中的键字段和值字段进行配对处理；

输出单元，用于基于所述每个键值文本序列中键字段和值字段的配对结果输出所述待处理图像对应的结构化文本；其中，基于各个键字段和各个值字段在所述待处理图像中的位置信息，确定各个键字段和各个值字段在所述待处理图像中的显示方式，并根据所述显示方式显示各个键字段以及与各个键字段配对的目标值字段。

10.一种终端设备，其特征在于，所述终端设备包括处理器和存储装置，所述处理器和存储装置相互连接，其中，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-8任一项所述的方法。

11.一种计算机存储介质，其特征在于，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现如权利要求1-8任一项所述的方法。