CN115512340A

CN115512340A - 基于图片的意图检测方法及装置

Info

Publication number: CN115512340A
Application number: CN202210790558.9A
Authority: CN
Inventors: 郭清沛; 褚崴
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-12-23

Abstract

本说明书实施例提供一种基于图片的意图检测方法及装置。针对智能客服场景下，用户问题中包含有页面截图的技术场景，一方面将其中的文本语义信息、文本布局信息经过文本编码得到文本的与位置相关的文本编码特征，另一方面，通过编码页面布局中的区域信息，得到图像编码特征和布局结构特征。然后，结合用户提供的页面截图，融合页面布局结构中的位置信息，并将融合后的信息与文本语义信息进行融合编码，得到页面表征。通过页面表征可以识别用户提供的页面截图所匹配的候选页面。如此，可以使用更加丰富的页面信息，提高识别用户意图的准确度。

Description

基于图片的意图检测方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及基于图片的意图检测方法及装置。

背景技术

图像处理在日常生产或生活中有着广泛的应用。例如：全景分割、目标识别、文本识别等等。其中，在人工客服领域，可能会遇到一些用户通过截图来辅助描述所遇到的问题的情形。这种情形下，智能客服需要判断该截图是什么业务场景下产生的、在什么问题中可能遇到这样的截图画面等等，从而更好地为用户服务，提升用户体验。

发明内容

本说明书一个或多个实施例描述了一种基于图片的意图检测方法及装置，用以解决背景技术提到的一个或多个问题。

根据第一方面，提供一种基于图片的意图检测方法，用于基于用户发送的图片，检测用户问题中所针对的业务，所述方法包括：获取当前用户问题中的第一图片，以及针对所述第一图片识别的第一文本信息，所述第一文本信息包括第一文本语义信息和第一文本位置信息；基于文本编码模块对所述第一文本信息的编码，得到第一文本编码特征；利用图像编码模块对所述第一图片的页面布局进行编码，得到第一图像编码特征和第一布局结构特征；结合所述第一图片，经由位置融合模块针对所述第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征；经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码，从而得到针对所述第一图片基于位置信息的第一页面表征；基于所述第一页面表征确定所述第一图片所对应的目标页面，进而确定用户意图。

在一个实施例中，所述第一文本语义信息包括至少一个文本语义单元，所述第一文本位置信息包括分别包围各个文本语义单元的各个文本框的坐标信息。

在一个实施例中，所述第一文本语义信息包括第一文本，所述第一文本对应第一文本框，所述基于文本编码模块对所述第一文本信息进行编码，得到第一文本编码特征包括：对所述第一文本框各个顶点分别通过预定维数的各个位置向量进行表示，其中所述第一文本中的字符共享所述第一文本框的位置向量；将各个位置向量与所述第一文本的文本语义向量嵌入到所述第一文本的文本特征向量，作为文本编码模块的输入数据；根据文本编码模块对相应输入数据的处理得到第一文本编码特征。

在一个实施例中，所述图像编码模块通过卷积神经网络实现，其输出为在多个通道上的多个预定大小的特征图，所述特征图的单个特征点对应所述第一图片上的若干像素构成的单个矩形展示区域，所述第一布局结构特征包括所述单个矩形展示区域在所述第一图片上对应的顶点坐标。

在一个实施例中，所述结合所述第一图片，经由位置融合模块针对所述第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征包括：基于所述第一图片，经由位置融合模块将第一布局结构特征、第一文本特征中包含的位置信息各自映射到预定尺寸，其中，映射结果与所述第一图片和预定尺寸之间的比例相关；根据映射结果确定所述第一位置融合特征。

在一个实施例中，经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码，从而得到针对所述第一图片基于位置信息的第一页面表征包括：将所述第一位置融合特征、第一图像编码特征和所述第一文本编码特征作为所述融合编码模块的输入数据；根据所述融合编码模块的输出确定所述第一页面表征。

在一个实施例中，所述目标页面从作为页面模板的多个候选页面中选择。

在一个实施例中，各个候选页面分别对应有预先经由所述文本识别模块、文本编码模块、图像编码模块、位置融合模块以及融合编码模块处理得到的各个候选表征；所述基于所述第一页面表征确定所述第一图片所对应的目标页面包括：分别检测所述第一页面表征与各个候选表征之间的相似性；按照相似性由高到低的顺序从各个候选页面中选择目标页面。

在一个实施例中，所述多个候选页面包括第一页面，所述第一页面对应于第一候选表征，所述第一页面表征与所述第一候选表征之间的相似性通过第一相似度描述，所述第一相似度基于所述第一页面表征与所述第一候选表征之间的余弦相似度、杰卡德系数、欧氏距离、KL散度、方差之一确定。

在一个实施例中，所述基于所述第一页面表征确定所述第一图片所对应的目标页面包括：将所述第一页面表征输入预先训练的分类模型或预测模型；根据分类模型或预测模型的输出结果从各个候选页面中选择所述目标页面。

在一个实施例中，所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块通过针对问答任务的训练集中的训练样本进行页面匹配训练，其中，训练集中的各个训练样本图片各自对应有通过版面分析器提取的文本位置信息、页面布局信息，以及预先标注的所匹配的候选页面，所述训练样本图片包括第二图片，所述第二图片所匹配的候选页面为第二页面；所述页面匹配训练包括：利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块对所述第二图片进行处理，得到第二页面表征；基于所述第二页面表征与所述第二页面的对应关系，确定第一损失；对第二图片的融合编码特征基于位置信息进行解码，得到文本位置信息和页面布局信息，与针对第二图片利用版面分析器提取的文本位置信息和页面布局信息进行对比，确定第二损失；基于所述第一损失、所述第二损失确定当前训练损失，并以当前训练损失减小为目标调整各个模块的待定参数。

在一个实施例中，所述第二页面对应有利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块处理得到的第二候选表征；基于所述第二页面表征与所述第二页面的对应关系，确定第一损失包括：基于所述第二页面表征与所述第二候选表征之间的第一相似性，确定所述第一损失，其中，所述第一损失与所述第一相似性负相关。

在一个实施例中，所述基于所述第二页面表征与所述第二页面的对应关系，确定第一损失包括：将所述第二页面表征输入预先确定的分类模型或预测模型；根据所述分类模型或预测模型的输出结果与由所述第二页面确定的样本标签的比较，确定第一损失。

在一个实施例中，所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块在经过训练集训练之前，还基于预训练集中的各个预训练样本图片进行预训练，其中，各个预训练样本图片各自对应有通过版面分析器提取的文本语义信息、文本位置信息、页面布局信息；所述预训练样本图片包括第三图片，所述预训练包括：获取所述第三图片；从文本语义信息中随机获取当前文本信息；检测当前文本信息是否所述第三图片中的文本信息；基于检测结果，利用所述第三图片进行预训练。

在一个实施例中，在当前文本信息不是所述第三图片中的文本信息的情况下，所述基于检测结果，利用当前图片进行预训练包括：利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块对所述第三图片进行处理，得到第三页面表征；利用辅助分类器对所述第三页面表征进行分类，得到当前文本信息和所述第三图片是否匹配的辅助分类结果；根据该辅助分类结果与基于检测结果确定的样本标签进行对比，从而确定第三损失。

在一个实施例中，在当前文本信息是当前图片中的文本信息的情况下，所述基于检测结果，利用当前图片进行预训练包括：通过文本编码模块处理所述当前文本信息，得到文本编码特征；将所述文本编码特征经由第一掩码语言模型进行文本重建，以恢复所述当前文本信息在编码过程中被隐藏的文本为目标，确定所述文本编码模块对应的第四损失；经由位置融合模块处理针对所述第三图片的图片编码特征以及所述文本编码特征，得到所述第三图片的融合特征，所述第三图片的图片编码特征经由图像编码模块处理所述第三图片得到；通过融合编码模块处理所述第三图片的融合特征、所述第三图片的图片编码特征以及所述文本编码特征，得到第三图片的融合编码特征；利用所述第三图片的融合编码特征进行第二掩码语言模型进行文本重建，以恢复所述当前文本信息在编码过程中被隐藏的文本为目标，确定第五损失；以基于所述第四损失、第五损失确定的模型损失减小为目的调节各个模块的待定参数。

在一个实施例中，所述预训练还包括：利用辅助解码模块对第三图片的融合编码特征基于位置信息进行解码，得到针对所述第三图片预测的文本位置信息和页面布局信息；将针对所述第三图片预测的文本位置信息和页面布局信息分别与利用版面分析器提取的文本位置信息和页面布局信息进行对比，从而确定第六损失；

则，所述以基于所述第四损失、第五损失确定的模型损失根据第四损失、第五损失、第六损失之和确定。。

根据第二方面，提供一种基于图片的意图检测装置，用于基于用户发送的图片，检测用户问题中所针对的业务，所述装置包括：

获取单元，配置为获取当前用户问题中的第一图片，以及针对所述第一图片识别的第一文本信息，所述第一文本信息包括第一文本语义信息和第一文本位置信息；

文本编码单元，配置为基于文本编码模块对所述第一文本信息的编码，得到第一编码特征；

图像编码单元，配置为利用图像编码模块对所述第一图片的页面布局进行编码，得到第一图像编码特征和第一布局结构特征；

位置融合单元，配置为结合所述第一图片，经由位置融合模块针对所述第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征；

图片表征单元，配置为经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码，从而得到针对所述第一图片基于位置信息的第一页面表征；

意图确定单元，配置为基于所述第一页面表征确定所述第一图片所对应的目标页面，进而确定用户意图。

根据第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所述的方法。

根据第四方面，提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面所述的方法。

通过本说明书实施例提供的装置和方法，针对人工客服场景下，用户通过页面图片方式辅助描述问题情形下，在获取当前用户问题中的图片后：一方面将其中的文本语义信息、文本布局信息经过文本编码得到文本的与位置相关的文本编码特征，另一方面，通过编码页面布局中的区域信息，得到图像编码特征和布局结构特征。然后，结合用户提供的页面截图，融合页面布局结构中的位置信息，并将融合后的信息与文本语义信息进行融合编码，得到页面表征。通过页面表征可以识别用户提供的页面截图所匹配的候选页面。由于在基于图片的意图识别过程中，融合了文本语义信息、文本位置信息、图片的页面布局信息、图片本身的特征信息，因此，可以通过更加全面的图片信息进行用户意图识别，提高识别结果的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是在本说明书技术构思下的一个应用场景示意图；

图2示出根据本说明书技术构思下的一个页面截图所包含的信息内容示意图；

图3a示出本说明书一个实施例的基于图片的意图识别的模型架构示意图；

图3b示出本说明书另一个实施例的基于图片的意图识别的模型架构示意图；

图4示出图像编码的一个具体例子的编码坐标与像素对应关系示意图；

图5示出一个具体例子的针对图3中基于图片的意图识别的模型架构中各个模块的训练示意图；

图6a示出一个具体例子的针对图3中基于图片的意图识别的模型架构中各个模块的预训练流程示意图；

图6b示出另一个具体例子的针对图3中基于图片的意图识别的模型架构中各个模块的预训练流程示意图；

图7示出本说明书一个实施例的基于图片的意图识别流程示意图；

图8示出本说明书一个实施例的基于图片的意图识别装置示意框图。

具体实施方式

本说明书提供的方案针对的是图像的业务目标识别场景。下面结合附图，对本说明书提供的方案进行描述。值得说明的是，本申请的技术方案涉及图像处理，附图中可能涉及一些图像或计算机屏幕截图，为了示意更加明了，这些图像的色块等没有进行消除，其转换成灰度图像后的清晰度不影响方案实质的表达。

图1示出了本说明书技术架构的一个应用场景示例。该应用场景是一个智能客服(Q-A) 的场景。在该客服场景下，用户可以通过客户端的页面截图，咨询所遇到的问题。如图1 所示，用户“张三”可以通过账单详情页面的页面截图1，提出“账单显示不正常”的问题(Q)。智能客服的服务端可以通过该页面截图1判断其所对应的候选页面，由此分析该页面由哪个链路连接而来，如“转账→交易账单→账单详情页”链路连接到“账单详情”页面等。根据链路信息，智能客服可以判断可能的候选项(如候选问题或候选答案)，从而为用户提供相应智能客服回复答案(A)。

在智能客服业务中，用户可以通过终端反馈所遇到的问题，终端通过网络将用户的相应问题传递至服务端。用户问题中可以包括文字描述，也可以包括图片信息。在用户问题中包含图片的情况下，图片通常是出现问题的页面截图。此时，对图片所在页面的来源进行分析，有助于快速识别问题所在，提高智能客服带来的用户体验。如此，服务端可以预先设置多个候选页面。这些候选页面可以是当前应用或当前业务中各种可能页面的模板页面(也可以称为原声页面)。在具体业务中，各种页面可以基于模板页面生成，例如，模板页面中表单的元素被赋值为具体业务下的业务值，从而生成具体页面，等等。一个页面操作或展示过程中可能产生各种问题，这些问题可以通过将出现问题的页面匹配到相应的模板页面来确定。

有鉴于此，可以通过用户问题中的页面截图图片与作为候选页面的模板页面进行图像匹配，并基于图像相似性将用户问题中的页面截图关联到对应的模板页面。如此，用户意图识别的技术问题，其关键在于用户提供的页面截图图片与候选页面的页面图像之间的相似性挖掘，或者将各个候选页面分别作为各个分类类别，针对用户提供的页面截图图片分类到相应目标类别，或者预测其为各个分类类别的概率。

图1示出的实施场景中，以页面截图和候选页面之间的匹配为例进行说明。以图1示出的业务场景为例，在具体实施过程中，页面截图1与各个候选页面的匹配过程是智能客服回复准确性的重要步骤。图片格式的页面匹配通常可以包含以下信息中至少一项的匹配：图像纹理信息Image、文本语义信息text、页面布局Region、文本布局detection等。其中， Region可以描述页面上的关键区域，text例如为通过光学字符识别(OCR)技术识别出的文档上的文字，而通过光学字符识别出文档上的文字所在的区域可以称为文本布局detection信息，Image则可以表示带有各种布局即图像纹理信息的原始图片，例如可以是app页面截图、包含布局信息的文档图像等。

为了更清楚地描述页面截图中的相关信息，图2示出了一个具体例子。如图2所示，是一个页面截图200，整个页面截图200可以称为Image。标注框201是整个页面的一个功能或视觉一致的一个区域，描述了页面不同展示内容的区域划分，属于区域布局Region 范畴，可以记为Region框，用于描述页面中的区域布局。标注框202对应的是一个文本区域，该文本区域描述了页面中的文本位置信息，属于文本布局detection范畴，因此可以作为文本布局中的一个标注框，如记为detection框。而标注框202中的文本203“存入产品”是一个完整语义，可以记为text信息。图2中，还存在其他Region框、detection框等，不再一一标识。其中，各个Region框、detection框等例如为OCR(光学字符识别)标注框。

常规技术中，可以通过以下方案进行图片格式的页面匹配：

1)如LayoutLM v1/v2之类的文档理解类模型

这种方案往往通过(如OCR)等手段进行文本资料扫描后对图像文件进行分析处理，获取文字及版面信息，并将识别文本和区域对齐。其主要用于处理文档图像，页面截图相比文档图像，还具有Region信息，而LayoutLM无法使用Region信息。具体地，LayoutLMv1的输入包括OCR文本、OCR框等图像特征，上线需要额外部署OCR图像特征抽取模型；LayoutLMv2的输入包括OCR文本、整个图片Image，可实现端到端的学习，但只考虑了 OCR文本输入和图像输入，至少没有考虑反映页面布局的Region信息。

2)以VIlBERT/Uniter为代表的图文多模态模型

这种技术方案中图像文本和图像无空间对齐关系。其输入数据通常包括：图像Region 和图像描述文本text，没有考虑个图片Image和OCR输入信息detection。并且，通常需要额外部署Region特征提取模型。

有鉴于此，本说明书实施例提供一种结合原始图片Image、文本语义信息text、区域布局(Region)、文本布局(detection)的页面表征方案，将Image、text、Region、detection 等各种信息融合到一起，编码为张量(如向量、矩阵等)形式的页面表征，从而利用更丰富的页面信息，得到更准确的页面表征结果，以利于页面的匹配或分类等。该图片识别架构结合训练过程中的区域布局校正等，使得模型具有区域布局识别效果，无需布局额外的区域特征提取模型。

首先参考图3a，介绍本说明书实施例在线模型的架构。如图3a所示，相应模型布局下，用于对用户问题中图片或候选页面的图片进行处理的模型至少通过以下模块进行架构：文本编码模块、图像编码模块、位置融合模块、(基于位置的)编码模块。下面一一介绍各个模块的作用。

文本编码模块可以对页面截图中识别到的文本语义text、文本布局detection等文本信息进行编码。其中，文本语义text例如可以是识别到的文本内容(字符本身)，如图2中类似文本203之类的信息。文本布局detection表示文本所在区域(如标注框202)的位置信息。文本信息例如可以通过诸如OCR之类的光学识别模型或版面分析器等实现。相应的文本信息可以通过字符和位置进行表示。以text信息为例，其识别结果可以是字符本身，例如图2中的文本203对应的识别结果为“存入产品”。文本布局detection信息则可以对标注框的位置信息进行提取。在一个实施例中，detection可以被提取为坐标信息。例如图 2中的标注框202，可以通过其在图片200中标注框202对应矩形的四个顶点坐标表示。在一个实施例中，为了方便，坐标可以是以图片一角(如左下角)为原点，像素为单位的坐标系中的坐标值。在另一个实施例中，顶点坐标可以按照像素所在行、列进行表示。假如标注框202对应的四个顶点坐标为(200，30)、(200，80)、(220，30)、(220，80)，为了节约数据空间，也可以通过所涉及的四个坐标值(200，30，220，80)表示。

文本编码模块例如可以通过BERT Encoder等文本处理模型实现。文本编码模块的输出可以同时包含文本的语义及位置布局，也就是说，通过文本编码模块将文本的语义信息和布局信息编码融合。例如，一个OCR文本框(如图2中的检测框202等)对应四个顶点的坐标形式[x₁，y₁，x₂，y₂]，则该文本框中的文本的各个字符可以共用该OCR文本框的坐标[x₁，y₁，x₂，y₂]。如此，文本框中的文本语义与文本框位置信息紧密结合。

图像编码模块用于对图像进行特征编码，得到页面的区域布局特征(如图2中标注框 201等对应的特征)。图像编码模块可以通过诸如卷积神经网络之类的模型实现，如通过ResNet Grid Encoder(残差网络编码器)实现。该模块可以从页面截图中提取图像纹理特征(对应Image)和区域特征(对应Region)。其中，图像纹理特征用于描述图像的纹理信息，区域特征用于描述相应的区域。具体而言，经过特征提取，可以将页面截图中的多个像素映射为一个区域提取框，由于经过特征提取，图像经由多个通道的特征图表示，特征图上的单个特征点对应着一个区域提取框，该特征点在各个通道上的数值可以构成相应特征提取框中的纹理信息的向量表示。如图4所示，3为最终的特征图，3中的一个格子(特征点)对应着2上的4个格子(特征点)，而2是哪个的一个格子对应着初始图片1上的4 个像素，因此，最终特征图上的一个特征点可以对应到原始图片上的16个像素。这16个像素对应着一个区域提取框。单个区域提取框也可以通过在页面截图中对应的四个顶点的相对坐标如[x₁＇，y₁＇，x₂＇，y₂＇]等描述。其中，x₁＇、y₁＇、x₂＇、y₂＇例如是4个位于顶点的像素的坐标值合并后的两组纵横坐标，如为四个顶点对应的像素所在的像素行和像素列等。

为了保持各种尺寸的图片的编码结果的一致性，位置融合模块例如可以借鉴LayoutLM 的思想，将文本布局和页面布局的坐标映射到一个统一的空间，例如归一化到1000×1000 的二维坐标空间，然后进行统一编码。位置融合模块用于基于原始图片Image将区域布局 Region映射到预定尺寸的二维空间上。这里的预定尺寸可以理解为预定尺寸的区域或者预定尺寸的图像等。通过该步骤，不论原始图片多大，区域信息都会被归一化到一个统一的尺寸上，从而更有利于捕捉其中的区域信息。预定尺寸例如为1000×1000的二维坐标空间等。这种位置归一化的操作可以理解为位置信息的融合，例如可以称为Global2D-position Encoding。

在可能的设计中，位置融合模块不仅对区域提取框的位置信息进行归一化处理，还可以对文本的位置信息进行归一化处理(在图3a中通过虚线箭头表示)。其中的映射过程可以沿页面截图的横向和纵向分别按比例进行，如页面截图大小为400×800，则第200行的像素映射到1000×1000的二维坐标空间，映射结果可以对应到第200×1000/400＝500行，在此不再赘述。

在一个实施例中，可以通过Tensorflow进行EmbeddingLookUp后，将相关向量叠加，作为编码结果。Tensorflow是一种计算图模型，即用图的形式来表示运算过程的一种模型。 Tensorflow程序一般分为图的构建和图的执行两个阶段。图的构建阶段也称为图的定义阶段，该过程会在图模型中定义所需的运算，每次运算的结果以及原始的输入数据都可称为一个节点(operation，缩写为op)。Tensorflow中的EmbeddingLookUp可以定义一个Embedding的张量(如矩阵)，在接收到一个输入的情况下，在所定义的张量中招到该输入对应的元素。如此，具体到基于位置的位置融合模块，例如可以将文本编码特征或图像编码特征之一定义为Embedding的张量(如为1000×1000维)，另一个作为输入，在Embedding 的张量中查找到对应的元素进行嵌入。如此，可以图片中的位置特征基于位置融合在一起，形成融合张量。

进一步地，融合编码模块，如记为position-enhance transformer encoder，是位置强化的编码网络。融合编码模块可以感知页面布局和文本布局之间的位置关系，并通过张量将页面布局信息、文本布局信息、文本信息、图片纹理信息融合编码。融合编码模块例如可以通过transformer注意力机制实现。Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。更准确地讲，Transformer由且仅由self-Attention和Feed Forward Neural Network(前向性神经网络)组成。transformer注意力机制可以通过位置编码结果来判断输入的空间位置关系，如文本位置与页面布局位置等之间的关系，从而进行编码。

具体而言，假如文本布局中的一个标注框位置归一化到1000×1000范围后为[800，600， 900，700]，页面布局的一个标注框位置归一化到1000×1000范围后为[600，500，990， 990]，则位置编码模块可以将该文本框中的文本编码为页面布局中的该标注框中的文本。在可选的实施例中，文本布局和页面布局的位置不是直接的位置坐标，而是对位置坐标进行编码后的表达向量。如[800，600，900，700]被编码为10维表达向量(a₁，a₂……a₁₀) 等，[600，500，990，990]被编码为10维表达向量(b₁，b₂……b₁₀)等。融合编码模块可以通过编码结果描述检测框之间的位置关系。

图3a的示例中，融合编码模块的输出结果为页面对应的图片(如页面截图1)的编码表征，该编码表征融合了页面中的文本语义信息、文本布局信息、页面布局信息，以及页面本身的图片信息(如色彩、像素等信息)。编码表征可以是一维张量(向量)、二维张量 (矩阵)、三维张量(多通道特征图)等形式，本说明书对此不做限定。

对于各个候选页面来说，其可以预先经过文本识别模块、文本编码模块、图像编码模块、位置融合模块、融合编码模块进行处理，从而得到各个候选表征。

如此，结合图1的具体场景，通过将页面截图1的编码表征和各个候选页面对应的各个候选表征1至s进行比较，如进行相似度检测等，可以选出与页面截图1的编码表征最接近的一个或多个候选表征，从而确定与页面截图1相对应的一个或多个候选页面。

值得说明的是，图1示出的是一个具体应用场景的示意图，在可选的实现方式中，通过页面表征，还可以以其他的方式确定与页面截图对应的候选页面。例如，如图3b所示，将页面表征作为分类模型或预测模型的输入，并根据分类模型或预测模型的输出结果确定页面截图对应的候选页面。具体地，在分类场景下，可以通过分类模型将页面截图1分类到一个候选页面，在预测场景下，可以通过预测模型预测与页面截图1对应到多个候选页面的概率，可选地，所预测的多个候选页面还可以按照概率大小顺序进行排序。

在本说明书的技术构思下，为了确保图3a、图3b示出的模型架构中各个模块提取出相应的信息，可以通过其他模块的辅助，对以上各个模块进行训练。在具体的业务场景中，要确定融合编码模块输出的编码表征能准确匹配到其真实对应的候选页面的候选表征，还需要对各个模块进一步基于业务任务标注的样本进行加强的训练。其训练构思可以为：一方面，使得页面截图的编码表征与其对应的候选页面的页面图片的候选表征尽可能接近，而与其他候选页面的编码表征尽可能差异化；另一方面，页面表征尽可能正确描述页面截图中的区域信息和文本位置信息。

如图5所示，训练样本集中的样本图片可以由人工标注有相对应的候选页面。经由经过文本编码模块、图像编码模块、位置融合模块、融合编码模块，处理单个样本图片(如第二图片)得到的页面表征(如第二页面表征)与处理其对应的候选页面(如第二页面) 得到的候选表征(如第二候选表征)应尽可能一致。如此，基于处理单个样本页面截图得到的页面表征可以确定各个模块完成相关任务的任务损失，在此可以称之为第一损失。

根据一个可能的设计，可以基于样本图片的编码表征与候选表征的对比，确定一个比较损失，如图5示出的损失1＇，作为第一损失。在损失1＇的确定过程中，可以将一个图片对看作单个训练样本，单个图片对包括一个样本图片和一个候选页面对应的页面图片。在其中的候选页面是样本图片对应的候选页面的情况下，相当于正样本，否则，相当于负样本。正样本中的图片对相应的两个页面表征尽可能相近(如相似度尽可能接近1)，而负样本中的图片对相应的两个页面表征尽可能不相近(如相似度尽可能接近0)。

另外，由于问答场景中，对图片进行识别的目的是匹配到相应的候选页面，且候选页面的变化频率极小，因此，在可选的实施例中，如图3a所示，可以预先使用各个模块处理各个候选页面，得到各个候选表征。在进行模型训练时，经由各个模块处理处理样本图片，得到关于样本图片对应的页面表征(如第二图片对应的第二页面表征)，并与各个候选表征对比。在当前候选表征是样本图片对应的候选页面的页面表征的情况下，以样本图片的页面表征与当前候选表征尽可能接近为目标确定第一损失；在当前候选表征不是样本图片对应的候选页面的页面表征的情况下，以样本图片的页面表征与当前候选表征尽可能不接近为目标确定第一损失。

根据另一个可能的设计，对于样本图片的页面表征，还可以经由与相关任务有关的分类模块的处理预测所分类到的候选页面(此时，各个候选页面分别作为分类类别)，或者经由预测模块的处理预测其对应到各个候选页面的概率。分类模块或预测模块例如可以通过全连接神经网络、决策树等实现。此时，根据业务的目标以及样本图片对应到的候选页面确定分类模型或预测模型的标签。例如，基于样本图片对应的候选页面，对样本图片进行分类类别的标注，或者进行分类到各个分类类别上的分类概率的向量标注，标注结果为样本标签。以分类模块为例，各个分类类别可以为各个候选页面，分类模块输出的数值对应到相应候选页面类别，如数值1对应账单详情页面、数值2对应账号登录页面，等等。在预测模块场景下，页面表征可以被映射为分类到相应各个分类类别的概率，其样本标签可以通过向量表示，向量的各个维度分别代表各个候选页面，与样本图像对应的候选页面在标签向量的相应维度上概率值为1，其他候选页面对应的相应维度上概率值为0。具体地，将通过训练好的各个模块处理各个样本图片得到相应的较准确的编码表征作为分类模块或预测模块的输入数据，将分类模块或预测模块对编码表征进行分类或预测得到的输出结果与基于样本图片对应的候选页面确定的样本标签相比较，从而确定第一损失。

由于基于位置的页面表征的目的是尽可能表征图片中的文本信息、文本布局、页面布局，以及图片本身，从而利用更多页面信息，提高页面表征的准确性，因此，为了避免由于对减小损失1＇的迎合而做出的改变影响对文本布局、页面布局等信息的表征，在各模块训练过程中，还可以同时兼顾对文本标注框和页面布局标注框的位置信息的调节。如此，可以通过对页面表征进行解码处理，得到文本位置信息和页面布局中区域位置信息的解码结果，然后将解码结果与OCR版面解析得到的文本标注框、Region标注框相比较，从而确定损失2＇(下文可以称为第二损失)。

进一步地，在本说明书的技术构思下，可以采用损失1＇和损失2＇两种损失(即第一损失和第二损失)叠加衡量各个模块的综合损失。其中，实际训练过程中，一个批次的训练样本可以对应多个样本图片。此时，模型损失可以是当前批次的样本图片的综合损失之和。

之后，沿模型损失减小的方向调整分类模块或预测模块的待定参数，从而训练各个模块。其中，训练过程中待定参数也可以包括解码模块中的待定参数，在可选的分类或预测形式的具体场景(参考图3b示出的场景架构)中还可以包括所涉及的分类模块或预测模块中的待定参数。

以上各个模块的训练过程关注了业务任务的准确性、位置信息的准确性等，而由于各个模块的数据处理过程中还包含文本语义信息的处理。因此，根据可能的设计，在各个模块进行训练之前，还可以对其进行与语义相关的预训练。预训练过程可以以文本语义信息的准确性和位置信息的准确性为双重目标。具体地，预训练过程可以采用无人工标注(或者说不考虑业务任务)的训练样本，对各个模块进行初步训练，使各个模块对图片中的相应信息具有一定的提取能力。并使得训练过程可以采用基于相关任务进行标注的训练样本，在经过预训练的各个模块的基础上，对各个模块进行具体任务的适应性训练。其中，训练过程中经过标注的训练样本的样本标签根据输出需求，标注为对应单个候选页面的数值 (如数值5对应账单详情页面)，或者对应多个页面的向量(如各个候选页面的独热编码向量)。而预训练过程采用无需按业务任务标注的训练样本，可以大大减少标注工作量。

图6a示出一个预训练过程的具体实施架构。可以理解，由于页面通常可以通过版面分析器提取相关结构和文本信息，因此预训练过程中，训练样本的信息全部基于图片本身得到。对于用于预训练过程的训练样本，可以通过针对页面的版面分析器(如OCR中的版面提取服务等)，从中提取文本信息text、区域布局信息Region以及文本布局信息detection。

参考图6a所示，通过预训练页面集中的样本图片，对以上模块进行预训练。在预训练过程中，为了使得各个部分能够提取到相应的特征，可以分步多层次确定相应的模型损失。其中，预训练过程中的输入数据包括两方面：样本图片和OCR文本识别结果。其中的文本识别结果可以包含针对一个样本图片的全部文本识别结果。

对于预训练集中的一个样本图片(如第三图片)，通过文本编码模块对文本识别结果(如 OCR文本以及文本位置信息)进行编码。该文本编码结果可以包含文本信息text，以及文本位置信息。为了确保编码结果尽可能还原文本信息text，可以通过掩码语言模型(masked language modeling，如Hierachical MLM等)进行文本重建来确定文本编码模块针对文本语义的编码损失。Hierachical MLM通过文本重建对文本中的上下文的词汇补充纠正。

在预训练过程中，为了减少个别词汇对整体文本的识别结果，以及文本编码的正确恢复能力，可以利用掩盖文本中的部分词汇的方式，基于被掩盖部分的回复情形确定文本编码损失。具体而言，在通过文本编码模块进行编码时，可以掩盖部分词汇进行编码。而掩码语言模型相当于包含一个解码器，可以将文本编码模块的编码结果恢复，并且在恢复过程中通过文本重建恢复被掩盖的词汇。这样，通过检测是否能根据上下文正确恢复相关文本确定文本编码损失。例如，对于文本“交易记录详情”，掩盖其中的文本“记录”进行编码，然后通过掩码语言模型试图根据恢复上下文“交易”和“详情”以及被掩盖的文本“记录”。恢复文本的准确性越高，文本编码损失越小，反之，恢复文本的准确性越低，文本编码损失越大。在图6a中，将文本编码模块的编码损失记为损失2(或者记为第四损失)。为了区分，可以将针对文本编码模块进行检验的掩码语言模型称为第一掩码语言模型。

另一方面，图像编码模块可以处理图片获得页面布局信息，位置融合模块可以基于样本图片对页面布局进行位置的融合归一(如前文描述的归一方式)，从而感知页面布局与文本布局之间的位置关系。在可选的实施例中，还可以将文本布局信息和页面布局信息一起进行位置的融合归一(如图6a中的虚线箭头所示)。其中，位置的融合归一是为了消除图片之间尺寸差异，图片上的标注框尺寸形态各异导致的误差，如前文描述的归一化到1000×1000尺寸上，该1000×1000尺寸和原始图片具有像素间的对应关系，因此，相当于将文本位置信息和页面布局的区域位置信息映射到原始图片上建立了对应关系。

经由位置融合模块进行位置的归一化之后，还可以利用融合编码模块结合页面布局信息、文本编码信息，进行融合编码。由于此处的编码融合了位置信息，为了检验融合位置信息后的文本是否可以恢复，可以利用第二掩码模型进行检验。由于文本编码模块进行文本编码时掩盖了部分词汇，这里经由第二掩码模型利用融合编码结果进行文本恢复，并与 OCR文本识别结果对比以检验恢复的准确性。

预测结果越准确，基于位置进行编码的编码损失越小，反之，预测结果越不准确，基于位置的编码损失越大。图6a中，基于位置的编码损失可以记为损失3(下文也可以称为第五损失)。可以理解，损失3可以同时衡量图像编码模块、文本编码模块以及位置融合模块带来的损失。

针对融合编码结果(，如针对第三图片的第三页面表征)，为了检验基于位置的编码结果的位置准确性，预训练过程中还可以设置基于位置的解码模块(如记为position-enhance transformer decoder)，其可以通过transformer的注意力机制实现。基于位置解码模块可以对编码模块编码的位置关系进行恢复，从而得到文本布局及页面布局的各个标注框，如图 2中的标注框201、203等。另一方面，页面布局的区域标注框(Region框)、文本布局中的文本标注框(OCR框)，都可以经由OCR等版面分析器预先识别。因此，版面分析器预先识别的页面布局和文本布局标注框可以用来验证基于位置的编码、解码过程。具体地，可以将解码模块解码得到的各个标注框与OCR识别的标注框进行比较，解码模块解码得到的标注框位置与OCR识别的标注框位置越一致，表明靠前各个模块的编码、解码模块的解码损失越小，反之，编码、解码损失越大。此处的损失可以记为损失4(也可以称为第六损失)。事实上，损失4可以同时反映出图像编码模块、文本编码模块、位置融合模块、基于位置的整体编码模块、解码模块的整体损失。

在一个实施例中，针对一个图片，或者一个批次(battle)的图片，可以将图6a中示出的损失2、损失3、损失4叠加，作为相应更新轮次的模型损失，并向模型损失减小的方向调整相应模块的待定参数，如通过梯度下降法调整相应参数等，从而对模型中的各个模块进行预训练。

在一些可选的实现方式中，还可以对各个模块的编码结果进行反向的识别，也就是说，在样本图片与OCR文本识别结果不一致的情况下，希望各个模块能够分辨该不一致的结果。如此，才能保证针对用户的页面截图编码得到的页面表征与其对应的候选页面的候选表征尽可能一致，而与其他候选表征尽可能不一致。

有鉴于此，在获取一个样本图片后，从OCR识别结果中获取非该样本图片的文本识别结果的一份OCR文本。如图6b所示，在样本图片和OCR文本不相对应的情况下，可以进行各个模块的图文匹配(image-text matching，ITM)训练。此时，可以将样本图片和 OCR文本利用各个模块进行相应的处理，得到的页面表征可以经过一个ITM分类器，映射为匹配或不匹配的类别。该映射结果可以与不匹配类别的样本标签进行比较，从而确定损失1(也可以称为第三损失)。

可选地，对预训练样本集中的各个图片，可以随机选择版面分析器识别的OCR文本和图片。这里，由于OCR可以提供文本识别、文本标注等服务，因此认为版面分析器OCR 识别结果是可信的。其中，针对任意图片(如第三图片)，选择的OCR识别结果是该图片对应的OCR文本的情况下，相当于构造的是正样本。此时，可以按照图6a的执行架构确定损失1。相反地，如果选择的OCR文本不是针对该图片的文本识别结果的情况下，则相当于构造的是负样本。此时，可以按照图6b示出的方式确定对应的损失1。如此，在一个训练周期，针对该文本识别模块，可以从预训练页面集和相应的OCR文本中随机捞取并配对，从而构造一个批次的多个正、负样本，确定当前训练周期的模型损失。进一步可选地，在当前批次的样本图片中，有的样本图片可以得到损失1，有的图片可以得到损失2、损失3、损失4，则该批次对应的综合损失为所得到的损失1、损失2、损失3、损失4之和。

综上，在模型预训练过程中，可以预先通过版面分析器(如OCR版面分析模块等)，从原始图片中识别出文本字符以及文本标注框、页面布局的区域标注框等，并将这些识别结果作为对以上分析过程中相关模块输出结果的标签，从而利用对各个模块的输出结果的监督确定模型损失。其中，在可选的实施例中，由于大的OCR标注框可以反映图文结构文本布局信息，因此还可以将OCR标注框按照区域面积大小排序，并将排列靠前(如其 15个)的区域作为标注区域的标签。

经过预训练后的模型，可以能够初步挖掘图片中的文本语义、文本布局、页面布局等信息。

如此，经过图6a、图6b示出的预训练架构、图5示出的训练架构训练的文本编码模块、图像编码模块、位置融合模块、融合编码模块，可以融合图片中的文本语义信息、文本布局(如OCR检测框等)信息、页面布局(Region)信息、原始图片信息等。由于使用更加全面的图片信息，使得页面匹配更加准确。

下面结合问答业务场景下的一个具体实施例描述本说明书设计构思中各个模块在线提供服务的具体过程。

请参考图7所示，图7给出了根据一个实施例的基于图片的意图检测流程示意图。该流程的执行主体可以是任意具有一定计算能力的计算机、设备或服务器等，如问答服务器。该流程主要用于智能客服的问答场景，用于基于用户发送的图片，检测用户问题中所针对的业务。其中，问答服务器上部署至少有如图3所示文本编码模块、图像编码模块、位置融合模块、融合编码模块。

如图7所示，本说明书一个实施例提供的基于图片的意图检测流程包括：步骤701，获取当前用户问题中的第一图片，以及针对所述第一图片识别的第一文本信息，第一文本信息包括第一文本语义信息和第一文本位置信息；步骤702，基于文本编码模块对第一文本信息的编码，得到第一文本编码特征；步骤703，利用图像编码模块对第一图片的页面布局进行编码，得到第一图像编码特征和第一布局结构特征；步骤704，结合第一图片，经由位置融合模块针对第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征；步骤705，经由融合编码模块对第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码，从而得到针对第一图片基于位置的第一页面表征；步骤706，基于第一页面表征确定第一图片所对应的目标页面，进而确定用户意图。

首先，在步骤701中，获取当前用户问题中的第一图片，以及针对第一图片识别的第一文本信息。

当前用户问题可以是用户当前针对某一项业务咨询的问题，例如对账号切换业务的咨询、对账单详情业务的咨询，等等。用户咨询过程中，为了更直观地描述在相应业务下产生的问题，可以在描述问题过程中附带图片。在针对一项业务咨询过程中，可以附带一张图片，也可以附带多张图片。其中的任一张图片称为第一图片。第一图片通常是页面的屏幕截图或者快照，本说明书统称为页面截图。

针对该第一图片，服务端可以将其匹配到候选页面中的一个或多个页面，以根据所匹配的候选页面，关联相关的业务，从而推测用户意图或者用户所遇到的问题。其中，在可选的实现方式中，识别到第一图片关联的业务后，还可以结合文字描述(如图1中的“我的账单显示不正常”)共同确定用户意图。在该步骤701中，当用户在当前问题中输入第一图片后，服务端可以获取该第一图片，还可以对第一图片进行文本识别，得到第一文本信息。其中，文本识别例如可以通过OCR文本识别器、版面分析器等进行。第一文本信息包括第一文本语义信息和第一文本位置信息。其中，这里的“第一”均表示和“第一图片”中的“第一”相对应，不对实质内容构成限定。

第一文本语义信息即为前文描述的text信息，例如图2示出的页面截图中的字符“存入产品”、“确认金额”等等。第一文本位置信息对应前文描述的文本布局detection，可以是描述text信息所在的位置。

通常，text可以按照字符间的间距、排列情形等划分单元，例如图2中，文本“存入产品”的字符之间间距较小，可以为一个文本语义单元，而文本“付款方式”与文本“存入产品”间隔较大，可以作为不同的文本语义单元。在文本信息识别过程中，单个字符的识别通常不易捕获其中的语义信息，因此，本说明书中可以按照文本单元进行识别。文本语义信息可以是所识别的字符本身，这些字符按照间距可以划分为若干字符单元。而文本位置信息可以按照文本语义单元的检测框位置坐标确定。如识别出文本语义单元在页面截图中，起止像素行、起止像素列。

作为示例，单个文本语义单元通常可以通过4个坐标表示，分别为四个顶点的顶点坐标合并后的纵、横坐标。一个文本语义单元的标注框可以称为文本框或OCR框。一个标注框的四个顶点坐标例如可以为[x1，y1]、[x1，y2]、[x2，y1]、[x2，y2]，合并后通过[x1， y1，x2，y2]表示。在一些实现方式中，一个文本框的编码还可以以标注框的顶点坐标和标注框大小同时描述，如[x1，y1，x2，y2，x2-x1，y2-y1]。此时，单个文本框的编码结果可以是6个向量的向量表达。

然后，在步骤702，基于文本编码模块对第一文本信息进行的编码，得到第一文本编码特征。

文本编码一方面可以将text信息通过数值进行表达，另一方面可以对文本语义信息赋予位置特征。文本编码模块例如为Bert Encoder等语义编码网络。具体而言，文本编码模块可以将单个文本语义单元中的文本的位置信息都编码为其对应的检测框(如OCR框)的位置信息。以文本棉麻模块是Bert Encoder为例，可以将检测框的位置信息嵌入到文本特征向量中，作为文本编码网络的输入。其中，Bert Encoder通过对词向量、位置向量等作为嵌入向量从而进行文本编码，其中的位置向量可以是文本的位置坐标所对应的嵌入向量。

进一步地，一个标注框的各个顶点均可以通过预定维数(如10维)的位置向量表示。在将位置信息嵌入文本特征向量时，可以将四个顶点的位置向量表示均嵌入到文本特征向量。值得说明的是，一个文本语义单元中的各个字符均可以使用该文本单元对应的位置信息。具体而言，假设第一文本语义信息包括第一文本，第一文本对应第一文本框，在第一文本输入文本编码信息之前，可以通过分词、获取词向量等方式确定文本语义向量(如词向量)。而文本编码模块中输入的文本特征向量可以是文本语义向量、词位置向量、句子向量等的嵌入向量。为了编码文本的位置特征，在本步骤702中，可以将嵌入文本在第一图片中的位置向量代替词位置向量。对于第一文本而言，可以嵌入第一文本框的各个位置向量。第一文本框的各个位置向量即为与各个顶点分别对应的通过预定维数表示的各个位置向量。

另一方面，在步骤703，利用图像编码模块对第一图片的页面布局进行编码，得到第一图像编码特征和第一布局结构特征。

图像编码模块用于提取页面布局特征。具体而言，可以编码第一图片中各个展示区域通过位置信息描述出来。其中，一个展示区域可以是页面布局中按照功能或信息的相似度划分的展示区域，如图2中的标注框201作为一个账单明细的展示区域。一个展示区域内的信息通常具有关联性。图像编码模块例如通过ResNet(残差网络)等结构实现。可以理解，在图像编码模块经由卷积神经网络实现的情况下，其输出可以包括多个区域网格(Grid网格)。单个区域网格对应这第一图片上的一个矩形区域(对应多个像素)，且对应有在多个通道上的特征值。则这多个特征值可以用于描述该网格在第一图片上对应的矩形区域的编码特征，同时，该网格映射到第一图片上的多个像素的顶点坐标描述了针对第一图片所提取的展示区域的布局结构特征。

作为一个具体示例，一个矩形标注框可以由4个坐标表示，分别为四个顶点合并后的纵、横坐标。例如，一个标注框的四个顶点坐标为[x1＇，y1＇]、[x1＇，y2＇]、[x2＇，y1＇]、[x2＇，y2＇]，合并后通过[x1＇，y1＇，x2＇，y2＇]表示。由于卷积神经网络的一层输出中，感受野通常是一致的，因此，各个特征点对应到原始图片(这里是第一图片)的像素数量是一致的，从而，根据特征点的位置可以映射到原图上的像素位置。也就是说，特征点的位置信息包含了所提取的标注框的位置信息。

特别地，图像编码结果中一个标注框中的各个像素均对应该标注框的坐标，或者说，一个标注框中的各个像素的位置编码结果相同。

进一步地，通过步骤704，结合第一图片，经由位置融合模块针对第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征。

根据本说明书的构思可知，第一文本编码特征包含了文本布局的位置信息，第一图像编码特征包含了页面布局的位置信息，为了将文本布局和页面布局的位置信息融合在一起，可以结合第一图片，对第一文本编码特征和第一图像编码特征之间的位置关系进行整体的一致性融合。

具体而言，可以将图像编码结果(grid坐标)和文本编码结果中涉及的位置信息统一归一化到一个预定大小的特征区域，如1000×1000大小的特征区域，则不论第一图片的实际像素数量是多少，各个坐标的映射结果均在[0,1000]范围内。由于图像编码结果和文本编码结果中的坐标值都通过向量表示，因此，可以将向量映射为[0,1000]范围内的整数值，从而视为对坐标进行了归一化。

可以理解，在归一化过程中，可能出现小数的计算结果，而特征区域中的一个单元可以看作一个像素，因此，可以采用上取整的方式进行映射。即，当映射坐标为小数时，取较大整数作为映射坐标值。

作为一个具体示例，[x₁，y₁，x₂，y₂]、[x₁＇，y₁＇，x₂＇，y₂＇]中各个坐标都归一化为 0-1000内的整形数据。归一化过程中，可以看作二维坐标空间1000×1000个小格子，由于图片大小不一样，所以每个格子映射到图片本身的大小区域也不一样，或者说对应的像素树木也不一样。划分格子后，根据图像编码模块(如ResNet Grid)的位置编码结果、文本编码模块(如OCR标注框)位置编码结果，重新算出归一化后各个位置坐标在[0,1000] 范围内的位置坐标值。单个标注框的格式例如为6元素[x₁，y₁，x₂，y₂，width(x₂-x₁)， height(y₂-y₁)]，进行EmbeddingLookUp后，6个元素分别对应6个向量，将这6个向量融合，如相加，得到的向量作为融合结果。

之后，可以通过归一化后的各个坐标值，分别对文本布局(如OCR框)和页面布局(如 Region标注框)进行编码。编码即将坐标通过向量表示出来的过程。与前文的文本编码模块和图像编码模块类似地，一个标注框(OCR框或Region标注框)的四个顶点可以被嵌入为4个向量，或者6个向量。然后将同一个标注框各个向量进行嵌入(embedding)，作为相应的编码结果。其中，嵌入的方式例如为求平均、加权平均、加权求和、取中位数，等等。

归一化的位置编码相当于对文本布局detection对应的OCR框，以及页面布局Region 对应的区域标注框从位置上，基于第一图片进行了融合，融合结果可以称为第一位置融合特征。

特别地，经过实验对比发现，在步骤704中，经由位置融合模块针对第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征，而不融合第一文本编码特征的架构下，可以具有与针对第一布局特征和第一文本编码特征同时映射到预定尺寸进行融合，具有相近的准确性。因此，在该步骤704中，可以基于第一图片，经由位置融合模块至少针对第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征。

接着，在步骤705，经由融合编码模块对第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码，从而得到针对第一图片基于位置信息的第一页面表征。

第一页面表征用于表征第一页面，例如可以是图3a、图3b、图5、图6中示出的编码表征。为了使得融合编码模块的编码可以反映图片信息Image、文本语义信息text、文本布局detection，以及页面布局Region的信息，可以将步骤704中的位置融合结果与步骤 702中的文本编码结果(第一文本编码结果，包含文本语义信息)以及步骤703中的图片编码结果(第一图像编码结果，包含纹理信息)共同作为融合编码模块的输入数据。

融合编码模块可以通过全连接神经网络、注意力机制的神经网络等实现。以注意力机制为例，为了更好地表征第一图片，可以使用transformer机制的注意力网络，在此不再赘述。第一页面表征可以是张量形式，例如，一维张量(向量)、二维张量(表征矩阵)等形式，在此不再赘述。

然后，在步骤706，基于第一页面表征确定第一图片所对应的目标页面，进而确定用户意图。

根据前文的原理描述，该步骤有两种实现方式。

在一种可选的实现方式，以检测第一页面表征与各个候选页面分别对应的各个候选表征之间的一致性为目标。通俗地说，第一页面表征和哪个候选表征最一致，则和该候选表征对应的候选页面相对应。

此时，步骤706的实质是确定第一页面表征与各个候选表征之间的相似性。其可以通过匹配数值的数量、向量相似度等方式确定。其中，两个表征之间的相似性可以通过余弦相似度、杰卡德系数、欧氏距离、KL散度、方差之类的相似度确定方法。以余弦相似度为例，假设第一页面表征记为向量a，某个候选表征记为向量b，则两者之间的余弦相似度可以记为

余弦相似度越大，两者的相似性越高。值得说明的是，在页面表征通过更高维度的张量表示的情况下，可以将相应张量展平(例如按行/列拼接)为向量形式来确定相似度。匹配数值的数量通常是两个表征之间的数值一一对应比较，相同数值越多，相似性越高。

根据另一种可选的实现方式，步骤706确定第一图片所对应的候选页面的过程也可以通过分类模块或者预测模块实现。此时，可以将第一页面表征输入预先训练的分类模块或者预测模块，并根据分类模块或者预测模块的输出结果确定第一图片对应的候选页面，例如，将输出数值所对应的候选页面或者概率值排列靠前的若干候选页面确定为第一图片对应的候选页面，在此不再赘述。

根据第一图片对应的候选页面，可以进一步结合链接到该候选页面的其他页面，或者用户在当前问题中输入的其他信息(如图1中的“我的账单显示不正常”)等，确定用户的目标问题，从而识别用户意图。

回顾以上过程，针对智能客服场景下，用户问题中包含页面截图的技术场景，提出一种对用户所提供的页面截图进行识别的技术方案。具体地，一方面，通过文本识别模块OCR 等提取页面截图中的文本语义信息text、文本布局信息detection，并经过文本编码得到文本的与位置相关的文本编码特征。另一方面，通过图像编码模块编码页面布局Region中的区域信息，得到图像编码特征(包含Image纹理信息)以及布局结构特征(包含Region位置信息)。然后，结合用户提供的页面截图Image，基于位置融合模块至少将融合页面布局中的位置信息映射到预定尺寸，并将融合后的位置信息与文本语义信息text、图像编码信息经由融合编码模块进行融合编码，得到结合了页面截图Image、文本语义信息text、文本布局信息detection以及页面布局Region的页面表征。通过页面表征可以识别用户提供的页面截图所匹配的候选页面。由于使用了更加丰富的页面信息，得到的页面表征更加准确，从而可以提高识别用户意图的准确度。

根据另一方面，本说明书的实施例还提供一种基于图片的意图检测装置。该装置可以设于智能客服服务器，用于基于用户发送的图片，检测用户问题中所针对的业务。图8示出了一个实施例的基于图片的意图检测装置800。如图8所示，装置800包括：

获取单元801，配置为获取当前用户问题中的第一图片，以及针对第一图片识别的第一文本信息，第一文本信息包括第一文本语义信息和第一文本位置信息；

文本编码单元802，配置为基于文本编码模块对第一文本信息进行的编码，得到第一编码特征；

图像编码单元803，配置为利用图像编码模块对第一图片的页面布局进行编码，得到第一图像编码特征和第一布局结构特征；

位置融合单元804，配置为结合第一图片，经由位置融合模块针对第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征；

图片表征单元805，配置为经由融合编码模块对第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码，从而得到针对第一图片基于位置信息的第一页面表征；

比对单元806，配置为基于所述第一页面表征确定所述第一图片所对应的目标页面，进而确定用户意图。

值得说明的是，图8示出的装置实施例与图7示出的方法实施例相对应，因此，在相应场景下，针对图7的相应描述适应于图8在相应场景下的实施例，在此不再赘述。

根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行图7描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，处理器执行可执行代码时，实现结合前文描述的图7描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种基于图片的意图检测方法，用于基于用户发送的图片，检测用户问题中所针对的业务，所述方法包括：

获取当前用户问题中的第一图片，以及针对所述第一图片识别的第一文本信息，所述第一文本信息包括第一文本语义信息和第一文本位置信息；

基于文本编码模块对所述第一文本信息的编码，得到第一文本编码特征；

利用图像编码模块对所述第一图片的页面布局进行编码，得到第一图像编码特征和第一布局结构特征；

结合所述第一图片，经由位置融合模块针对所述第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征；

经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码，从而得到针对所述第一图片基于位置信息的第一页面表征；

基于所述第一页面表征确定所述第一图片所对应的目标页面，进而确定用户意图。

2.如权利要求1所述的方法，其中，所述第一文本语义信息包括至少一个文本语义单元，所述第一文本位置信息包括分别包围各个文本语义单元的各个文本框的坐标信息。

3.如权利要求2所述的方法，其中，所述第一文本语义信息包括第一文本，所述第一文本对应第一文本框，所述基于文本编码模块对所述第一文本信息进行编码，得到第一文本编码特征包括：

对所述第一文本框各个顶点分别通过预定维数的各个位置向量进行表示，其中所述第一文本中的字符共享所述第一文本框的位置向量；

将各个位置向量与所述第一文本的文本语义向量嵌入到所述第一文本的文本特征向量，作为文本编码模块的输入数据；

根据文本编码模块对相应输入数据的处理得到第一文本编码特征。

4.如权利要求1所述的方法，其中，所述图像编码模块通过卷积神经网络实现，其输出为在多个通道上的多个预定大小的特征图，所述特征图的单个特征点对应所述第一图片上的若干像素构成的单个矩形展示区域，所述第一布局结构特征包括所述单个矩形展示区域在所述第一图片上对应的顶点坐标。

5.如权利要求1所述的方法，其中，所述结合所述第一图片，经由位置融合模块针对所述第一布局结构特征中的位置信息向预定尺寸的映射，得到第一位置融合特征包括：

基于所述第一图片，经由位置融合模块将第一布局结构特征、第一文本特征中包含的位置信息各自映射到预定尺寸，其中，映射结果与所述第一图片和预定尺寸之间的比例相关；

根据映射结果确定所述第一位置融合特征。

6.如权利要求1所述的方法，其中，经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码，从而得到针对所述第一图片基于位置信息的第一页面表征包括：

将所述第一位置融合特征、第一图像编码特征和所述第一文本编码特征作为所述融合编码模块的输入数据；

根据所述融合编码模块的输出确定所述第一页面表征。

7.如权利要求1所述的方法，其中，所述目标页面为从作为页面模板的多个候选页面中选择的页面。

8.如权利要求7所述的方法，其中，各个候选页面分别对应有预先经由所述文本识别模块、文本编码模块、图像编码模块、位置融合模块以及融合编码模块处理得到的各个候选表征；所述基于所述第一页面表征确定所述第一图片所对应的目标页面包括：

分别检测所述第一页面表征与各个候选表征之间的相似性；

按照相似性由高到低的顺序从各个候选页面中选择目标页面。

9.如权利要求8所述的方法，其中，所述多个候选页面包括第一页面，所述第一页面对应于第一候选表征，所述第一页面表征与所述第一候选表征之间的相似性通过第一相似度描述，所述第一相似度基于所述第一页面表征与所述第一候选表征之间的余弦相似度、杰卡德系数、欧氏距离、KL散度、方差之一确定。

10.如权利要求7所述的方法，其中，所述基于所述第一页面表征确定所述第一图片所对应的目标页面包括：

将所述第一页面表征输入预先训练的分类模型或预测模型；

根据分类模型或预测模型的输出结果从各个候选页面中选择所述目标页面。

11.如权利要求1所述的方法，其中，所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块通过针对问答任务的训练集中的训练样本进行页面匹配训练，其中，训练集中的各个训练样本图片各自对应有通过版面分析器提取的文本位置信息、页面布局信息，以及预先标注的所匹配的候选页面，所述训练样本图片包括第二图片，所述第二图片所匹配的候选页面为第二页面；所述页面匹配训练包括：

利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块对所述第二图片进行处理，得到第二页面表征；

基于所述第二页面表征与所述第二页面的对应关系，确定第一损失；

对第二图片的融合编码特征基于位置信息进行解码，得到文本位置信息和页面布局信息，与针对第二图片利用版面分析器提取的文本位置信息和页面布局信息进行对比，确定第二损失；

基于所述第一损失、所述第二损失确定当前训练损失，并以当前训练损失减小为目标调整各个模块的待定参数。

12.如权利要求11所述的方法，其中，所述第二页面对应有利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块处理得到的第二候选表征；基于所述第二页面表征与所述第二页面的对应关系，确定第一损失包括：

基于所述第二页面表征与所述第二候选表征之间的第一相似性，确定所述第一损失，其中，所述第一损失与所述第一相似性负相关。

13.如权利要求11所述的方法，其中，所述基于所述第二页面表征与所述第二页面的对应关系，确定第一损失包括：

将所述第二页面表征输入预先确定的分类模型或预测模型；

根据所述分类模型或预测模型的输出结果与由所述第二页面确定的样本标签的比较，确定第一损失。

14.如权利要求11-13任一所述的方法，其中，所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块在经过训练集训练之前，还基于预训练集中的各个预训练样本图片进行预训练，其中，各个预训练样本图片各自对应有通过版面分析器提取的文本语义信息、文本位置信息、页面布局信息；所述预训练样本图片包括第三图片，所述预训练包括：

获取所述第三图片；

从文本语义信息中随机获取当前文本信息；

检测当前文本信息是否所述第三图片中的文本信息；

基于检测结果，利用所述第三图片进行预训练。

15.如权利要求14所述的方法，其中，在当前文本信息不是所述第三图片中的文本信息的情况下，所述基于检测结果，利用当前图片进行预训练包括：

利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块对所述第三图片进行处理，得到第三页面表征；

利用辅助分类器对所述第三页面表征进行分类，得到当前文本信息和所述第三图片是否匹配的辅助分类结果；

根据该辅助分类结果与基于检测结果确定的样本标签进行对比，从而确定第三损失。

16.如权利要求14所述的方法，其中，在当前文本信息是当前图片中的文本信息的情况下，所述基于检测结果，利用当前图片进行预训练包括：

通过文本编码模块处理所述当前文本信息，得到文本编码特征；

将所述文本编码特征经由第一掩码语言模型进行文本重建，以恢复所述当前文本信息在编码过程中被隐藏的文本为目标，确定所述文本编码模块对应的第四损失；

经由位置融合模块处理针对所述第三图片的图片编码特征以及所述文本编码特征，得到所述第三图片的融合特征，所述第三图片的图片编码特征经由图像编码模块处理所述第三图片得到；

通过融合编码模块处理所述第三图片的融合特征、所述第三图片的图片编码特征以及所述文本编码特征，得到第三图片的融合编码特征；

利用所述第三图片的融合编码特征进行第二掩码语言模型进行文本重建，以恢复所述当前文本信息在编码过程中被隐藏的文本为目标，确定第五损失；

以基于所述第四损失、第五损失确定的模型损失减小为目的调节各个模块的待定参数。

17.如权利要求16所述的方法，其中，所述预训练还包括：

利用辅助解码模块对第三图片的融合编码特征基于位置信息进行解码，得到针对所述第三图片预测的文本位置信息和页面布局信息；

将针对所述第三图片预测的文本位置信息和页面布局信息分别与利用版面分析器提取的文本位置信息和页面布局信息进行对比，从而确定第六损失；

则，所述以基于所述第四损失、第五损失确定的模型损失根据第四损失、第五损失、第六损失之和确定。

18.一种基于图片的意图检测装置，用于基于用户发送的图片，检测用户问题中所针对的业务，所述装置包括：

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-17中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-17中任一项所述的方法。