CN111310693A

CN111310693A - 图像中文本的智能标注方法、装置及存储介质

Info

Publication number: CN111310693A
Application number: CN202010118420.5A
Authority: CN
Inventors: 黄杰; 袁星宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-06-19
Anticipated expiration: 2040-02-26
Also published as: CN111310693B

Abstract

本发明提供了一种图像中文本的智能标注方法、装置、电子设备及存储介质；方法包括：对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像；所述文本内容与目标语言匹配；对所述页面中的文本内容进行提取，得到所述页面的目标语言文本；对所述待标注图像进行光学字符识别，得到对应所述待标注图像的光学字符识别文本；获取所述目标语言文本中与所述光学字符识别文本对应的目标文本；基于所述目标文本，对所述待标注图像进行文本标注，得到图像标注样本；通过本发明，能够对图像进行自动化文本标注，提高样本标注效率，在短时间内为模型训练提供大量的标注样本。

Description

图像中文本的智能标注方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种图像中文本的智能标注方法、装置、电子设备及存储介质。

背景技术

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别文字识别(OCR，Optical Character Recognition)等技术。

而随着人工智能技术逐渐成熟，图像OCR技术越来越广泛地应用到日常生活中。为了得到识别精确更高的图像OCR识别模型，需要通过大量的已标注样本对图像OCR模型进行训练。相关技术中在构建训练样本时，通常采用手动输入等人工标注的方式实现，不仅耗费人力成本，还大大降低了样本的标注效率，给模型训练上带来了极大的困难。

发明内容

本发明实施例提供一种图像中文本的智能标注方法、装置、电子设备及存储介质，能够对图像进行自动化文本标注，提高样本标注效率，在短时间内为模型训练提供大量的标注样本。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种图像中文本的智能标注方法，包括：

对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像；所述文本内容与目标语言匹配；

对所述页面中的文本内容进行提取，得到所述页面的目标语言文本；

对所述待标注图像进行光学字符识别，得到对应所述待标注图像的光学字符识别文本；

获取所述目标语言文本中与所述光学字符识别文本对应的目标文本；

基于所述目标文本，对所述待标注图像进行文本标注，得到图像标注样本，所述图像标注样本用于供训练光学字符识别模型，以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别，并输出对应所述目标语言的识别文本。

本发明实施例还提供一种图像中文本的智能标注装置，包括：

截图模块，用于对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像；所述文本内容与目标语言匹配；

文本提取模块，用于对所述页面中的文本内容进行提取，得到所述页面的目标语言文本；

识别模块，用于对所述待标注图像进行光学字符识别，得到对应所述待标注图像的光学字符识别文本；

获取模块，用于获取所述目标语言文本中与所述光学字符识别文本对应的目标文本；

标注模块，用于基于所述目标文本，对所述待标注图像进行文本标注，得到图像标注样本，所述图像标注样本用于供训练光学字符识别模型，以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别，并输出对应所述目标语言的识别文本。

上述方案中，所述截图模块，还用于基于自动化测试工具模拟所述页面的浏览过程；

在模拟的所述浏览过程中，对所述页面进行截图，得到所述待标注图像。

上述方案中，所述截图模块，还用于通过所述自动化测试工具模拟浏览器，并基于模拟得到的所述浏览器打开对应目标网址的页面；

调整模拟得到的所述浏览器的窗口大小至目标窗口大小；

将所述对应目标网址的页面，在所述目标窗口大小的浏览器的窗口中循环滚动，以实现对所述页面的浏览。

上述方案中，所述截图模块，还用于获取上一次对所述页面进行截图所对应的第一截图时间及截图周期；

当基于所述第一截图时间及截图周期确定第二截图时间到达时，获取所述页面对应的浏览状态；

当所述浏览状态表征未浏览至所述页面的底部时，对所述页面进行截图，得到所述待标注图像。

上述方案中，所述文本提取模块，还用于对所述页面中的文本内容进行提取，得到原始文本信息；

对所述原始文本信息进行字符编码，得到相应的编码文本；

对所述编码文本进行文本清洗，以过滤目标类型的符号，得到所述目标语言文本。

上述方案中，所述获取模块，还用于对所述光学字符识别文本进行文本解析，得到所述光学字符识别文本中包含的各单行文本；

分别获取各所述单行文本对应的文本标识，所述文本标识用于标识相应的单行文本；

基于所述文本标识，获取所述目标语言文本中与各所述单行文本对应的单行目标文本，将获得的各所述单行目标文本作为所述目标文本。

上述方案中，所述获取模块，还用于分别提取各所述单行文本的首尾词，将提取的所述首尾词作为相应的单行文本的文本标识；

相应的，所述基于所述文本标识，获取所述目标语言文本中与各所述单行文本对应的单行目标文本，包括：

分别将各所述单行文本的首尾词与所述目标语言文本中的文本进行词语匹配，以基于匹配结果得到所述目标语言文本中与各所述单行文本对应的单行目标文本。

上述方案中，所述标注模块，还用于确定对应所述目标文本的光学字符识别文本在所述待标注图像中所处的目标位置；

将所述目标文本与所述目标位置进行绑定，以实现对所述待标注图像的文本标注。

本发明实施例还提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的图像中文本的智能标注方法。

本发明实施例还提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本发明实施例提供的图像中文本的智能标注方法。

本发明实施例具有以下有益效果：

通过对包含目标语言的文本的页面进行截图，得到包含文本的待标注图像，利用光学字符识别技术得到待标注图像的光学字符识别文本；然后对截图的页面进行文本提取，得到页面的目标语言文本，进而在目标语言文本中查找与光学字符识别文本对应的目标文本，以基于目标文本对待标注图像进行文本标注，得到图像标注样本；如此，在整个图像的文本标注过程中，不再需要人为识别并手动输入所要标注的内容，实现了图像的文本标注的自动化，提高了样本的标注效率，在短时间内为模型训练提供大量的标注样本，缓解了模型训练上的困难。

附图说明

图1是相关技术中提供的图像中文本的标注方法的示意图；

图2是本发明实施例提供的图像中文本的智能标注方法的实施场景示意图；

图3是本发明实施例提供的电子设备的结构示意图；

图4是本发明实施例提供的图像中文本的智能标注方法的流程示意图；

图5是本发明实施例提供的待标注图像的示意图；

图6是本发明实施例提供的光学字符识别文本在待标注图像所处的目标位置示意图；

图7是本发明实施例提供的图像中文本的智能标注方法的数据流向图；

图8是本发明实施例提供的图像中文本的智能标注方法的流程示意图；

图9是本发明实施例提供的图像中文本的智能标注装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)光学字符识别(Optical Character Recognition，OCR)，通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

为了得到识别精确更高的图像OCR识别模型，需要通过大量的已标注样本对图像OCR模型进行训练。相关技术中，通常采用手动输入等人工标注的方式构建训练样本。参见图1，图1是相关技术中提供的图像中文本的标注方法的示意图，针对待标注图像，呈现关联的文字输入区，工作人员通过手动输入所看到的图像的文本内容，实现对图像的文本标注。此类样本标注方式不仅耗费人力成本，还大大降低了样本的标注效率。

而现如今也存在一些粤语等小众语言文本的OCR识别需求。由于各地语言文化的差异，在使用人工标注时，语言障碍使得工作人员无法直观地认识待标注图像的文本内容，甚至无法写出(参见图1中方框圈住的文本)，导致工作人员无法提供准确的标注内容，给模型训练带来了极大的困难。相关技术中，人工在无法准确读出或拼写出如粤语等语言文本时，通常使用手写板等外部设备来介入，或者借助第三方翻译引擎来实现。但是，外部设备成本高、不灵敏、且易损坏；而借助第三方翻译引擎实现时，使得人工标注的操作步骤更加多，耗时严重，导致人工标注效率进一步降低。

基于此，本发明实施例提供一种图像中文本的智能标注方法、装置、电子设备及存储介质，以至少解决相关技术中的上述问题，接下来分别进行说明。

下面对本发明实施例提供的图像中文本的智能标注方法的实施场景进行说明。参见图2，图2是本发明实施例提供的图像中文本的智能标注方法的实施场景示意图，为实现支撑一个示例性应用，终端(包括终端200-1和终端200-2)通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端(如终端200-1)，用于响应于用户触发的文本标注指令，向服务器发送文本标注请求；服务器100，用于响应于文本标注请求，对包含文本内容的页面进行截图，得到包含文本内容的待标注图像；对页面中的文本内容进行提取，得到页面的目标语言文本；对待标注图像进行光学字符识别，得到对应待标注图像的光学字符识别文本；获取目标语言文本中与光学字符识别文本对应的目标文本；基于目标文本，对待标注图像进行文本标注，得到图像标注样本；

终端(如终端200-1)，还用于响应于针对光学字符识模型的模型训练指令，向服务器发送模型训练请求；

服务器100，还用于响应于模型训练请求，基于图像标注样本训练光学字符识别模型；如此，得到训练完成的光学字符识别模型。

在一些实施例中，用户可通过操作终端(如终端200-2)，以向服务器100发送针对待识别图像的文本识别请求，这里，待识别图像包含目标语言的文本；

服务器100响应于文本识别请求，采用训练完成的光学字符识别模型，对待识别图像进行文本识别，输出对应目标语言的识别文本，并返回给终端(如终端200-2)，由该终端呈现待识别图像对应的识别文本。

在实际应用中，服务器100既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群；终端(如终端200-1)可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。

下面对本发明实施例提供的图像中文本的智能标注方法的电子设备的硬件结构做详细说明，参见图3，图3是本发明实施例提供的电子设备的结构示意图，图3所示的电子设备300包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。电子设备300中的各个组件通过总线***340耦合在一起。可理解，总线***340用于实现这些组件之间的连接通信。总线***340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线***340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。

存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Mem ory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器350旨在包括任意适合类型的存储器。

在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***351，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiF i)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块353，用于经由一个或多个与用户接口330相关联的输出装置331(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块354，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的图像中文本的智能标注装置可以采用软件方式实现，图3示出了存储在存储器350中的图像中文本的智能标注装置355，其可以是程序和插件等形式的软件，包括以下软件模块：截图模块3551、文本提取模块3552、识别模块3553、获取模块3554和标注模块3555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的图像中文本的智能标注装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的图像中文本的智能标注装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的图像中文本的智能标注方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integra ted Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

接下来对本发明实施例提供的图像中文本的智能标注方法进行详细说明。参见图4，图4是本发明实施例提供的图像中文本的智能标注方法的流程示意图；在一些实施例中，该图像中文本的智能标注方法可由服务器或终端单独实施，或由服务器及终端协同实施，以服务器实施为例，本发明实施例提供的图像中文本的智能标注方法包括：

步骤401：服务器对包含文本内容的页面进行截图，得到包含文本内容的待标注图像。

这里，文本内容与目标语言匹配，目标语言可以是粤语等小众类型的语言，即基于当前输入法无法输入的语言，或者针对标注人员来说无法识别和拼写出来的语言。

在实际应用中，首先需要获取大量的包含目标语言的文本的相关网站及网页，并保留该类网站的网址、网页的URL等信息。在获取待标注图像时，可通过对带有目标语言的文本的网页页面进行截图，以得到包含文本的待标注图像。

示例性地，参见图5，图5是本发明实施例提供的待标注图像的示意图，这里，为服务器针对包含粤语文本的网页页面进行截图得到的待标注图像。

在一些实施例中，服务器可通过如下方式得到包含文本内容的待标注图像：基于自动化测试工具模拟页面的浏览过程；在模拟的浏览过程中，对页面进行截图，得到待标注图像。

在实际应用中，可通过自动化测试工具来驱动浏览器，模拟浏览器打开网站、浏览网页等操作，从而实现模拟页面的浏览过程；在模拟的浏览过程中，对页面进行截图，以得到包含页面文本的待标注图像。

在一些实施例中，服务器可通过如下方式模拟页面的浏览过程：通过自动化测试工具模拟浏览器，并基于模拟得到的浏览器打开对应目标网址的页面；调整模拟得到的浏览器的窗口大小至目标窗口大小；将对应目标网址的页面，在目标窗口大小的浏览器的窗口中循环滚动，以实现对页面的浏览。

基于保存的目标网址，比如网页URL，启动如Selenium工具的自动测试工具实现对浏览器的模拟，并通过模拟得到的浏览器实现对目标网址对应的页面进行打开、浏览等操作。

在实际应用中，可以对浏览器的窗口大小进行预先设置。为了使模拟的页面所包含文本的排版和大小符合用户观看标准，以便获取到适宜尺寸的待标注图像，通过多次测试发现，浏览器的窗口尺寸为1400px*900px最为合适，因此，可将该1400px*900px设置为浏览器窗口的目标窗口大小。在通过Selenium工具模拟浏览器时，可将浏览器的窗口大小调整至目标窗口大小，以方便获取到适宜尺寸的待标注图像。

将浏览器的窗口大小调整到目标窗口大小后，在目标窗口大小的浏览器的窗口中循环滚动目标网址对应的页面，以实现对页面浏览操作的模拟。

在一些实施例中，服务器可通过如下方式对页面进行截图：获取上一次对页面进行截图所对应的第一截图时间及截图周期；当基于第一截图时间及截图周期确定第二截图时间到达时，获取页面对应的浏览状态；当浏览状态表征未浏览至页面的底部时，对页面进行截图，得到待标注图像。

这里，在模拟页面的浏览过程时，对页面进行截图处理，以得到待标注图像。

在实际应用中，可以设置截图周期，进而基于设置的截图周期进行截图。具体地，在进行每一次截图时，需要获取上一次对页面进行截图的第一截图时间，当基于第一截图时间及截图周期确定第二截图时间到达时，即第一截图时间与截图周期的时间相加确定到达第二截图时间时，则表示上一次截图结束，即将开启下一次截图。此时，需要对当前页面的浏览状态进行判断，即判断此时是否已经模拟浏览到达页面的底部。当获取的浏览状态表征未浏览至页面的底部时，再次对页面进行截图。如此，得到包含文本的待标注图像。

在实际应用中，还可以不设置截图周期，而是通过显示设备的屏幕每次所能呈现页面的大小来确定每次截图的内容，即每次截图只截当前浏览器窗口在全屏显示时所呈现的页面即可。具体地可通过执行JavaScript window.scrollTo(0,document.documentElement.scrollTop+900)来实现页面循环滚动，并在每次滚动时，达到刚好滚动一个显示设备的屏幕大小的页面的效果。

步骤402：对页面中的文本内容进行提取，得到页面的目标语言文本。

这里，对页面中的文本内容进行提取，从而得到页面的目标语言文本。

在一些实施例中，服务器可通过如下方式得到页面的目标语言文本：对页面中的文本内容进行提取，得到原始文本信息；对原始文本信息进行字符编码，得到相应的编码文本；对编码文本进行文本清洗，以过滤目标类型的符号，得到目标语言文本。

在实际应用中，对上述页面中的文本内容进行提取，从而得到页面的原始文本信息；将原始文本进行字符编码，保存为预设格式的编码文本。具体地，可通过HTML2TEXT库实现对页面的文本提取，得到页面的原始文本信息；通过UTF-8编码方式，对原始文本信息进行字符编码，以得到UTF-8编码文本并保存。

由于从页面中提取的文本包含大量无用的符号信息，因此需要对编码得到的编码文本进行文本清洗，以过滤掉无用的内容。在实际应用中，可将保存的编码文本导入预先编写好的文本清洗脚本中，通过脚本对编码文本进行文本清洗，以过滤掉目标类型的符号，比如特殊符号、表情符号等，从而得到对应页面的目标语言文本。

步骤403：对待标注图像进行光学字符识别，得到对应待标注图像的光学字符识别文本。

采用OCR识别技术，对截取得到的待标注图像进行OCR识别，从而得到对应待标注图像的OCR文本。

步骤404：获取目标语言文本中与光学字符识别文本对应的目标文本。

在分别获取到页面的目标语言文本和待标注图像的OCR文本后，则在目标语言文本中搜索与OCR文本对应的文本，以作为用于文本标注的目标文本。

在一些实施例中，服务器可通过如下方式获取目标文本：对光学字符识别文本进行文本解析，得到光学字符识别文本中包含的各单行文本；分别获取各单行文本对应的文本标识，文本标识用于标识相应的单行文本；基于文本标识，获取目标语言文本中与各单行文本对应的单行目标文本，将获得的各单行目标文本作为目标文本。

在实际应用中，首先对OCR文本进行文本解析，得到OCR文本中包含的各个单行文本；然后分别获取各单行文本的文本标识，以用来标识相应的单行文本；通过文本标识，在目标语言文本中，获取与各单行文本对应的目标单行文本，从而将获取的各单行目标文本作为OCR文本对应的目标文本。

在一些实施例中，服务器可通过如下方式获取各单行文本对应的文本标识：分别提取各单行文本的首尾词，将提取的首尾词作为相应的单行文本的文本标识。

在实际应用中，获取各单行文本对应的文本标识时，可分别提取各单行文本的首尾词，以提取的首尾词作为各单行文本的文本标识；此外，还可以提取各单行文本的关键词作为相应的单行文本的文本标识。

基于此，服务器可通过如下方式获取各单行文本对应的单行目标文本：分别将各单行文本的首尾词与目标语言文本中的文本进行词语匹配，以基于匹配结果得到目标语言文本中与各单行文本对应的单行目标文本。

通过将各单行文本的首尾词与目标语言文本中的文本进行词语匹配，得到匹配结果；从而基于得到的匹配结果，确定目标语言文本中与各单行文本对应的单行目标文本。具体地，通过首尾词搜索的方式，基于各单行文本的首尾词，在目标语言文本中搜索与该首尾词匹配的文本，将目标语言文本中与单行文本的首尾词匹配的该行文本，作为与该单行文本对应的单行目标文本。

步骤405：基于目标文本，对待标注图像进行文本标注，得到图像标注样本。

这里，图像标注样本用于供训练光学字符识别模型，以使训练得到的光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别，并输出对应目标语言的识别文本。

在一些实施例中，服务器可通过如下方式对待标注图像进行文本标注：确定对应目标文本的光学字符识别文本在待标注图像中所处的目标位置；将目标文本与目标位置进行绑定，以实现对待标注图像的文本标注。

这里，在基于目标文本对待标注图像进行文本标注时，首先确定对应目标文本的OCR文本在待标注图像中所处的目标位置。参见图6，图6是本发明实施例提供的光学字符识别文本在待标注图像所处的目标位置示意图，这里，各单行文本均被长方形区域框圈住，在确定对应目标文本的OCR文本在待标注图像中所处的目标位置时，即确定OCR文本中包含的各单行文本所在区域框的位置坐标，具体的坐标值可根据需要设置。

基于此，将目标文本与目标位置进行绑定时，可将目标文本中的各单行目标文本，与相应的各单行文本在待标注图像中所处的位置坐标进行绑定。如此，实现对待标注图像的文本标注，得到带有文本信息的图像标注样本。由于这里的目标文本对应目标语言，因此也实现了在某种特定的语言(比如粤语)下，对图像的文本标注的自动化，提高了样本标注效率；整个文本标注过程不再需要人工识别并输入标注内容，在针对包含粤语文本等小众语言文本的图像进行标注时，将不再受语言差异的困扰，突破了人工能力限制，无需理解文本即可实现对图像的文本标注。

在得到图像标注样本之后，可基于图像标注样本训练光学字符识别模型，以使该光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别，并输出对应目标语言的识别文本。示例性地，对于包含粤语文本的待识别图像，将该待识别图像输入训练完成的光学字符识别模型中，通过光学字符识别模型对待识别图像进行文本识别，得到对应粤语的识别文本并输出，从而通过OCR实现了图像转文字的处理。

应用本发明上述实施例，通过对包含目标语言的文本的页面进行截图，得到包含文本的待标注图像，利用光学字符识别技术得到待标注图像的光学字符识别文本；然后对截图的页面进行文本提取，得到页面的目标语言文本，进而在目标语言文本中查找与光学字符识别文本对应的目标文本，以基于目标文本对待标注图像进行文本标注，得到图像标注样本；如此，在整个图像的文本标注过程中，不再需要人为识别并手动输入所要标注的内容，实现了图像的文本标注的自动化，提高了样本的标注效率，在短时间内为模型训练提供大量的标注样本，缓解了模型训练上的困难。

下面将说明本发明实施例在一个实际的应用场景中的示例性应用。以目标语言为粤语为例，继续对本发明实施例提供的图像中文本的智能标注方法进行说明。参见图7和图8，图7是本发明实施例提供的图像中文本的智能标注方法的数据流向图，图8为本发明实施例提供的图像中文本的智能标注方法的流程示意图，本发明实施例提供的图像中文本的智能标注方法包括：

步骤801：终端响应于文本标注指令，向服务器发送文本标注请求。

步骤802：服务器响应于文本标注请求，通过自动化测试工具模拟浏览器，基于模拟得到的浏览器打开对应目标网址的页面，该页面包含目标语言的文本。

这里，目标语言可以为粤语。

在实际应用中，由于粤语文本较少，因此首先需要获取大量的包含粤语文本的相关网站及网页，并保留该类网站的网址、网页的URL等信息。在获取待标注图像时，可通过对带有粤语文本的网页进行截图，以得到待标注图像。在一些实施例中，可通过自动化测试工具来驱动浏览器，模拟浏览器打开目标网址的网站、浏览对应的网页等操作。

这里，参见图7(步骤701)，基于保存的网页URL(即目标网址)，启动Selenium工具来模拟浏览器，以实现对目标网址的网站或者网页的打开、浏览等操作的自动化模拟。

步骤803：调整模拟得到的浏览器的窗口大小至目标窗口大小。

这里，在实际应用中，可以对浏览器的窗口尺寸、以及放大系数进行预先设置。为了使模拟的页面所包含文本的排版和大小符合用户观看标准，以便获取到适宜尺寸的待标注图像，通过多次测试发现，浏览器的窗口尺寸为1400px*900px、放大系数为1.3最为合适，因此，可将该数值设置为浏览器窗口的目标窗口大小。在通过Selenium工具模拟浏览器时，可将浏览器的窗口大小调整至目标窗口大小，参见图7(步骤702)，以方便获取到适宜尺寸的待标注图像。

步骤804：将对应目标网址的页面，在目标窗口大小的浏览器的窗口中循环滚动，以实现对页面的浏览。

这里，需要将目标网址的页面在目标窗口大小的模拟浏览器中循环滚动，以实现对页面浏览操作的模拟，并在循环滚动中持续截图，从而方便获取到网页的所有文本截图。

步骤805：获取上一次对页面进行截图所对应的第一截图时间及截图周期。

步骤806：当基于第一截图时间及截图周期确定第二截图时间到达时，获取页面对应的浏览状态；当浏览状态表征未浏览至页面的底部时，对页面进行截图，得到待标注图像。

在步骤805-806中，在模拟页面的浏览过程时，对页面进行截图处理。

在一些实施例中，可以设置截图周期，进而基于设置的截图周期进行截图。具体地，在进行每一次截图时，需要获取上一次对页面进行截图的第一截图时间，当第一截图时间与截图周期的时间相加，确定到达第二截图时间时，即上一次截图结束，即将开启下一次截图时，需要对当前页面的浏览状态进行判断，参见图7(步骤703)，即判断此时是否已经模拟浏览到达页面的底部。当获取的浏览状态表征未浏览至页面的底部时，再次对页面进行截图。如此，得到包含粤语文本的待标注图像。

具体在判断是否模拟浏览到达页面的底部时，可通过document.documentElement.clientHeight与document.documentElement.scrollTop之和否是是等于document.documentElement.scrollHeight来进行判断。

在实际应用中，还可不设置截图周期，而是通过显示设备的屏幕每次所能呈现页面的大小来确定每次截图的内容，即每次截图只截当前浏览器窗口在全屏显示时所呈现的页面即可。具体地可通过执行JavaScript window.scrollTo(0,document.documentElement.scrollTop+900)来实现页面循环滚动，并在每次滚动时，达到刚好滚动一个显示设备的屏幕大小的页面的效果，参见图7(步骤704-步骤705)。

步骤807：对页面中的文本内容进行提取，得到原始文本信息，并对原始文本信息进行字符编码，得到相应的编码文本。

在对页面进行截图完成后，即判断该页面已模拟浏览到达页面的底部(参见图7的步骤703和步骤706)，此时对该页面进行文本提取，从而得到页面的原始文本信息；将原始文本进行字符编码，保存为预设格式的编码文本文件。

在实际应用中，可通过HTML2TEXT库实现对页面中文本内容的提取，得到页面的原始文本信息；通过UTF-8编码方式，对原始文本信息进行字符编码，以得到UTF-8编码文本文件并保存，参见图7(步骤707)。

步骤808：对编码文本进行文本清洗，以过滤目标类型的符号，得到目标语言文本。

这里，继续参见图7(步骤708)，可通过将保存的编码文本导入预先编写好的文本清洗脚本中，通过脚本对编码文本进行文本清洗，以过滤掉目标类型的符号，比如特殊符号、表情符号等，从而得到对应页面的目标语言文本。

步骤809：对待标注图像进行光学字符识别，得到对应待标注图像的光学字符识别文本。

这里，继续参见图7(步骤709)，采用OCR识别技术，对截取得到的待标注图像进行OCR识别，从而得到对应待标注图像的OCR文本。

步骤810：对光学字符识别文本进行文本解析，得到光学字符识别文本中包含的各单行文本。

这里，继续参见图7(步骤710)，对OCR文本进行文本解析，得到OCR文本中包含的各个单行文本。

步骤811：分别提取各单行文本的首尾词，将提取的首尾词作为相应的单行文本的文本标识。

参见图7(步骤711)，分别提取各单行文本的首尾词，以提取的首尾词作为各单行文本的文本标识。这里，还可以提取各单行文本的关键词作为相应的文本标识。

步骤812：分别将各单行文本的首尾词与目标语言文本中的文本进行词语匹配，以基于匹配结果得到目标语言文本中与各单行文本对应的单行目标文本。

这里，参见图7(步骤712)，通过首尾词搜索的方式，基于各单行文本的首尾词，在目标语言文本中搜索与该首尾词匹配的文本，将目标语言文本中与单行文本的首尾词匹配的该行文本，作为与该单行文本对应的单行目标文本。

将与各单行文本对应的单行目标文本作为OCR文本对应的目标文本。

步骤813：确定对应目标文本的光学字符识别文本在待标注图像中所处的目标位置。

这里，在基于目标文本对待标注图像进行文本标注时，首先确定对应目标文本的OCR文本在待标注图像中所处的目标位置。具体地，可参见图6，确定OCR文本中包含的各单行文本所在区域框的位置坐标。

步骤814：将目标文本与目标位置进行绑定，以实现对待标注图像的文本标注。

继续参见图7(步骤713)，通过得到的目标文本对待标注图像进行文本标注，得到图像标注样本。具体地，基于步骤813，将目标文本与目标位置进行绑定时，可将目标文本中的各单行目标文本，与相应的各单行文本在待标注图像中所处的位置坐标进行绑定。如此，实现对待标注图像的文本标注，得到带有文本信息的图像标注样本。

基于上述各步骤，实现了图像的文本标注的自动化，提高了样本的标注效率，在短时间内为模型训练提供大量的标注样本；同时由于不再需要人工识别并输入标注内容，在针对包含粤语文本等小众语言文本的图像进行标注时，将不再受语言差异的困扰，突破了人工能力限制，无需理解文本即可实现对图像的文本标注，缓解了模型训练的困难。

在实际应用中，得到图像标注样本之后，可基于图像标注样本训练光学字符识别模型，以使该光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别，并输出对应目标语言的识别文本。

具体地，对于包含粤语文本的待识别图像，将该待识别图像输入训练完成的光学字符识别模型中，通过光学字符识别模型对待识别图像进行文本识别，得到对应粤语的识别文本并输出，从而通过OCR实现了图像转文字的处理。

下面继续说明本发明实施例提供的图像中文本的智能标注装置355，在一些实施例中，图像中文本的智能标注装置可采用软件模块的方式实现。参见图9，图9是本发明实施例提供的图像中文本的智能标注装置355的结构示意图，本发明实施例提供的图像中文本的智能标注装置355包括：

截图模块3551，用于对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像；所述文本内容与目标语言匹配；

文本提取模块3552，用于对所述页面中的文本内容进行提取，得到所述页面的目标语言文本；

识别模块3553，用于对所述待标注图像进行光学字符识别，得到对应所述待标注图像的光学字符识别文本；

获取模块3554，用于获取所述目标语言文本中与所述光学字符识别文本对应的目标文本；

标注模块3555，用于基于所述目标文本，对所述待标注图像进行文本标注，得到图像标注样本，所述图像标注样本用于供训练光学字符识别模型，以使训练得到的所述光学字符识别模型能够对输入的包含目标语言的文本的待识别图像进行文本识别，并输出对应所述目标语言的识别文本。

在一些实施例中，所述截图模块3551，还用于基于自动化测试工具模拟所述页面的浏览过程；

在一些实施例中，所述截图模块3551，还用于通过所述自动化测试工具模拟浏览器，并基于模拟得到的所述浏览器打开对应目标网址的页面；

调整模拟得到的所述浏览器的窗口大小至目标窗口大小；

在一些实施例中，所述截图模块3551，还用于获取上一次对所述页面进行截图所对应的第一截图时间及截图周期；

在一些实施例中，所述文本提取模块3552，还用于对所述页面中的文本内容进行提取，得到原始文本信息；

对所述原始文本信息进行字符编码，得到相应的编码文本；

在一些实施例中，所述获取模块3554，还用于对所述光学字符识别文本进行文本解析，得到所述光学字符识别文本中包含的各单行文本；

在一些实施例中，所述获取模块3554，还用于分别提取各所述单行文本的首尾词，将提取的所述首尾词作为相应的单行文本的文本标识；

在一些实施例中，所述标注模块3555，还用于确定对应所述目标文本的光学字符识别文本在所述待标注图像中所处的目标位置；

本发明实施例还提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种图像中文本的智能标注方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对包含文本内容的页面进行截图，得到包含所述文本内容的待标注图像，包括：

基于自动化测试工具模拟所述页面的浏览过程；

3.如权利要求2所述的方法，其特征在于，所述基于自动化测试工具模拟所述页面的浏览过程，包括：

通过所述自动化测试工具模拟浏览器，并基于模拟得到的所述浏览器打开对应目标网址的页面；

调整模拟得到的所述浏览器的窗口大小至目标窗口大小；

4.如权利要求2所述的方法，其特征在于，所述在模拟的所述浏览过程中，对所述页面进行截图，得到所述待标注图像，包括：

获取上一次对所述页面进行截图所对应的第一截图时间及截图周期；

5.如权利要求1所述的方法，其特征在于，所述对所述页面中的文本内容进行提取，得到所述页面的目标语言文本，包括：

对所述页面中的文本内容进行提取，得到原始文本信息；

对所述原始文本信息进行字符编码，得到相应的编码文本；

6.如权利要求1所述的方法，其特征在于，所述获取所述目标语言文本中与所述光学字符识别文本对应的目标文本，包括：

对所述光学字符识别文本进行文本解析，得到所述光学字符识别文本中包含的各单行文本；

7.如权利要求6所述的方法，其特征在于，所述分别获取各所述单行文本对应的文本标识，包括：

分别提取各所述单行文本的首尾词，将提取的所述首尾词作为相应的单行文本的文本标识；

8.如权利要求1所述的方法，其特征在于，所述基于所述目标文本，对所述待标注图像进行文本标注，包括：

确定对应所述目标文本的光学字符识别文本在所述待标注图像中所处的目标位置；

9.一种图像中文本的智能标注装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求1至8任一项所述的图像中文本的智能标注方法。