CN113778303A

CN113778303A - 一种文字提取的方法、装置及计算机可读存储介质

Info

Publication number: CN113778303A
Application number: CN202110967278.6A
Authority: CN
Inventors: 王童萱; 马英峰; 冯冉; 冯政元; 周敏
Original assignee: Shenzhen Valueonline Technology Co ltd
Current assignee: Shenzhen Valueonline Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-10

Abstract

本申请提供了一种文字提取的方法，该方法包括：获取待处理图像，待处理图像中包括1个或多个文字；确定待处理图像中1个或多个文字的位置和尺寸；根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸，第一文本对应多个文字中的至少一个文字，第一提取框用于存储对应的第一文本；接收用户的第一操作指令，第一操作指令用于选择第一提取框；基于第一操作指令，提取第一文本。本申请提供的方法可以帮助用户更快的选择图片中的文字，提升了用户体验。

Description

一种文字提取的方法、装置及计算机可读存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种文字提取的方法、装置及计算机可读存储介质。

背景技术

当用户进行学习或者编写时需要查阅一些资料时，会在HTML网页上进行查找，当查找到需要的内容时需要进行复制粘贴。

但是，一般情况下，当用户需要复制图片中的文字时，图片中的文字都处于不可复制状态，因此，需要用户手动进行文字的摘抄。这种情况下，会耗费用户大量的时间，降低了工作效率，用户体验较差。

发明内容

本申请提供了一种文字提取的方法、装置及计算机可读存储介质，可以帮助用户更快的选择图片中的文字，提升了用户体验。

第一方面，提供了一种文字提取的方法。该方法包括：获取待处理图像，待处理图像中包括1个或多个文字；确定待处理图像中1个或多个文字的位置和尺寸；根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸，第一文本对应多个文字中的至少一个文字，第一提取框用于存储对应的第一文本；接收用户的第一操作指令，第一操作指令用于选择第一提取框；基于第一操作指令，提取第一文本。

第一方面提供的方法，通过确定待处理图像中每个文字的位置和尺寸，从而得到第一文本的位置和尺寸，该第一文本是指多个文字中的至少一个文字，根据第一文本的位置和尺寸可以得到第一提取框的位置和尺寸，该第一提取框中存储对应的第一文本，当处理器接收到用户的选择第一提取框的指令后，可以快速提取第一文本，该方法可以帮助用户更快的选择图片中的文字，提升了用户体验。

可选的，根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸之前，该方法还包括：根据1个或多个文字的位置和尺寸，利用分词器，确定第一文本的位置和尺寸。在该种实现方式中，当用户想要提取待处理图像中的词组时，可以使用分词器对1个或者多个文字的位置和尺寸进行分词，从而得到第一文本的位置和尺寸，然后，根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸。

可选的，根据1个或多个文字的位置和尺寸，对1个或多个文字进行分行；利用分词器对属于同一行的文字进行分词；利用分词结果，确定所述第一文本的位置和尺寸。在该种实现方式中，分词器对位于同一行的文字进行分词。

可选的，确定待处理图像中每个文字的位置和尺寸，包括：利用第一Tess4j，确定待处理图像中每个文字的位置和尺寸，第一Tess4j为初始Tess4j结合预设训练库得到的。在该种实现方式中，利用训练好的Tess4j可以快速确定待处理图像中每个文字的位置和尺寸。

可选的，根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸，包括：根据第一文本包含的第一个文字的位置和第一文本的尺寸，确定第一提取框的位置和尺寸。在该种实现方式中，利用第一个文字的位置作为第一提取框的起点，利用第一文本的尺寸可以确定第一提取框的尺寸大小。

可选的，获取待处理图像之前，该方法还包括：接收第二操作指令，第二操作指令用于指示用户启动图片文字提取；基于第二操作指令获取待处理图像。在该种实现方式中，当处理器接收到用户触发的启动图片文字提取的功能后，会获取待处理图像。

第二方面，提供了一种装置，该装置包括用于执行以上第一方面或者第一方面的任意一方面可能的实现方式中的各个步骤的单元。

第三方面，提供了一种装置，该装置包括至少一个处理器和存储器，该至少一个处理器用于执行以上第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，提供了一种装置，该装置包括至少一个处理器和接口电路，该至少一个处理器用于执行以上第一方面或者第一方面中的任意一方面可能的实现方式中的方法。

第五方面，提供了一种设备，该设备包括上述第二方面、第三方面或者第四方面提供的任一种文字提取的装置。

第六方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序在被处理器执行时，用于执行第一方面或第一方面的任意可能的实现方式中的方法。

第七方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序被执行时，用于执行第一方面或第一方面的任意可能的实现方式中的方法。

第八方面，提供了一种芯片或者集成电路，该芯片或者集成电路包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片或者集成电路的设备执行第一方面或第一方面的任意可能的实现方式中的方法。

可以理解的是，上述第二方面至第八方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请通过确定待处理图像中每个文字的位置和尺寸，从而得到第一文本的位置和尺寸，该第一文本是指多个文字中的至少一个文字，根据第一文本的位置和尺寸可以得到第一提取框的位置和尺寸，该第一提取框中存储对应的第一文本，当处理器接收到用户的选择第一提取框的指令后，可以快速提取第一文本，该方法可以帮助用户更快的选择图片中的文字，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种文字提取的方法的一个实施例的流程图；

图2是本申请实施例提供的多个文字分词示意图；

图3是本申请实施例提供的确定第一提取框的位置示意图；

图4是本申请实施例提供的文字提取的装置的结构框图；

图5是本申请实施例提供的文字提取的设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

首先，在介绍本申请提供的方法和***之前，需要对下文中即将提及的部分术语进行说明。当本申请提及术语“第一”或者“第二”等序数词时，除非根据上下文其确实表达顺序之意，否则应当理解为仅仅是起区分之用。

术语“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

除非另有说明，本文中“/”一般表示前后关联对象是一种“或”的关系，例如，A/B可以表示A或B。术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请的描述中，“多个”是指两个或两个以上。

网页是构成网站的基本元素，是承载各种网站应用的平台，通俗地说，网站就是由网页组成的，如果只有域名和虚拟主机而没有制作任何网页的话，客户仍旧无法访问网站。网页是一个包含HTML标签的纯文本文件，它可以存放在世界某个角落的某一台计算机中，是万维网中的一页，网页通常用图像档来提供图画，网页要通过网页浏览器来阅读，文字与图片是构成一个网页的两个最基本的元素，即：文字，就是网页的内容，图片，就是网页的美观。

除此之外，网页的元素还包括动画、音乐、程序等等，在网页上点击鼠标右键，选择菜单中的查看源文件，就可以通过记事本看到网页的实际内容，可以看到网页实际上只是一个纯文本文件，它通过各式各样的标记对页面上的文字、图片、表格、声音等元素进行描述(例如字体、颜色、尺寸)，而浏览器则对这些标记进行解释并生成页面，于是就得到所看到的画面。

由于网页文件中存放的只是图片的链接位置，因此，在源文件看不到任何图片，而图片文件与网页文件是互相独立存放的，甚至可以不在同一台计算机，网页通常有以下元素：文字资料图像档案Applet超链接网页的合成体为网站，一个网站的开始点为首页，当你每次上网时，都会在历史记录里留下记录，并且被保存在浏览器的缓存文件夹里，删除时只要右键删除就可以了。

目前，当用户要对网页中的图片里面的文字进行复制或编辑时，需要运用应用软件将图片中的文字转换成文本文件，当转换成文本模式之后，用户才有办法进行文字的复制或编辑或搜索。这种文字提取方式相对比较麻烦，导致用户工作效率低。

例如：当用户pdf文档中需要复制文章片段时，需要先运用应用软件将图形转成文本模式。

相关技术中，对图片中文字的复制或者编辑等一般通过软件算法进行处理，一般的流程为：1)应用软件下达指令；2)CPU(Central Processing Unit，中央处理器)响应该指令，去存储器中指定的地方(如Flash、硬盘(HardDisk)等)获取数据，并将所获取的数据储存到内存；3)CPU通过单突发(single burst)形式将存储在内存的图像或影片中的文字转换成纯文本，并进行字符搜寻处理；4)将处理结果储存到指定的装置。

这种传统的图片文字搜寻***采用软件算法利用CPU对数据进行处理，且CPU搬移数据采用单突发形式，传统的图片文字搜寻***具有以下缺点：1)消耗大量的CPU及总线(BUS)的资源；2)消耗大量的CPU及总线的资源必将消耗更多的电量；3)消耗大量的CPU及总线的资源必将消耗更多的时间。

因此，亟需一种可以帮助用户更快的选择图片中的文字或者词语的方法，提高用户体验。

有鉴于此，本申请通过对网页中的图片包含的多个文字进行定位，根据文字的位置确定文字提取框的位置，该文字提取框中存储了一个或者多个文字，当用户需要对图片中的文字进行复制时，点击文字上的文字提取框，对需要的文字进行快速的提取。

下面结合具体的例子来说明本申请提供的文字提取方法。

参见图1，为本申请提供的一种文字提取的方法的一个实施例的流程图。如图1所示，该方法包括：S110至S170。

S110、接收第二操作指令，基于第二操作指令获取待处理图像。

当用户需要对图片中的文字进行提取时，首先需要对处理器发出第二操作指令。在本申请实施例中，该第二操作指令是指用户启动提取图片文字提取的指令。

例如，用户可以点击浏览器的一个按钮或者移动端APP软件的一个按钮，向处理器发出第二操作指令。

可以理解的是，可以通过HTML网页代码的<button></button>标签在网页中生成按钮元素，具体地，该按钮的含义可以为启动文字提取的按钮。

需要说明的是，启动文字提取的按钮提前绑定了一个点击事件，当用户点击按钮时，会触发相应的函数执行。

当处理器接收到第二操作指令时，会获取待提取的图像。

S120、获取待处理图像，待处理图像中包括1个或者多个文字。

基于步骤S110中的第二操作指令，处理器获取待处理图像，该待处理图像中包括了1个或者多个文字。

作为一种可能的实施方式，可以通过DOM节点可以找到待处理图片代码标签的位置，在待处理图像的周围生成上述启动文字提取的按钮。

可以理解的是，DOM节点是指构成HTML的节点，通过遍历DOM节点，可以找到待处理图像代码标签的位置。

具体地，当用户点击此按钮时，处理器会遍历DOM节点，找到待处理图像的代码路径，并获取到该待处理图像。

可以理解的是，当处理器获取到待处理图像的路径之后可以通过处理器直接进行进一步的处理，也可以把待处理器图像下载到本地或者内存中，然后将待处理图像发送给服务器进行处理。对此，本申请实施例不做限定。

S130、确定待处理图中1个或多个文字的位置和尺寸。

当处理器接收到待处理图像后，对待处理图像中的1个或者多个文字进行识别，得到每个文字的位置和尺寸的信息。

作为一种可能的实现方式，使用python环境现有的图片文字提取开源的工具包将图片中的文字进行提取。

作为另一种可能的实现方式，使用java环境现有的图片文字提取开源的工具包将图片中的文字进行提取。

具体地，当使用java环境现有的图片文字提取开源的工具包对待处理图像中的文字进行提取时，利用初始Tess4j，导入预设训练库后得到第一Tess4j，利用第一Tess4j，可以实现对待处理图像中的文本进行识别。

需要说明的是，可以通过代码设置获取到第一Tess4j中每个文字的位置坐标和文字字号信息。

S140、根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸，第一文本对应多个文字中的至少一个文字，第一提取框用于存储对应的第一文本。

基于上述步骤S130，可以确定出待处理图像中每个文字的位置以及每个文字的尺寸。

在步骤S140中，根据每个文字的位置和尺寸可以得到第一文本的位置和尺寸。

例如：第一文本可以包括“测”、“测试”、“测试结果”等字样。当然，该第一文本还可以为其他形式，本申请实施例不做限定。

应理解，当第一文本为“测”字样时，根据确定出来的“测”字的位置和尺寸，可以确定出第一提取框的位置和尺寸。并且，在第一提取框的位置处存储与第一文本对应的“测”字样。

还应理解，当第一文本为“测试”字样时，根据确定出来的“测试”字样的位置和尺寸，可以确定出第一提取框的位置和尺寸。并且，在第一提取框的位置处存储与第一文本对应的“测试”字样。

S150、接收用户的第一操作指令，第一操作指令用于选择第一提取框。

当用户需要提取第一文本时，点击第一文本处的第一提取框。处理器接收该提取第一提取框的指令。

S160、基于第一操作指令，提取第一文本。

当处理器接收到第一操作指令时，根据第一文本对应的第一提取框，选择第一提取框内的文字。

S170、接收用户的第三操作指令，第三操作指令用于复制选中的第一文本。

基于上述步骤S110至S160可以对待处理图像中的第一文本进行选中。

步骤S170可以根据用户需求对选中的第一文本进行复制粘贴。

具体地，可以通过HTML网页代码的<button></button>标签在网页中生成按钮元素，具体地，该按钮的含义可以为复制选中的文字按钮。

需要说明的是，复制选中的文字的按钮提前绑定了一个点击事件，当用户点击按钮时，会触发相应的函数执行。

当处理器接收到第三操作指令时，会对选中的第一文本进行复制。

应理解，复制选中的文字按钮在未启动托文字提取的指令为启动前，复制选中的文字的按钮为不可点击状态。

本申请实施例提供的文字提取的方法，通过确定待处理图像中每个文字的位置和尺寸，从而得到第一文本的位置和尺寸，该第一文本是指多个文字中的至少一个文字，根据第一文本的位置和尺寸可以得到第一提取框的位置和尺寸，该第一提取框中存储对应的第一文本，当处理器接收到用户的选择第一提取框的指令后，可以快速提取第一文本，该方法可以帮助用户更快的选择图片中的文字，提升了用户体验。

可选的，作为一种可能的实现方式，根据1个或多个文字的位置和尺寸，利用分词器，确定第一文本的位置和尺寸。

需要说明的是，该分词器可以为Word分词器或者Ansj分词器。当然，还可以根据其他的分词器对多个文字进行分词，本申请实施例不做限定。

具体地，通过多个文字的水平坐标，对多个文字进行分行，将处于同一行的文字利用上述分词器进行分词。

示例性的，图2示出了本申请实施例提供的多个文字分词示意图。如图2所示，“图片上的测试文字”这8个字根据每个字的水平坐标可以判断出这8个字位于同一行，然后，利用分词器对“图片上的测试文字”进行分词，分词后的结果为“图片”“上”“的”“测试”“文字”。

当第一文本为“图片”时，可以根据“图片上的测试文字”中确定出来的“图”和“片”字样的位置和尺寸确定出“图片”的位置和尺寸。

进一步的，作为一种可能的实施方式，可以根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸。

在本申请实施例中，可以根据第一文本包含的第一个文字的位置和第一文本的尺寸，确定第一提取框的位置和尺寸。

具体地，根据分词后的结果，保留第一文本包含的第一个文字的坐标，将多余坐标删除。

作为一种可能的实施方式，当第一文本由三个文字组成时，只用保留第一个文字的坐标，删除第二个文字和第三个文字的坐标。

示例性的，图3示出了本申请实施例提供的确定第一提取框的位置示意图。如图3所示，“测试文字”的四个字的坐标分别为x＝0，y＝0；x＝5，y＝0；x＝10，y＝0；x＝15，y＝0；经过分词器进行分词后，得到的第一词语为“测试”和“文字”。当第一文本为“测试”时，该第一提取框的位置起点为“测”字的坐标起点，即只用保留“测”字样的坐标x＝0，y＝0作为第一提取框的起点，第一提取框的尺寸大小为“测”和“试”字的字号尺寸的总和。

作为另一种可能的实施方式，当第一文本只有一个文字时，该文字的位置和尺寸大小即为第一提取框的位置和尺寸大小。

结合图2和图3可以看出，原始的带有文字的图片，正常情况下用户不可复制图片上的文字，经过文字的提取和分词后，在原有文字位置生成第一提取框，当用户点击图片上的第一提取框时，选中的第一文本会变成蓝色的选中状态。

需要说明的是，上述提及的第一提取框可以理解为没有内容的透明按钮框，使用此框环绕第一文本，点击第一文本后变色，再次点击即可取消选中状态。

上述方法具体描述了本申请提供的文字提取方法的实施例。下面介绍本申请实施例提供的文字提取的装置。

图4为本申请实施例提供的文字提取的装置400的示意性框图，该装置400包括：获取单元401和处理单元402。

获取单元401用于，获取待处理图像。

处理单元402用于，确定待处理图像中1个或多个文字的位置和尺寸；根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸；接收用户的第一操作指令，基于第一操作指令，提取第一文本。

处理单元402还用于，根据1个或多个文字的位置和尺寸，利用分词器，确定第一文本的位置和尺寸。

处理单元402还用于，根据1个或多个文字的位置和尺寸，对1个或多个文字进行分行；利用分词器对属于同一行的文字进行分词；利用分词结果，确定所述第一文本的位置和尺寸。

处理单元402还用于，利用第一Tess4j，确定待处理图像中每个文字的位置和尺寸。

处理单元402还用于，根据第一文本包含的第一个文字的位置和第一文本的尺寸，确定第一提取框的位置和尺寸。

处理单元402还用于，接收第二操作指令，基于第二操作指令获取待处理图像。

应理解的是，本申请实施例的装置400可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logicdevice，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现图1所示的文字提取的方法，当通过软件实现图1所示的文字提取方法时，装置400及其各个模块也可以为软件模块。

本申请实施例还提供了一种文字提取的设备，图5为本申请实施例提供的设备的结构示意图。如图5所示，该设备500包括处理器501、存储器502、通信接口503和总线504。其中，处理器501、存储器502、通信接口503和总线504，也可以通过无线传输等其他手段实现通信。该存储器502用于存储指令，该处理器501用于执行该存储器502存储的指令，该存储器502存储程序代码5021，且处理器501可以调用存储器502中存储的程序代码5021执行上述基于文字提取的方法。

应理解，在本申请实施例中，处理器501可以是CPU，处理器501还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

该存储器502可以包括只读存储器和随机存取存储器，并向处理器801提供指令和数据。存储器502还可以包括非易失性随机存取存储器。该存储器802可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double datadate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

该总线504除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图5中将各种总线都标为总线504。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive，SSD)。

本申请实施例还提供了一种计算机可读介质，用于存储计算机程序代码，该计算机程序包括用于执行上述方法中本申请实施例的基于文字提取的方法的指令。该可读介质可以是只读存储器(read-only memory，ROM)或随机存取存储器(random access memory，RAM)，本申请实施例对此不做限制。

本申请还提供了一种计算机程序产品，该计算机程序产品包括指令，当该指令被执行时，该***分别执行对应于上述方法中的操作。

本申请实施例还提供了一种***芯片，该***芯片包括：处理单元和通信单元，该处理单元，例如可以是处理器，该通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行计算机指令，以使该芯片执行上述本申请实施例提供的任一种文字提取的方法。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文字提取的方法，其特征在于，所述方法包括：

获取待处理图像，所述待处理图像中包括1个或多个文字；

确定所述待处理图像中所述1个或多个文字的位置和尺寸；

根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸，所述第一文本对应所述多个文字中的至少一个文字，所述第一提取框用于存储对应的所述第一文本；

接收用户的第一操作指令，所述第一操作指令用于选择所述第一提取框；

基于所述第一操作指令，提取所述第一文本。

2.根据权利要求1所述的方法，其特征在于，所述根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸之前，所述方法还包括：

根据所述1个或多个文字的位置和尺寸，利用分词器，确定所述第一文本的位置和尺寸。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述1个或多个文字的位置和尺寸，对所述1个或多个文字进行分行；

利用分词器对属于同一行的文字进行分词；

利用分词结果，确定所述第一文本的位置和尺寸。

4.根据权利要求3所述的方法，其特征在于，所述确定所述待处理图像中每个文字的位置和尺寸，包括：

利用第一Tess4j，确定所述待处理图像中每个文字的位置和尺寸，所述第一Tess4j为初始Tess4j结合预设训练库得到的。

5.根据权利要求2所述的方法，其特征在于，所述根据第一文本的位置和尺寸，确定第一提取框的位置和尺寸，包括：

根据所述第一文本包含的第一个文字的位置和所述第一文本的尺寸，确定所述第一提取框的位置和尺寸。

6.根据权利要求1所述的方法，其特征在于，所述获取待处理图像之前，所述方法还包括：

接收第二操作指令，所述第二操作指令用于指示用户启动图片文字提取；

基于所述第二操作指令获取所述待处理图像。

7.一种文字提取装置，其特征在于，包括：用于执行如权利要求1至6中任一项所述的文字提取的方法的各个步骤的单元。

8.一种文字提取装置，其特征在于，包括：处理器及存储器，所述处理器和所述存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时执行如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。

10.一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求1至6中任一项所述的方法。