CN111144320A - 一种图像处理方法、装置、计算机设备和存储介质 - Google Patents
一种图像处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111144320A CN111144320A CN201911383203.2A CN201911383203A CN111144320A CN 111144320 A CN111144320 A CN 111144320A CN 201911383203 A CN201911383203 A CN 201911383203A CN 111144320 A CN111144320 A CN 111144320A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- text recognition
- recognized
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 27
- 230000003321 amplification Effects 0.000 claims description 19
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 238000003702 image correction Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 18
- 230000001960 triggered effect Effects 0.000 description 15
- 238000012015 optical character recognition Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例公开了一种图像处理方法、装置、计算机设备和存储介质,可以确定即时通讯客户端中的待识别图像,所述待识别图像包括多个文本区域;在检测到针对所述待识别图像的文本识别指令时,显示文本识别结果页面,其中,所述文本识别结果页面包括图像区域和文本识别结果区域,所述图像区域包括所述待识别图像,所述文本识别结果区域包括第一文本识别结果,所述第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑,由此,从一个待识别图像中识别到的所有文本可以同时进行编辑,有利于提升用户体验。
Description
技术领域
本申请涉及互联网技术领域,具体涉及一种图像处理方法、装置、计算机设备和存储介质。
背景技术
IM(即时通讯)应用是基于即时通讯技术实现在线聊天和交流的软件,除此之外,即时通讯应用还为聊天会话页面中用户发送的图像,提供了图像识别功能,该图像识别功能可以针对用户发送的图像进行文字识别,便于用户使用图像对应的文字识别结果。
发明内容
本发明实施例提供一种图像处理方法、装置、计算机设备和存储介质,可以对从即时通讯客户端中的待识别图像识别到的多个识别文本单元,进行跨文本单元的编辑,提升了对从待识别图像中识别到的文本的文本编辑自由度。
本发明实施例提供一种图像处理方法,该方法包括:
确定即时通讯客户端中的待识别图像,所述待识别图像包括多个文本区域;
当检测到针对所述待识别图像的文本识别指令时,显示文本识别结果页面,其中,所述文本识别结果页面包括图像区域和文本识别结果区域,所述图像区域包括所述待识别图像,所述文本识别结果区域包括第一文本识别结果,所述第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑。
本实施例还提供一种图像处理装置,该装置包括:
确定单元,用于确定即时通讯客户端中的待识别图像,所述待识别图像包括多个文本区域;
识别结果显示单元,用于当检测到针对所述待识别图像的文本识别指令时,显示文本识别结果页面,其中,所述文本识别结果页面包括图像区域和文本识别结果区域,所述图像区域包括所述待识别图像,所述文本识别结果区域包括第一文本识别结果,所述第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑。
本实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例所示的图像处理方法的步骤。
本实施例还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如本发明实施例所示的图像处理方法的步骤。
本发明实施例提供了一种图像处理方法、装置、计算机设备和存储介质,可以确定即时通讯客户端中的待识别图像,所述待识别图像包括多个文本区域;在检测到针对所述待识别图像的文本识别指令时,显示文本识别结果页面,其中,所述文本识别结果页面包括图像区域和文本识别结果区域,所述图像区域包括所述待识别图像,所述文本识别结果区域包括第一文本识别结果,所述第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑,由此,从一个待识别图像中识别到的所有文本可以同时进行编辑,有利于提升用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的图像处理方法的场景示意图;
图1b是本发明实施例提供的图像处理方法的流程图;
图2a是本发明实施例提供的一种文本识别结果页面的显示示意图;
图2b是本发明实施例提供的另一种文本识别结果页面的显示示意图;
图2c是本发明实施例提供的另一种文本识别结果页面的显示示意图;
图2d是本发明实施例提供的另一种文本识别结果页面的显示示意图;
图2e是本发明实施例提供的另一种文本识别结果页面的显示示意图;
图2f是本发明实施例提供的另一种文本识别结果页面的显示示意图;
图3a是本发明实施例提供的对第二文本识别结果进行修改的示意图;
图3b是本发明实施例提供的对第二文本识别结果进行修改的示意图;
图3c是本发明实施例提供的文本识别结果页面的一种可选的页面组成示意图;
图4a是本发明实施例提供的图像处理方法的一种流程示意图;
图4b是本发明实施例提供的图像处理方法的另一种流程示意图;
图5是本发明实施例提供的一种图像处理装置的结构示意图;
图6是本发明实施例提供的计算机设备的结构示意图;
图7是本发明实施例提供的分布式***700应用于区块链***的一个可选的结构示意图;
图8是本发明实施例提供的区块结构的一个可选的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种图像处理方法、装置、计算机设备和存储介质。具体地,本发明实施例提供适用于第一计算机设备的图像处理装置(为区分,可以称为第一图像处理装置),该第一计算机设备可以为终端等设备,该终端可以为平板电脑、笔记本电脑手机以及智能电视等设备。本发明实施例还提供适用于第二计算机设备的图像处理装置(为区分,可以称为第二图像处理装置),该第二计算机设备可以为服务器等网络侧设备,该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群,可以是实体的服务器,也可是虚拟服务器。
比如,第一图像处理装置可以集成在终端中,第二图像处理装置可以集成在服务器。
本发明实施例将以第一计算机设备为终端,第二计算机设备为服务器为例,来介绍图像处理方法。
参考图1a,本发明实施例提供了图像处理***包括终端10和服务器20等;终端10与服务器20之间通过网络连接,比如,通过有线或无线网络连接等,其中,第一图像处理装置集成在终端中,比如,以客户端的形式集成在终端中。
其中,终端10,可以用于确定即时通讯客户端中的待识别图像,待识别图像包括多个文本区域;当检测到针对待识别图像的文本识别指令时,显示文本识别结果页面,其中,文本识别结果页面包括图像区域和文本识别结果区域,图像区域包括待识别图像,文本识别结果区域包括第一文本识别结果,第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑。
其中,第一文本识别结果可以是由终端10自身基于对待识别图像进行文本识别而得到的,也可以是由服务器20对待识别图像进行文本识别而得到的,终端可以在需要获取第一文本识别结果时,通过向服务器20发送图像识别请求触发服务器对待识别图像进行文本识别;服务器20可以具体用于:接收终端发送的图像识别请求;基于图像识别请求获取终端的待识别图像,对待识别图像进行文本识别,得到从待识别图像中识别到的文本,将文本发送给终端10,由终端10通过同一个编辑器将文本设置为可编辑文本,得到第一文本识别结果,终端10显示文本识别结果页面。
在一个实施例中,上述服务器对待识别图像的文本识别过程可以由终端10执行。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本发明实施例将从第一图像处理装置的角度进行描述,该第一图像处理装置具体可以集成在终端中。
本发明实施例提供的一种图像处理方法,该方法可以由终端的处理器执行,如图1b所示,该图像处理方法的流程可以如下:
101、确定即时通讯客户端中的待识别图像,待识别图像包括多个文本区域;
为便于理解本实施例的内容,对本实施例中出现的一些技术用语进行解释:
即时通讯:一种终端服务,允许两人或多人使用网络即时的传递文字讯息、档案、语音与视频交流。
图片OCR:全称是Optical Character Recognition,是指电子设备用字符识别方法将图片上的形状翻译成计算机文字的过程。
本实施例中,待识别图像可以是任意类型的图像,如JGP格式的图像,表情图像等等;待识别图像中承载的内容形式不限,可以包括表格、文本、图片等形式的内容。待识别图像的来源不限,可以是通过截图得到的图像,也可以是通过拍摄得到的图像等等,本实施例对此没有限制。
例如,在一个实施例中,待识别图像可以是即时通讯客户端的用户针对终端的屏幕显示内容进行截图得到的图像,或者待识别图像可以是在聊天会话过程中,用户发送的图像,或者用户基于终端的摄像头拍摄得到的图像。
可选的,本实施例中的文本区域可以理解为包含文本的区域,可选的,文本区域的划分没有任何限制,例如,每一行文本所在的文本区域可以认为是一个文本区域,每一句完整的文本(以句号划分)所在的区域可以认为是一个文本区域。
102、当检测到针对待识别图像的文本识别指令时,显示文本识别结果页面,其中,文本识别结果页面包括图像区域和文本识别结果区域,图像区域包括待识别图像,文本识别结果区域包括第一文本识别结果,第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑。
本实施例中,文本识别指令为用于触发即时通讯客户端对待识别图像进行识别的指令,该指令的触发方式有多种,可以是在确定待识别图像后,通过特定的操作触发的,也可以是由确定待识别图像这一操作触发的,即在确定出待识别图像时,就触发生成文本识别执行,对待识别图像进行识别,本实施例对此没有限制。
本实施例中,识别文本单元中的文本为从对应的文本区域中识别到的文本,识别文本单元之间可跨文本单元编辑,可以理解为可以同时对两个或两个以上的识别文本单元中的文本进行编辑,例如对两个相邻的文本识别单元中的一部分内容同时进行复制。
例如,参考图2a所示的文本识别结果页面的显示示意图,在200所示的终端的屏幕显示区域中,显示有201所示的即时通讯客户端的聊天会话页面,该聊天会话页面中包括图像A,图像A为当前用户的朋友李XX发送的图像,本实施例中可以通过针对图像A的操作,将图像A确定为待识别图像,在将图像A确定为待识别图像时,会触发对图像A的识别操作,识别成功后,终端会显示202所示的文本识别结果页面,如图2a所示,文本识别结果页面202包括两个区域,图像区域2021和文本识别结果区域2022,图像区域用于显示待识别图像,文本识别结果区域用于显示文本识别结果,如文本识别结果区域2022所示的第一文本识别结果。
本实施例中,文本识别结果页面可以以子页面或弹出窗口的形式显示。
本实施例中,文本识别结果区域的显示内容是可以切换的,除了第一文本识别结果之外,还可以在切换后显示第二文本识别结果,第二文本识别结果中的文本内容和第一文本识别结果中的文本内容是等同的,但是两者在文本识别结果区域的文本属性是不同的。
本实施例中,第一文本识别结果是对应于同一个编辑器的,所以第一文本识别结果中的任意字符都可以作为同一次文本编辑的起始字符和结束字符,参考图2a,在一次编辑中,可以将2022的第一文本识别结果中从“泰山,又名岱山”开始,到“泰山被古人视为”为止的文本作为一次编辑过程中的待编辑内容,进行编辑,例如进行复制、粘贴、剪切、删除、换行等类似TXT的操作。
可选的,本实施例中,为第一文本识别结果对应设置有第一编辑模式切换控件。即当文本识别结果区域包括第一文本识别结果时,文本识别结果区域还包括第一编辑模式切换控件。该第一编辑模式切换控件用于将文本识别结果区域的第一文本识别结果切换为第二文本识别结果。
可选的,本实施例的图像处理方法,还可以包括:
当检测到针对第一编辑模式切换控件的触发操作时,在文本识别结果区域切换显示第二文本识别结果,第二文本识别结果包括从待识别图像的多个文本识别区域中识别到的多条文本,其中,每条文本对应待识别图像中的一个文本识别区域,多条文本之间不能跨条编辑,文本识别区域为从待识别图像中检测到的包含文本的区域。
本实施例中,在第二文本识别结果中每一条文本对应待识别图像的一个文本识别区域,本实施例的第二文本识别结果中,每一条文本都是可编辑的,但是任意两条文本之间不能同时进行复制,修改等编辑操作。本实施例中,第二文本识别结果的每一条文本均对应有一个编辑器,且每条文本对应的编辑器不同。可以单独对一条文本中的所有字符进行编辑操作。
其中,在文本识别结果区域切换显示第二文本识别结果时,可以隐藏第一编辑模式切换控件。
可选地,在文本识别结果区域切换显示第二文本识别结果时,第二文本识别结果的显示方式可以由多种,例如,第二文本识别结果可以以从文本结果区域的一个边界(如左边界)向该边界对应的另一个边界(如右边界)移动的方式显示出来。
例如,还是参考图2a所示的文本识别结果页面的显示示意图,在文本识别结果页面202中,显示有第一编辑模式切换控件如名为“分行编辑”的控件,当检测到针对该“分行编辑”控件的触发操作如点击操作时,如202页面中的中文本识别结果区域2022切换显示为文本识别结果区域2023所示。在文本识别结果区域2023中,显示的是第二文本识别结果,该第二文本识别结果中,包括多条文本,可选的,每条文本前还可以显示有文本序号,该文本序号是与对应的文本识别区域在待识别图像中的位置确定的。对于第二文本识别结果,其中的每一条文本都可以单独编辑,例如第1条文本内的内容“泰山,又名岱山、岱宗、岱岳、东岳、泰岳,为中国著名的五岳”,可以进行任意的编辑,如复制,修改,删除等等,但是第1条文本中的内容和第2条文本中的内容不能同时被编辑如被复制。
可选的,本实施例中,当文本识别结果区域包括第二文本识别结果时,文本识别结果区域还包括第二编辑模式切换控件,第二编辑模式切换控件用于将文本识别结果区域的第二文本识别结果切换为第一文本识别结果。
可选的,本实施例的方法还包括:
当检测到针对第二编辑模式切换控件的触发操作时,在文本识别结果区域切换显示第一文本识别结果。
本实施例中,在检测到待识别图像的文本识别指令时,在显示文本识别结果页面中,可以先显示第一文本识别结果,当检测到针对第一编辑模式切换控件的触发操作时,在文本识别结果区域切换显示第二文本识别结果。
例如,如图2a所示,先显示2022,在检测到针对“分行编辑”控件的触发操作时,显示2023所示的第二文本识别结果。
在另一个实施例中,还可以在检测到待识别图像的文本识别指令时,在显示文本识别结果页面中,先显示第一文本识别结果,当检测到针对第二编辑模式切换控件的触发操作时,在文本识别结果区域切换显示第一文本识别结果。
例如,参考图2b,当检测到针对201中图像A的文本识别指令时,显示203所示的文本识别结果页面,该文本识别结果页面中,文本识别结果区域包括第二文本识别结果和第二编辑模式切换控件如“混排编辑”控件,当检测到针对“混排编辑”控件的触发操作时,隐藏第二编辑模式切换控件,在文本识别结果区域切换显示第一文本识别结果和第一编辑模式切换控件(参考204)。
本实施例中,在第二文本识别结果中,每一条文本和文本识别区域的对应关系十分清楚、明显,有利于用户对文本和文本识别区域的对照阅读。
可选的,本实施例中,在文本识别结果页面的待识别图像中,还可以包括文本识别区域标识,每一个文本识别区域标识用于标识待识别图像中的一个文本识别区域,文本识别区域标识可以是下划线,颜色标记,文本框等形式的标识,参考图2a的2024,其中,每一行文本所在的区域分别被识别为一个文本识别区域,每一行文本对应有一个将该行文本包括在内的文本框,该文本框内识别到的文本是第二文本识别结果中的一条文本,该条文本中的字符可以进行任意的编辑,如转发、复制、修改等等。
在本实施例中,文本识别结果区域显示的是第一文本识别结果时,图像区域中的待识别图像也可以包括文本识别区域标识,可选的,本实施例中第一文本识别结果中的文本可以以段落的形式排列,第一文本识别结果中的段落对应于待识别图像中的段落。本实施例中,当检测到鼠标对应的光标在文本识别结果页面的文本上时,可以确定该文本所属的段落,在待识别图像中对该段落进行突出显示,突出显示的方式包括不限于:对待识别图像中的该段落对应的文本识别区域进行高亮显示,或者改变待识别图像中的该段落的文本识别区域对应的文本识别区域标识的显示参数,如将文本框加粗显示或改变文本框的颜色。
一个示例中,还可以基于针对第一文本识别结果中文本的修改,影响待识别图像上文本识别区域的文本。
一个实施例中,图像处理方法,还可以包括:
基于针对第一文本识别结果中的目标段落的文本编辑操作,获取目标段落对应的修改后文本;
当检测到针对目标段落的文本编辑结束操作时,在文本识别结果页面更新显示待识别图像和第一文本识别结果,更新后,在待识别图像中目标段落对应的文本识别区域中的文本被修改后文本替换,第一文本识别结果中目标段落中的文本被修改后文本替换。
另一个实施例中,图像处理方法,还可以包括:
基于针对第一文本识别结果中的第一目标文本的文本编辑操作,获取第一目标文本对应的修改后文本;
当检测到针对第一目标文本的文本编辑结束操作时,在文本识别结果页面更新显示待识别图像和第一文本识别结果,更新后,在待识别图像中第一目标文本对应的文本识别区域中的文本被修改后文本替换,第一文本识别结果中第一目标文本被修改后文本替换。
在一个实施例中,当检测到光标位于待识别图像中的某一个文本识别区域时,可以在第二文本识别结果中针对该文本识别区域对应的文本进行突出显示,图出现是的方式包括但不限于文本加粗显示,文本背景变色显示等等。
例如参考图2a,在2024中,光标位于第一行文本所在的文本显示区域,在第二文本识别结果中,第一条文本的背景变为灰色,突出第一条文本和待识别图像中第一行文本的对应关系。
可选的,本实施例中的待识别图像可以由多种方式确定。
(1)、待识别图像可以是在聊天会话页面中用户发送的图像。
可选的,步骤“确定即时通讯客户端中的待识别图像”,可以包括:
显示即时通讯客户端的聊天会话页面,聊天会话页面包括聊天会话用户发送的图像;
当检测到针对图像的文本识别操作时,将文本识别操作对应的图像确定为待识别图像,触发生成针对待识别图像的文本识别指令。
本发明实施例中,即时通讯客户端的聊天会话页面,可以是单聊会话页面,也可以是群聊会话页面,或者还可以是与公众号的聊天会话页面,本实施例对此没有限制。发送图像的聊天会话用户可以是终端的当前用户,即当前登录终端的用户,也可以是聊天会话页面中与该当前用户进行聊天会话的其他用户,本实施例对此也没有限定。
本实施例中,聊天会话页面中可能包含多个图像,用户可以在其中选择待识别图像进行文字识别,待识别图像的选择方式有多种,可以基于终端的快捷键选择,或者可以通过聊天会话页面中的控件选择,本实施例对此没有限制。
可选的,步骤“当检测到针对图像的文本识别操作时,将文本识别操作对应的图像确定为待识别图像,触发生成针对待识别图像的文本识别指令”,包括:
当检测到针对图像的功能控件列表显示操作时,针对图像显示控件列表,控件列表中包括文本识别触发控件;
当检测到针对文本识别触发控件的触发操作时,将文本识别操作对应的图像确定为待识别图像,触发生成针对待识别图像的文本识别指令。
可以理解的是,触发生成的文本识别指令可以被即时通讯客户端检测到,当即时通讯客户端检测到该指令时,即可针对待识别图像进行文本识别。
例如,参考图2c,在当前用户与李XX的聊天会话页面201中,显示有处于缩略显示状态的图像A,当检测到针对图像A的功能控件列表显示操作时,显示功能控件列表(参考205),该功能控件列表中包括文本识别触发控件如名为“屏幕识图”的控件,当检测到针对该“屏幕识图”控件的触发操作,如鼠标左键点击操作时,确定图像A为待识别图像,触发生成针对待识别图像的文本识别指令,对图像A进行文本识别,在识别成功时,显示206所示的文本识别结果页面。其中,功能控件列表显示操作可以还是光标在图像A的显示区域时的鼠标右键点击操作。
可选的,步骤“当检测到针对图像的文本识别操作时,将文本识别操作对应的图像确定为待识别图像,触发生成针对待识别图像的文本识别指令”,包括:
当检测到针对聊天会话页面中图像的放大显示操作时,显示图像的图像放大页面,图像放大页面包括放大显示状态下的图像和文本识别控件;
当检测到针对文本识别控件的触发操作时,将图像放大页面显示的图像确定为待识别图像,触发生成针对待识别图像的文本识别指令
可选的,本实施例中,针对聊天会话页面中图像的放大显示操作,可以是针对聊天会话页面中图像的点击操作,该点击操作可以是通过输入设备触发的,如通过鼠标左键触发的,或者若终端的显示屏为触控显示屏,则针对图像的放大显示操作可以是针对图像的触控点击操作。本实施例中的触控操作,可以是长按操作、双击操作、以及滑动操作等等。
例如,参考图2d,在当前用户与李XX的聊天会话页面201中,显示有处于缩略显示状态的图像A,当检测到针对图像A的放大显示操作如鼠标左键点击操作时,显示显示图像A的图像放大页面207,该图像放大页面包括放大显示状态下的图像A和文本识别控件如207中的“文”字的控件;当检测到针对该“文”控件的触发操作如鼠标左键点击操作时,确定图像A为待识别图像,触发生成针对待识别图像的文本识别指令,对图像A进行文本识别,在识别成功时,显示208所示的文本识别结果页面。
(2)、待识别图像可以基于截图得到。
可选的,步骤“确定即时通讯客户端中的待识别图像”,可以包括:
当检测到需要由即时通讯客户端响应的截图识别指令时,显示待截图页面;
当检测到针对待截图页面的截图结束操作时,基于截图结束操作对应的截图范围内的待截图页面,生成待识别图像,触发生成针对待识别图像的文本识别指令。
其中,截图识别指令,可以是针对聊天会话页面的控件进行操作触发的,还可以是针对外部输入设备如键盘等操作触发的,本实施例对此没有限制。
本实施例中,待截图页面可以是在检测到需要由即时通讯客户端响应的截图识别指令时,终端的显示页面,即终端的屏幕显示区域包括的页面。在待截图页面中,可以显示光标,用户可以基于光标设置截图范围。
可选的,步骤“当检测到需要由即时通讯客户端响应的截图识别指令时,显示待截图页面”,可以包括:
显示即时通讯客户端的聊天会话页面,聊天会话页面包括截图识别控件;
当检测到针对截图识别控件的触发操作时,触发生成截图识别指令;
显示待截图页面。
例如,参考图2e,终端的屏幕显示区域显示有即时通讯客户端的聊天会话页面(如209所示),该聊天页面中,包括截图识别控件如“屏幕识图”,当检测到针对截图识别控件的触发操作如鼠标左键点击操作时,触发生成截图识别指令,显示待截图页面210,在待截图页面210中,可以针对光标2001进行操作,确定截图区域,当检测到截图结束操作时,基于截图结束操作对应的截图范围内的待截图页面,生成待识别图像,触发生成针对待识别图像的文本识别指令,例如若图2e中,210页面中的浅色区域为截图范围对应的区域,则基于该区域内的内容生成待识别图像,显示211所示的文本识别结果页面。
可选的,本实施例中,截图识别控件,可以是在图像放大页面显示的时候就已经存在的,即截图识别控件可以是一直显示在图像放大页面上的控件。在另一个实施例中,图像识别控件还可以是某个控件的子控件。
可选的,步骤“显示即时通讯客户端的聊天会话页面,聊天会话页面包括截图识别控件”,可以包括:
显示即时通讯客户端的聊天会话页面,聊天会话页面包括图像操作控件;
当检测到针对图像操作控件的子控件显示操作时,显示图像操作控件的子控件列表,子控件列表包括截图识别控件。
例如,还是参考图2e,终端的屏幕显示区域显示有即时通讯客户端的聊天会话页面(如209所示),该聊天会话页面中,包括图像操作控件如名为“截图”的控件,当检测到针对“截图”控件的子控件显示操作如鼠标左键点击操作时,显示图像操作控件的子控件列表,子控件列表包括截图识别控件如名为“屏幕识图”的控件,当检测到针对“屏幕识图”控件的触发操作,如鼠标左键点击操作,触发生成截图识别指令,显示待截图页面210,在待截图页面210中,可以针对光标2001进行操作,确定截图区域,当检测到截图结束操作时,基于截图结束操作对应的截图范围内的待截图页面,生成待识别图像,触发生成针对待识别图像的文本识别指令,例如在图2e中,210页面中的浅色区域为截图范围对应的区域,则基于该区域内的内容生成待识别图像,显示211所示的文本识别结果页面。可以理解的是,本实施例中,子控件列表还可以包括其他控件,如用于触发屏幕截图指令的“屏幕截图”控件。
在一个示例中,可以通过外部设备的快捷键指令,触发截图操作。
可选的,步骤“当检测到需要由即时通讯客户端响应的截图识别指令时,显示待截图页面”,可以包括:
接收快捷键指令;
对快捷键指令的响应对象和指示的操作进行分析;
当确定快捷键指令为需要由即时通讯客户端响应的截图识别指令时,显示待截图页面。
其中,快捷键指令可以是用户通过终端的外部输入设备输入的,该外部设备可以为鼠标、键盘、以及数控板等可以与终端连接,并进行数据输入的设备。可选的,该设备与终端的连接方式包括但不限于有线和无线。
本实施例中,快捷键指令可以是基于对键盘中的多个快捷键的同时操作触发的,例如快捷键可以是Ctrl+Alt+O,即当用户在键盘中同时按下Ctrl键,Alt键和O键时,快捷键指令被触发,终端可以针对快捷键指令进行响应对象和指示的操作进行分析,当确定响应对象为即时通讯客户端,指示的操作为截图识别操作时,确定该指令为需要由即时通讯客户端响应的截图识别指令时,显示如图2f中的待截图页面212,该页面中,显示有光标2001,可以检测光标的移动轨迹以及针对光标的鼠标操作,在待截图页面中重新确定截图范围,例如,基于用户针对光标的操作,截图范围从页面212中的浅色区域,变成了页面213中的浅色区域,当检测到针对待截图页面的截图结束操作时,基于截图结束操作对应的截图范围内的待截图页面,生成待识别图像,触发生成针对待识别图像的文本识别指令,显示文本识别结果页面如214所示的页面。
其中,对于通过鼠标选择截图范围的方式,针对待截图页面的截图结束操作,可以是针对鼠标控件的释放操作,例如针对鼠标左键的释放操作。
可选的,一个示例中,文本识别结果区域包括第二文本识别结果,方法还包括:
基于针对第二文本识别结果中的目标文本的文本编辑操作,获取目标文本对应的修改后文本;
当检测到针对目标文本的编辑结束操作时,在文本识别结果页面更新显示待识别图像和第二文本识别结果,更新后,在待识别图像中目标文本对应的文本识别区域中的文本被修改后文本替换,第二文本识别结果中目标文本被修改后文本替换。
本实施例中,目标文本是第二文本识别结果中用户选择的编辑文本,该文本编辑操作包括但不限于删除、输入等操作。
本实施例的一个示例中,在文本识别结果页面更新能显示待识别图像时,可以先确定目标文本在待识别图像中的文本识别区域,然后将待识别图像中文本识别区域内的文本去除,去除的方式不限,可以是现有技术中任意的去除图像中文字的方式,然后在去除文本后的待识别图像中,将修改后文本绘制在目标文本对应的文本识别区域中。可以理解的是,如修改后文本为空,即针对目标文本的文本编辑操作为全部删除操作,在去除文本后的待识别图像中,被绘制在目标文本对应的文本识别区域中的文本为空,文本识别区域不存在文本。
例如,参考图3a,302示出了文本识别结果页面,该页面中,文本识别结果区域显示有多条文本,假设针对第二条文本(即目标文本)进行了删除操作,当检测到针对目标文本的文本编辑结束操作时,即检测到删除操作结束时,如303所示,第二条文本中的修改后文本为“之一,位于山东省中部,总”,图像区域的待识别图像中第二条文本对应的第二行文本识别区域中的文本被“之一,位于山东省中部,总”替代。
在另一个实施例中,图像区域中的待识别图像中,文本识别区域内的文本被从该文本区域中识别到的文字替代,且替代后,文本识别区域中的文本是可编辑的。
在一个实施例中,可以直接针对待识别图像进行文本编辑,可选的,本实施例的方法还可以包括:基于针对待识别图像中目标文本识别区域内文本的文本编辑操作,修改该目标文本识别区域内的文本,当检测到针对目标文本识别区域内文本的文本编辑结束操作时,以目标文本识别区域中的修改后文本,替换第二文本识别结果中目标文本识别区域对应的文本。
在上述实施例中,修改第二文本识别结果,待识别图像中的文本也可以被修改,考虑到修改后文本排版问题,本实施例中,在待识别图像中的文本可编辑的场景下,还可以进一步更新待识别图像和第二文本识别结果。
可选的,步骤“在文本识别结果页面更新显示待识别图像和第二文本识别结果”后,还可以包括:
对更新后的待识别图像中文本识别区域中的文本进行重排,重排后的待识别图像中,同一段落的文本中,每一行文本中字符之间的间隔不超过预设阈值;
对重排后的待识别图像进行重新识别,确定待识别图像中新的文本识别区域,以及各文本识别区域中的文本;
以新的文本识别区域,以及各文本识别区域中的文本更新文本识别结果区域中的第二文本识别结果。
例如,参考图3b,304示出了文本识别结果页面,该页面中,文本识别结果区域显示有多条文本,假设针对第二条文本(即目标文本)进行了删除操作,当检测到针对目标文本的文本编辑结束操作时,即检测到删除操作结束时,假设第二条文本中的修改后文本为“之一,位于山东省中部,总”,则图像区域的待识别图像中第二条文本对应的第二行文本识别区域中的文本被“之一,位于山东省中部,总”替代,替代之后,第二行的文本识别区域中,后半截没有文本(参考图3a中的303),待识别图像中文本排版不美观,也不利于阅读,对待识别图像的文本识别区域中的文字进行重排,将第三行的文本识别区域中的文字补到第二行的文本识别区域中,组成文字连贯的文本行,重排之后,待识别图像的文本排版变化,再进行文本检测,基于检测到的新的文本识别区域和对应的文本,更新第二文本识别结果,参考305所示页面,待识别图像的文本重排后,第二文本识别结果中第2条文本和第3条文本中的内容也随之改变。
本实施例中,对于非正面视角显示的图像,还可以先矫正成正面视角的图像,再进行拍摄。可选的,本实施例中,图像放大页面还包括图像矫正触发控件,本实施例的图像处理方法,还可以包括:
当检测到针对图像矫正触发控件的触发操作时,在图像放大页面显示四个角度矫正锚点和矫正控件;
基于针对角度矫正锚点的移动操作,确定角度矫正锚点构成的四边形区域,其中,四边形区域中的图像为待矫正图像;
当检测到针对矫正控件的触发操作时,在图像放大页面切换显示矫正后的图像,矫正后的图像为四边形的待矫正图像映射成的矩形图像。
可选的,在切换显示矫正后的图像时,可以隐藏矫正控件。
本实施例中,对角度矫正锚点的移动操作,可以通过鼠标或数控板等外部输入设备进行控制,本实施例对此没有限制。
在一个示例中,在文本识别结果页面可以同时显示第一文本识别结果和第二文本识别结果,可选的,本实施例中,文本识别结果页面还包括:原始文本识别结果区域,原始文本识别结果区域包括第二文本识别结果,第二文本识别结果包括从待识别图像的多个文本识别区域中识别到的多条文本,其中,每条文本对应待识别图像中的一个文本识别区域,多条文本之间不能跨条编辑,文本识别区域为从待识别图像中检测到的包含文本的区域。
例如,参考图3c,文本识别结果页面306包括图像区域3061、文本识别结果区域3062(显示有第一文本识别结果),原始文本识别结果区域3063(显示有第二文本识别结果)。
本实施例中,上述与文本识别结果区域的第二文本识别结果的所有方案,均可以将文本识别结果区域的第二文本识别结果替换为原始文本识别结果区域的第二文本识别结果执行(除了基于第一编辑模式切换控件和第二编辑模式切换控件的编辑模式切换方案),本实施例不对原始文本识别区域的操作进行赘述。其中,在如图3c的文本识别结果页面中,不包括第一编辑模式切换控件和第二编辑模式切换控件中的任意控件。
本实施例中,步骤“当检测到针对待识别图像的文本识别指令时,显示文本识别结果页面”,可以包括:
当检测到针对待识别图像的文本识别指令时,对待识别图像的多个文本区域进行文本识别,其中,从各文本区域中识别到的文本分别作为一个文本识别单元;
采用同一个编辑器将多个文本识别单元的文本编辑为可编辑文本,得到第一文本识别结果;
显示文本识别结果页面。
本实施例中,对待识别图像进行文本识别时,可以先从待识别图像中确定可能存在文本的区域,即上述示例中描述的文本识别区域,再对文本识别区域中的文本进行识别。
上述步骤中,待识别图像的文本区域可以理解为对待识别图像进行文本识别时,先从待识别图像中识别到的可能存在文本的区域,可选的,本实施例中,当检测到针对待识别图像的文本识别指令时,可以调用后台OCR应用程序的API(Application ProgrammingInterface,应用编程接口),或者是本地OCR的SDK(Software Development Kit,软件工具开发包),对待识别图像中的文本进行识别,其中,将识别到的每一句话可独立成一句,并与待识别图像中原始的文本基于文本识别区域标识进行对应,在传统的识别结果中每一行文本识别区域对应一个编辑器,识别出的文本不可以跨条编辑,但是本实施例提供了新的混排编辑器,当用户点击第二编辑模式切换操作时,可以将第二文本识别结果中的每条文本按照一定的顺序放在一个编辑器中编辑,例如按照文本识别结果页面中每条文本对应的序号顺序放在一个编辑器中编辑,可选的,每句文本之间还可以换行展示,用户可如同编辑txt一样跨行,跨句对内容进行编辑和调整。
在一个示例中,第一文本识别结果中,对文本的编辑操作,不影响待识别图像中的文本。例如,第一文本识别结果中,删除了一段话,待识别图像中还是存在该段话。
采用本发明实施例的图像处理方法,可以确定即时通讯客户端中的待识别图像,对待识别图像的进行文本识别,在文本识别成功后,显示文本识别结果页面,其中,所述文本识别结果页面包括图像区域和文本识别结果区域,所述图像区域包括所述待识别图像,所述文本识别结果区域包括第一文本识别结果,所述第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑,由此,从一个待识别图像中识别到的所有文本可以同时进行编辑,有利于提升用户体验。
本发明实施例还提供的一种详细的图像处理方法,该方法可以由终端的处理器执行,或者由终端的处理器和服务器共同执行,如图4a所示,该图像处理方法的流程可以如下:
401、接收快捷键指令。
402、对快捷键指令的响应对象和指示的操作进行分析。
403、当确定快捷键指令为需要由即时通讯客户端响应的截图识别指令时,显示待截图页面。
404、当检测到针对待截图页面的截图结束操作时,基于截图结束操作对应的截图范围内的待截图页面,生成待识别图像,触发生成针对待识别图像的文本识别指令。
参考图4b,图4b中示出了另一种形式的流程图,上述描述了通过截图得到待识别图像的方案,在一个示例中,如图4b所示,还可以在即时通讯客户端的聊天会话页面中选择图像作为待识别图像,本实施例对此没有限制,具体的选择过程可以前述实施例内容中的相关描述。
405、通过文本识别程序的API接口,调用文本识别程序,对待识别图像进行文本识别,获取待识别图像中多个文本识别区域的位置信息和从多个文本识别区域中识别到的多条文本;
其中,可以先对待识别文本进行文本识别区域的识别,即先确定待识别图像中存在文本的多个文本识别区域,然后从文本识别区中识别出文本,其中,一个文本识别区域识别到的文本为一条文本,在确定待识别图像中存在文本的文本识别区域时,还可以获取文本识别区域在待识别图像中的位置信息如坐标;
其中,文本识别程序可以是实现OCR功能的应用程序,在另一个示例中,还可以通过调用OCR功能的SDK实现对待识别图像的OCR识别。
其中,OCR识别时候,得到了文本识别区域在待识别图像中的位置信息和从每个文本识别区域的每条文本,其中,OCR应用程序可以是对多条文本可以按照其文本识别区域在待识别图像中的位置返回的,可选的,可以按照从上到下,从左到右的顺序返回,即在上文本识别区域对应的文本排列在前,文本识别区域基本处于同一水平线上的,在待识别图像中位置靠左的文本识别区域对应的文本排列在前。
本实施例中,步骤405,可以是由服务器完成的,例如,终端将待识别图像发送给服务器,触发服务器对待识别图像进行文本识别,获取待识别图像中多个文本识别区域的位置信息和从多个文本识别区域中识别到的多条文本;
406、对各文本识别区域识别到的各条文本,分别基于不同的编辑器进行编辑,基于编辑后的各条文本得到第二文本识别结果;
本实施例中,获取OCR应用程序返回的文本后,可以基于每条文本的返回顺序,为每一条文本创建一个编辑器进行文本编辑,通过编辑器将每一条文本设置为可编辑文本。
407、显示文本识别结果页面,其中,文本识别结果页面包括图像区域和文本识别结果区域,图像区域包括待识别图像,待识别图像中包括文本识别区域标识,文本识别区域标识用于标识待识别图像中识别到的文本识别区域;文本识别结果区域包括第二文本识别结果和第二编辑模式切换控件;
本实施例中,第二文本识别结果包括从待识别图像的多个文本识别区域中识别到的多条文本,其中,每条文本对应待识别图像中的一个文本识别区域,多条文本之间不能跨条编辑,文本识别区域为从待识别图像中检测到的包含文本的区域。
本实施例中,文本识别结果区域还包括复制控件,显示第二文本识别结果后,可以监听用户操作,可选的,当检测到用户针对复制控件的触发操作时,将第二文本识别结果中的文本添加到复制文本集合中,该复制文本集合可以存储于剪贴板(ClipBoard)对应的内存区域中。
408、当检测到针对第二编辑模式切换控件的触发操作时,隐藏第二编辑模式切换控件,在文本识别结果区域切换显示第一文本识别结果,切换显示后的文本识别结果区域中还包括第一编辑模式切换控件,第一文本识别结果包括从每个文本识别区域识别到的每条文本,其中,多条文本之间可跨条编辑。
上述多条文本之间可跨条编辑,可以理解为,可以针对第一文本识别结果中的两条或两条以上的文本同时进行编辑。
其中,在第一文本识别结果中,从待识别图像中识别到的文本是可以自由编辑的,对第一编辑模式切换控件的触控操作,可以认为是切换到自由编辑模式,本实施例中,可以是在检测到针对第二编辑模式切换控件的触发操作时,才生成第一文本识别结果。
可选的,可以是在检测到针对第二编辑模式切换控件的触发操作时,触发生成第一文本识别结果。其中,触发生成第一文本识别结果,可以包括:获取从每个文本识别区域的每条文本,将每条文本按照OCR应用程序返回的顺序输入同一个编辑器中,由该编辑器将所有文本编辑为可编辑文本,得到第一文本识别结果。
409、当检测到针对第一编辑模式切换控件的触发操作时,在文本识别结果区域切换显示第二文本识别结果。
同样的,也可以通过监听服务,检测自由编辑模式是否需要关闭,当检测到针对第一编辑模式切换控件的触发操作时,关闭自由编辑模式,隐藏第一编辑模式切换控件,显示第二文本识别结果。
采用本发明实施例提供的图像处理方法,可以确定即时通讯客户端中的待识别图像;在检测到针对待识别图像的文本识别指令时,显示文本识别结果页面,其中,文本识别结果页面包括图像区域和文本识别结果区域,图像区域包括待识别图像,文本识别结果区域包括第一文本识别结果,第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑,由此,从一个待识别图像中识别到的所有文本可以同时进行编辑,有利于提升用户体验。
为了更好地实施以上方法,相应的,还提供一种图像处理装置,其中,该图像处理装置可以集成在终端中,或者集成在服务器中,或者集成在终端和服务器中。参考图5,图像处理装置包括:
确定单元501,用于确定即时通讯客户端中的待识别图像,待识别图像包括多个文本区域;
识别结果显示单元502,用于当检测到针对待识别图像的文本识别指令时,显示文本识别结果页面,其中,文本识别结果页面包括图像区域和文本识别结果区域,图像区域包括待识别图像,文本识别结果区域包括第一文本识别结果,第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑。
可选的,确定单元,包括:
第一显示子单元,用于显示即时通讯客户端的聊天会话页面,聊天会话页面包括聊天会话用户发送的图像;
第一触发子单元,用于当检测到针对图像的文本识别操作时,将文本识别操作对应的图像确定为待识别图像,触发生成针对待识别图像的文本识别指令。
可选的,确定单元,包括:
第二显示子单元,用于当检测到需要由即时通讯客户端响应的截图识别指令时,显示待截图页面;
第二触发子单元,用于当检测到针对待截图页面的截图结束操作时,基于截图结束操作对应的截图范围内的待截图页面,生成待识别图像,触发生成针对待识别图像的文本识别指令。
可选的,识别结果显示单元,包括:
放大显示子单元,用于当检测到针对聊天会话页面中图像的放大显示操作时,显示图像的图像放大页面,图像放大页面包括放大显示状态下的图像和文本识别控件;
第三触发子单元,用于当检测到针对文本识别控件的触发操作时,将图像放大页面显示的图像确定为待识别图像,触发生成针对待识别图像的文本识别指令。
可选的,第二显示子单元,用于:接收快捷键指令;对快捷键指令的响应对象和指示的操作进行分析;当确定快捷键指令为需要由即时通讯客户端响应的截图识别指令时,显示待截图页面。
可选的,第二显示子单元,用于显示即时通讯客户端的聊天会话页面,聊天会话页面包括截图识别控件;当检测到针对截图识别控件的触发操作时,触发生成截图识别指令;显示待截图页面。
可选的,当文本识别结果区域包括第一文本识别结果时,文本识别结果区域还包括第一编辑模式切换控件,本实施例的装置还包括:
第一切换显示单元,用于当检测到针对第一编辑模式切换控件的触发操作时,在文本识别结果区域切换显示第二文本识别结果,第二文本识别结果包括从待识别图像的多个文本识别区域中识别到的多条文本,其中,每条文本对应待识别图像中的一个文本识别区域,多条文本之间不能跨条编辑,文本识别区域为从待识别图像中检测到的包含文本的区域。
当文本识别结果区域包括第二文本识别结果时,文本识别结果区域还包括第二编辑模式切换控件,本实施例的装置还包括:第二切换显示单元,用于当检测到针对第二编辑模式切换控件的触发操作时,在文本识别结果区域切换显示第一文本识别结果。
可选的,在一个示例中,文本识别结果页面还包括:原始文本识别结果区域,原始文本识别结果区域包括第二文本识别结果,第二文本识别结果包括从待识别图像的多个文本识别区域中识别到的多条文本,其中,每条文本对应待识别图像中的一个文本识别区域,多条文本之间不能跨条编辑,文本识别区域为从待识别图像中检测到的包含文本的区域。
可选的,文本识别结果区域包括第二文本识别结果时,本实施例的图像处理装置还包括:
修改单元,用于基于针对第二文本识别结果中的目标文本的文本编辑操作,获取目标文本对应的修改后文本;
更新显示单元,用于当检测到针对目标文本的文本编辑结束操作时,在文本识别结果页面更新显示待识别图像和第二文本识别结果,更新后,在待识别图像中目标文本对应的文本识别区域中的文本被修改后文本替换,第二文本识别结果中目标文本被修改后文本替换。
可选的,本实施例的图像放大页面还包括图像矫正触发控件,本实施例的图像处理装置还包括:
矫正触发单元,用于当检测到针对图像矫正触发控件的触发操作时,在图像放大页面显示四个角度矫正锚点和矫正控件;
锚点确定单元,用于基于针对角度矫正锚点的移动操作,确定角度矫正锚点构成的四边形区域,其中,四边形区域中的图像为待矫正图像;
图像切换显示单元,用于当检测到针对矫正控件的触发操作时,在图像放大页面切换显示矫正后的图像,矫正后的图像为四边形的待矫正图像映射成的矩形图像。
可选的,识别结果显示单元,用于当检测到针对待识别图像的文本识别指令时,对待识别图像的多个文本区域进行文本识别,其中,从各文本区域中识别到的文本分别作为一个文本识别单元;采用同一个编辑器将多个文本识别单元的文本编辑为可编辑文本,得到第一文本识别结果;显示文本识别结果页面。
本实施例中,可以在待识别图像的文本识别结果页面显示第一文本识别结果,便于用户对从待识别图像中提取到的所有文本进行类似于TXT的可跨行,跨句的文本编辑,提升用户对图像文本识别功能的使用体验。
此外,本发明实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器,如图6所示,其示出了本发明实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
计算机设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理***与处理器601逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,例如,实现本申请实施例提供的任一方法。可选的,可以实现如下方法:
确定即时通讯客户端中的待识别图像,待识别图像包括多个文本区域;
当检测到针对待识别图像的文本识别指令时,显示文本识别结果页面,其中,文本识别结果页面包括图像区域和文本识别结果区域,图像区域包括待识别图像,文本识别结果区域包括第一文本识别结果,第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的图像处理方法。
本发明实施例涉及的图像处理***可以是由客户端、多个节点(接入网络中的任意形式的计算机设备,如服务器、终端)通过网络通信的形式连接形成的分布式***。本发明涉及的图像处理方法可以由接入分布式***中的任意形式的计算机设备执行。
以分布式***为区块链***为例,参见图7,图7是本发明实施例提供的分布式***700应用于区块链***的一个可选的结构示意图,由多个节点701(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端702形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission ControlProtocol)协议之上的应用层协议。在分布式***中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作***层和应用层,其中,待识别图像、以及待识别图像的第一文本识别结果和第二文本识别结果等等均可以通过分布式***的节点被存储在区域链***的共享账本中。
参见图7示出的区块链***中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链***中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链***中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链***中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链***中节点提交的记录数据。
参见图8,图8是本发明实施例提供的区块结构(Block Structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的图像处理方法中的步骤,因此,可以实现本发明实施例所提供的图像处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种图像处理方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种图像处理方法,其特征在于,包括:
确定即时通讯客户端中的待识别图像,所述待识别图像包括多个文本区域;
当检测到针对所述待识别图像的文本识别指令时,显示文本识别结果页面,其中,所述文本识别结果页面包括图像区域和文本识别结果区域,所述图像区域包括所述待识别图像,所述文本识别结果区域包括第一文本识别结果,所述第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑。
2.根据权利要求1所述的图像处理方法,其特征在于,所述确定即时通讯客户端中的待识别图像,包括:
显示即时通讯客户端的聊天会话页面,所述聊天会话页面包括聊天会话用户发送的图像;
当检测到针对图像的文本识别操作时,将所述文本识别操作对应的图像确定为待识别图像,触发生成针对所述待识别图像的文本识别指令。
3.根据权利要求1所述的图像处理方法,其特征在于,所述确定即时通讯客户端中的待识别图像,包括:
当检测到需要由即时通讯客户端响应的截图识别指令时,显示待截图页面;
当检测到针对所述待截图页面的截图结束操作时,基于所述截图结束操作对应的截图范围内的待截图页面,生成待识别图像,触发生成针对所述待识别图像的文本识别指令。
4.根据权利要求2所述的图像处理方法,其特征在于,所述当检测到针对图像的文本识别操作时,将所述文本识别操作对应的图像确定为待识别图像,触发生成针对所述待识别图像的文本识别指令,包括:
当检测到针对所述聊天会话页面中图像的放大显示操作时,显示所述图像的图像放大页面,所述图像放大页面包括放大显示状态下的所述图像和文本识别控件;
当检测到针对所述文本识别控件的触发操作时,将所述图像放大页面显示的图像确定为待识别图像,触发生成针对所述待识别图像的文本识别指令。
5.根据权利要求3所述的图像处理方法,其特征在于,当检测到需要由即时通讯客户端响应的截图识别指令时,显示待截图页面,包括:
接收快捷键指令;
对所述快捷键指令的响应对象和指示的操作进行分析;
当确定所述快捷键指令为需要由即时通讯客户端响应的截图识别指令时,显示待截图页面。
6.根据权利要求3所述的图像处理方法,其特征在于,当检测到需要由即时通讯客户端响应的截图识别指令时,显示待截图页面,包括:
显示即时通讯客户端的聊天会话页面,所述聊天会话页面包括截图识别控件;
当检测到针对所述截图识别控件的触发操作时,触发生成截图识别指令;
显示待截图页面。
7.根据权利要求1所述的图像处理方法,其特征在于,当所述文本识别结果区域包括第一文本识别结果时,所述文本识别结果区域还包括第一编辑模式切换控件,所述方法还包括:
当检测到针对所述第一编辑模式切换控件的触发操作时,在所述文本识别结果区域切换显示第二文本识别结果,所述第二文本识别结果包括从所述待识别图像的多个文本识别区域中识别到的多条文本,其中,各条文本分别对应所述待识别图像中的一个文本识别区域,所述多条文本之间不能跨条编辑,所述文本识别区域为从所述待识别图像中检测到的包含文本的区域。
8.根据权利要求7所述的图像处理方法,其特征在于,当所述文本识别结果区域包括第二文本识别结果时,所述文本识别结果区域还包括第二编辑模式切换控件,所述方法还包括:
当检测到针对所述第二编辑模式切换控件的触发操作时,在所述文本识别结果区域切换显示所述第一文本识别结果。
9.根据权利要求1所述的图像处理方法,其特征在于,所述文本识别结果页面还包括:原始文本识别结果区域,所述原始文本识别结果区域包括第二文本识别结果,所述第二文本识别结果包括从所述待识别图像的多个文本识别区域中识别到的多条文本,其中,每条文本对应所述待识别图像中的一个文本识别区域,所述多条文本之间不能跨条编辑,所述文本识别区域为从所述待识别图像中检测到的包含文本的区域。
10.根据权利要求7所述的图像处理方法,其特征在于,当所述文本识别结果区域包括所述第二文本识别结果时,所述方法还包括:
基于针对所述第二文本识别结果中的目标文本的文本编辑操作,获取所述目标文本对应的修改后文本;
当检测到针对所述目标文本的文本编辑结束操作时,在所述文本识别结果页面更新显示所述待识别图像和所述第二文本识别结果,更新后,在所述待识别图像中所述目标文本对应的文本识别区域中的文本被所述修改后文本替换,所述第二文本识别结果中所述目标文本被所述修改后文本替换。
11.根据权利要求4所述的图像处理方法,其特征在于,所述图像放大页面还包括图像矫正触发控件,所述方法还包括:
当检测到针对所述图像矫正触发控件的触发操作时,在所述图像放大页面显示四个角度矫正锚点和矫正控件;
基于针对所述角度矫正锚点的移动操作,确定角度矫正锚点构成的四边形区域,其中,所述四边形区域中的图像为待矫正图像;
当检测到针对所述矫正控件的触发操作时,在所述图像放大页面切换显示矫正后的图像,所述矫正后的图像为四边形的待矫正图像映射成的矩形图像。
12.根据权利要求1所述的图像处理方法,其特征在于,所述当检测到针对所述待识别图像的文本识别指令时,显示文本识别结果页面,包括:
当检测到针对所述待识别图像的文本识别指令时,对所述待识别图像的多个文本区域进行文本识别,其中,从各文本区域中识别到的文本分别作为一个文本识别单元;
采用同一个编辑器将多个文本识别单元的文本编辑为可编辑文本,得到第一文本识别结果;
显示文本识别结果页面。
13.一种图像处理装置,其特征在于,包括:
确定单元,用于确定即时通讯客户端中的待识别图像,所述待识别图像包括多个文本区域;
识别结果显示单元,用于当检测到针对所述待识别图像的文本识别指令时,显示文本识别结果页面,其中,所述文本识别结果页面包括图像区域和文本识别结果区域,所述图像区域包括所述待识别图像,所述文本识别结果区域包括第一文本识别结果,所述第一文本识别结果包括每个文本区域对应的识别文本单元,其中,识别文本单元之间可跨文本单元编辑。
14.一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-12任一项所述方法的步骤。
15.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-12任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383203.2A CN111144320A (zh) | 2019-12-27 | 2019-12-27 | 一种图像处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383203.2A CN111144320A (zh) | 2019-12-27 | 2019-12-27 | 一种图像处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111144320A true CN111144320A (zh) | 2020-05-12 |
Family
ID=70521298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911383203.2A Pending CN111144320A (zh) | 2019-12-27 | 2019-12-27 | 一种图像处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144320A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597966A (zh) * | 2020-05-13 | 2020-08-28 | 北京达佳互联信息技术有限公司 | 一种表情图像识别方法、装置及*** |
CN111610905A (zh) * | 2020-06-30 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 多媒体数据处理方法、装置、客户端及存储介质 |
CN113362426A (zh) * | 2021-06-21 | 2021-09-07 | 维沃移动通信(杭州)有限公司 | 图像编辑方法和图像编辑装置 |
CN113778289A (zh) * | 2021-09-10 | 2021-12-10 | 武汉市人机科技有限公司 | 基于智能白板的一键截图方法及截图保存与分享方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184838A (zh) * | 2015-09-21 | 2015-12-23 | 深圳市金立通信设备有限公司 | 一种图片处理方法及终端 |
CN105654532A (zh) * | 2015-12-24 | 2016-06-08 | Tcl集团股份有限公司 | 一种照片拍摄及处理方法及*** |
CN108874283A (zh) * | 2018-05-29 | 2018-11-23 | 努比亚技术有限公司 | 图片识别方法、移动终端及计算机可读存储介质 |
CN110059563A (zh) * | 2019-03-19 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 一种文本处理方法和装置 |
-
2019
- 2019-12-27 CN CN201911383203.2A patent/CN111144320A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184838A (zh) * | 2015-09-21 | 2015-12-23 | 深圳市金立通信设备有限公司 | 一种图片处理方法及终端 |
CN105654532A (zh) * | 2015-12-24 | 2016-06-08 | Tcl集团股份有限公司 | 一种照片拍摄及处理方法及*** |
CN108874283A (zh) * | 2018-05-29 | 2018-11-23 | 努比亚技术有限公司 | 图片识别方法、移动终端及计算机可读存储介质 |
CN110059563A (zh) * | 2019-03-19 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 一种文本处理方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597966A (zh) * | 2020-05-13 | 2020-08-28 | 北京达佳互联信息技术有限公司 | 一种表情图像识别方法、装置及*** |
CN111597966B (zh) * | 2020-05-13 | 2023-10-10 | 北京达佳互联信息技术有限公司 | 一种表情图像识别方法、装置及*** |
CN111610905A (zh) * | 2020-06-30 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 多媒体数据处理方法、装置、客户端及存储介质 |
CN113362426A (zh) * | 2021-06-21 | 2021-09-07 | 维沃移动通信(杭州)有限公司 | 图像编辑方法和图像编辑装置 |
CN113778289A (zh) * | 2021-09-10 | 2021-12-10 | 武汉市人机科技有限公司 | 基于智能白板的一键截图方法及截图保存与分享方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126301B (zh) | 一种图像处理方法、装置、计算机设备和存储介质 | |
CN109918345B (zh) | 文档处理方法、装置、终端及存储介质 | |
CN111144320A (zh) | 一种图像处理方法、装置、计算机设备和存储介质 | |
US9071615B2 (en) | Shared space for communicating information | |
JP7407928B2 (ja) | ファイルコメント、コメント閲覧方法、装置、コンピュータ機器及びコンピュータプログラム | |
JP5547461B2 (ja) | チャットとグラフィックスの同期オーサリングおよびアクセスのための方法 | |
WO2022037336A1 (zh) | 一种文档处理方法、装置、设备及介质 | |
CN111767563A (zh) | 在线文档的权限设置方法、装置、终端及存储介质 | |
EP2932666A1 (en) | Attachment collaboration within message environments | |
CN111324535A (zh) | 一种控件异常检测方法、装置和计算机设备 | |
CN114500570B (zh) | 任务处理方法、装置、电子设备和计算机可读存储介质 | |
CN109155804A (zh) | 基于卡片的信息管理方法与*** | |
CN108292303A (zh) | 活动通知*** | |
CN113158619A (zh) | 文档处理方法、装置、计算机可读存储介质及计算机设备 | |
US20220113847A1 (en) | Online collaborative document processing method and device | |
CN114422462A (zh) | 消息显示方法、消息显示装置、电子设备和存储介质 | |
CN112083866A (zh) | 一种表情图像的生成方法和装置 | |
EP4356329A1 (en) | Collaboration components for sharing content from electronic documents | |
CN108140173A (zh) | 将从通信中解析的附件分类 | |
CN112584218A (zh) | 一种视频播放方法、装置、计算机设备和存储介质 | |
WO2022228433A1 (zh) | 信息处理方法、装置以及电子设备 | |
EP3770748A1 (en) | Communication terminal, communication system, display control method, and carrier medium | |
CN112799552A (zh) | 一种推广图片分享方法、装置和存储介质 | |
US11755829B1 (en) | Enhanced spreadsheet presentation using spotlighting and enhanced spreadsheet collaboration using live typing | |
US20240012986A1 (en) | Enhanced Spreadsheet Presentation Using Spotlighting and Enhanced Spreadsheet Collaboration Using Live Typing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |