CN107958249B - 一种基于图像的文本录入方法 - Google Patents

一种基于图像的文本录入方法 Download PDF

Info

Publication number
CN107958249B
CN107958249B CN201711166037.1A CN201711166037A CN107958249B CN 107958249 B CN107958249 B CN 107958249B CN 201711166037 A CN201711166037 A CN 201711166037A CN 107958249 B CN107958249 B CN 107958249B
Authority
CN
China
Prior art keywords
image
entry
automatically
text content
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711166037.1A
Other languages
English (en)
Other versions
CN107958249A (zh
Inventor
徐海燕
冯博
袁皓
孙谷飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongan Information Technology Service Co ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Priority to CN201711166037.1A priority Critical patent/CN107958249B/zh
Publication of CN107958249A publication Critical patent/CN107958249A/zh
Priority to PCT/CN2018/116414 priority patent/WO2019101066A1/zh
Priority to US16/288,459 priority patent/US20190197309A1/en
Application granted granted Critical
Publication of CN107958249B publication Critical patent/CN107958249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种基于图像的文本录入方法。该方法包括:获取对应于图像中的至少一个区域的识别参数,其中,识别参数包括从该至少一个区域中识别出的文本内容和与该至少一个区域相关联的位置信息;响应于在录入页面中选中录入位置而执行以下操作:获取多个标签页面共享的参数值,并且显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域,其中,多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息;以及基于与所选中的录入位置相对应的位置信息和识别参数,确定将被录入的文本内容。

Description

一种基于图像的文本录入方法
技术领域
本发明涉及文本录入,尤其涉及一种基于图像的文本录入方法。
背景技术
对票据、表格、文档等的录入,是当前实现对纸质信息数字化管理的重要环节,OCR识别技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术,作为针对纸质文件转化为可使用的计算机输入技术的主要方式之一,可应用于银行票据、档案卷宗、大量文字资料的录入和处理等领域,目前处理速度可达到每分钟60~80张票据,存折识别率已经达到了85%以上,存单、凭条识别率达到90%以上,85%以上的识别率就能减少80%以上的数据录入员,可减轻操作员的工作量,减少重复劳动。但由于并不能实现100%的精准识别,所以仍需要录入人员针对部分内容,对照文本进行手动操作录入,并且还需要针对已识别部分进行人工复核。
因此,亟需一种基于图像的文本录入方法,使得录入人员可以实现快速录入。
发明内容
针对上述问题,本发明提出了一种基于图像的文本录入方法。
本发明一方面提供了了一种基于图像的文本录入方法,包括:获取对应于所述图像中的至少一个区域的识别参数,其中,所述识别参数包括从所述至少一个区域中识别出的文本内容和与所述至少一个区域相关联的位置信息;响应于在录入页面中选中录入位置而执行以下操作:获取多个标签页面共享的参数值,并且显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域,其中,所述多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息;以及基于所述与所选中的录入位置相对应的位置信息和所述识别参数,确定将被录入的文本内容。
在一种实施方式中,所述获取识别参数的步骤包括:所述获取识别参数的步骤包括:对所述图像进行区域自动划分,并且对自动划分出的区域中的文本内容进行识别。
在一种实施方式中,对所述自动划分出的区域中的文本内容进行识别的步骤包括:采用OCR方式对所述自动划分出的区域中的文本内容进行识别。
在一种实施方式中,对所述自动划分出的区域中的文本内容进行识别的步骤包括:对识别出的文本内容进行打分,以进行识别准确度标识。
在一种实施方式中,显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域的步骤包括:对所述与所选中的录入位置相对应的区域进行缩放。
本发明另一方面提供了一种基于图像的文本录入装置,包括:获取识别参数单元,被配置为获取对应于所述图像中的至少一个区域的识别参数,其中,所述识别参数包括从所述至少一个区域中识别出的文本内容和与所述至少一个区域相关联的位置信息;录入与显示联动单元,被配置为响应于在录入页面中选中录入位置而执行以下操作:获取多个标签页面共享的参数值,并且显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域,其中,所述多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息;以及录入文本确定单元,被配置为基于所述与所选中的录入位置相对应的位置信息和所述识别参数,确定将被录入的文本内容。
在一种实施方式中,所述获取识别参数单元还包括图像划分和识别单元,其被配置为对所述图像进行区域自动划分,并且对自动划分出的区域中的文本内容进行识别。
在一种实施方式中,所述图像划分和识别单元还被配置为采用OCR方式对所述自动划分出的区域中的文本内容进行识别。
在一种实施方式中,所述图像划分和识别单元还被配置为对识别出的文本内容进行打分,以进行识别准确度标识。
在一种实施方式中,所述录入与显示联动单元还包括图像缩放单元,所述图像缩放单元被配置为对所述与所选中的录入位置相对应的区域进行缩放。
本发明另一方面提供了一种计算机可读存储介质,其上存储有处理器可执行指令,所述处理器执行所述可执行指令时,执行上述基于图像的文本录入方法中任一项所述的方法。
本发明的有益技术效果:
本发明提供的基于图像的文本录入方法使得可以高效地进行表格、票据、文档等的快速录入的交互操作,并且由于当录入人员在选中的输入框中进行录入时,上传的图像将被自动切换到相对应的位置并且图像的内容被放大,使得录入人员不需要依靠纯手动方式拖动图像来实现录入,大大节约了对照图像进行录入的时间,提高录入效率;同时针对通过OCR方式识别出的文本内容进行识别准确度标识,使得用户在进行复核时,可以直接根据识别准确度的情况进行快速查看,可有效的缩短复核时间,极大提高了录入效率。
附图说明
图1是根据本发明的实施例的基于图像的文本录入方法的流程图;
图2是根据本发明的实施例的实现票据文本录入的方法流程图;
图3是根据本发明的实施例的在显示页面中显示的票据图像的一个示例;
图4是根据本发明的实施例的录入页面的一个示意图;
图5是根据本发明的实施例的基于图像的文本录入装置的示意图。
具体实施方式
在以下优选的实施例的具体描述中,将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例性实施例并不旨在穷尽根据本发明的所有实施例。可以理解,在不偏离本发明的范围的前提下,可以利用其他实施例,也可以进行结构性或者逻辑性的修改。因此,以下的具体描述并非限制性的,且本发明的范围由所附的权利要求所限定。
以下结合附图对本发明进行详细描述。
图1根据本发明实施例的基于图像的文本录入方法的流程图。
本发明提供了基于图像的文本录入方法,该方法包括如下步骤:
步骤S101:获取对应于图像中的至少一个区域的识别参数,其中,识别参数包括从至少一个区域中识别出的文本内容和与至少一个区域相关联的位置信息;
步骤S102:响应于在录入页面中选中录入位置而执行以下操作:获取多个标签页面共享的参数值,并且显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域,其中,多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息;
步骤S103:基于与所选中的录入位置相对应的位置信息和识别参数,确定将被录入的文本内容。
应理解的是,本方法所针对的图像包括票据、表格、文档等多种纸质文件,不局限于某一种特定的纸质文件。下面以票据为例,进一步详细阐述本发明所提供基于图像的文本录入方法。
图2是根据本发明的实施例的实现票据文本录入的方法流程图。
下面结合图2、3、4对票据文本录入的实现过程进行详细描述。
步骤S201:将票据图像上传到录入***。
在该步骤中,用户将需要用到所需的票据文件通过扫描仪等任意适当的方式上传到***,如果上传有误,则***将根据出错类型提示用户重新上传图像。
步骤S202:判断***中是否存在图像自动划分模型,如果存在,则进行步骤S203,否则进行步骤S204。
步骤S203:通过图像自动划分模型对票据图像进行自动划分,获得自动划分出的区域的位置信息。
本实施例中的图像自动划分模型为基于机器学习算法的模型,通过判断图像中的关键字位置来对图像进行区域自动划分。应理解,还可以基于任意适当的模型以及通过任何适当的方式对图像进行区域自动划分。
步骤S204:进入纯手动录入模式。
步骤S205:通过OCR方式对自动划分出的区域中的文本内容进行自动识别。
应当理解,也可以采用任意适当的其它方式对自动划分后的区域中的文本内容进行自动识别。
步骤S206:对识别出的文本内容打分以进行识别准确度标识,其中,分值高的为***默认识别准确度高的识别项,分数低的为***默认识别准确度低的识别项,例如,在本实施例中,分值在85分以上的识别项被认为是识别准确度高的识别项,并在录入位置(本实施例中为输入框)下拉框选项边上添加小矩形框(如图4所示),否则被认为是识别准确度低的识别项,并在录入位置(本实施例中为输入框)下拉框选项边上添加小三角形(如图4所示)。在其它实施例中,对于识别出的分值不同的文本内容,在对应的下拉框选项中采用标注不同颜色的方式来区分识别准确度。
同时应理解,进行识别准确度标识是为了便于录入人员快速查看,对于准确度高的识别项可以快速确认完成录入,而可以将注意重点放在识别准确度低的识别项,及时纠正识别不准确的问题,从而缩短复核时间。打分制只是对识别准确度进行标识的其中一种方式,并且分值高低的设定不是唯一的,本领域技术人员可以采用其它适当方式对识别准确度进行标识。
步骤S207:当录入人员在录入页面中选中输入框进行文本录入时,***响应于所选中的输入框,显示页面自动定位到与所选中的输入框的关键字相对应的区域。具体地,如图4所示,当录入人员在录入页面中将鼠标放置在“XX市第一人民医院”401处时,图3中301区域的“XX市第一人民医院”的内容将居中显示在显示页面上,并且该内容可以自动放大到适合大小,如有需要,还可以使用缩放工具进行手动调整;同样地,当录入人员在录入页面中将鼠标放置到图4所示的“总金额”402处时,图3中302区域中“总金额”及其对应数值“1000¥”的内容将在居中显示在显示页面上,并且该内容还可以自动放大到合适大小,如有需要,还可以使用缩放工具进行手动调整,同样地,当鼠标放置在显示页面的其它任意的输入框时,可以实现上述同样的功能。
本实施例的实施过程中,采用了浏览器跨标签页通信技术(cross-tabcommunication)。具体地,采用浏览器window监听本地存储功能localstorage的变化,其中,localstorage中的值可以在不同标签页间共享,并且根据storage事件特性来实现录入页面与显示页面的联动,具体实现方式如下:
首先,以坐标点point(x,y,w,h)表示在步骤S203中从票据图像中自动划分出的区域的位置信息,如图3所示,其中,x表示自动划分出的区域在图像中的横向坐标点,y表示自动划分出的区域在图像中的纵向坐标点,w表示自动划分出的区域在x轴方向上的宽度,h表示自动划分出的区域在y轴方向上的高度。
然后,进行初始化过程,添加自动划分出的区域的位置信息坐标点point和步骤S205中针对自动划分出的区域所识别出的文本内容,保存在localstorage中;
随后,监听鼠标滑动事件,用户将鼠标从当前输入框位置滑动到的需要进行输入的输入框位置时,得到需要进行输入的输入框所对应的关键字,进一步用该关键字对应的新的位置信息坐标点Point和该坐标点对应的文本内容更新locolstorage中对应的值。
然后,在显示页面处监听localstorage的变化,根据监听到的storage事件得到更新后的locolstorage中对应的值在显示页面中将图像平移到相应区域并且放大该区域:
应当理解,跨浏览器标签页通信方式还可以采用BroadcastChannel、Cookie、Websocket等其他方案来实现。但localstorage与BroadcastChannel相比兼容性更好、生命周期更长;与cookie相比,由于cookie的改变没有事件通知,所以只能采取轮询脏检查来实现业务逻辑,只能在同域下使用,并且污染cookie以后还会额外增加AJAX的请求头内容,还有存储空间小的限制在4K;而WebSocket适用于小型项目,需要后端服务器维护连接,以及后续的消息推送行为,占用更多的服务器资源,因此,在本实施例中,采用localstorage来实现跨浏览器标签页通信。
步骤S208:如果在如图4所示的录入页面处鼠标所放置的输入框中有识别出的文本内容,则执行步骤S209;否则执行步骤S210;
步骤S209:判断识别文本内容是否准确,如果准确,则执行步骤S212;否则执行步骤S211;
步骤S210:在输入框中,根据显示页面显示的内容手动输入文本内容,然后执行步骤S212;
步骤S211:在输入框中手动修正识别出的文本内容;
步骤S212:点击确认,完成录入;
另外,图5示出了根据本发明实施例的基于图像的文本录入装置的示意图。本发明还提供了如图5所示的一种基于图像的文本录入装置,该装置包括获取识别参数单元501、录入与显示联动单元502和录入文本确定单元503。具体地,获取识别参数单元501被配置为获取对应于图像中的一个或多个区域的识别参数,其中,识别参数包括从一个或多个区域中识别出的文本内容和与一个或多个区域相关联的位置信息。录入与显示联动单元502被配置为响应于在录入页面中选中录入位置而执行以下操作:获取多个标签页面共享的参数值,并且显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域,其中,多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息。录入文本确定单元503被配置为基于与所选中的录入位置相对应的位置信息和识别参数,确定将被录入的文本内容。
此外,在一种实施方式中,获取识别参数单元501还包括图像划分和识别单元501a。图像划分和识别单元501a被配置为对图像进行区域自动划分,并且对自动划分出的区域中的文本内容进行识别。在一种实施方式中,图像划分和识别单元501a还被配置为用OCR方式对所述自动划分出的区域中的文本内容进行识别。在另一种实施方式中,图像划分和识别单元501a还被配置为对识别出的文本内容进行打分,以对识别准确度进行标识。
另外,一种实施方式中,录入与显示联动单元502还包括图像缩放单元502a,图像缩放单元502a被配置为对与所选中的录入位置相对应的区域进行缩放。
图1、2中的文本录入方法的流程还代表机器可读指令,该机器可读指令包括由处理器执行的程序。该程序可被实体化在被存储于有形计算机可读介质的软件中,该有形计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的,图1中的示例方法中的一些步骤或所有步骤可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。另外,虽然图1所示的流程图描述了该文本录入方法,但可对该文本录入方法中的步骤进行修改、删除或合并。
如上所述,可利用编码指令(如计算机可读指令)来实现图1的示例过程,该编程指令存储于有形计算机可读介质上,如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/或任何其他存储介质,在该存储介质上信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。如在此所用的,该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信号。附加地或替代地,可利用编码指令(如计算机可读指令)实现图1的示例过程,该编码指令存储于非暂时性计算机可读介质,如硬盘,闪存,只读存储器,光盘,数字通用光盘,高速缓存器,随机访问存储器和/或任何其他存储介质,在该存储介质信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。
虽然参照特定的示例来描述了本发明,其中这些特定的示例仅仅旨在是示例性的,而不是对本发明进行限制,但对于本领域普通技术人员来说显而易见的是,在不脱离本发明的精神和保护范围的基础上,可以对所公开的实施例进行改变、增加或者删除。

Claims (9)

1.一种基于图像的文本录入方法,其特征在于,包括:
通过图像自动划分模型对所述图像进行区域自动划分并对自动划分出的区域中的文本内容进行识别,以获取对应于所述图像中的至少一个区域的识别参数,其中,所述识别参数包括从所述至少一个区域中识别出的文本内容和与所述至少一个区域相关联的位置信息;
响应于在录入页面中选中录入位置而执行以下操作:
获取多个标签页面共享的参数值,并且
显示页面根据所获取的多个标签页面共享的参数值自动定位到并显示与所选中的录入位置相对应的所述图像的区域,
其中,所述多个标签页面共享的参数值包括与所选中的录入位置的关键字相对应的位置信息;以及
基于所述自动定位到的所述图像区域中的文本内容和所述识别参数,确定将被录入的文本内容。
2.根据权利要求1所述的基于图像的文本录入方法,其特征在于,对所述自动划分出的区域中的文本内容进行识别的步骤包括:采用OCR方式对所述自动划分出的区域中的文本内容进行识别。
3.根据权利要求1所述的基于图像的文本录入方法,其特征在于,对所述自动划分出的区域中的文本内容进行识别的步骤包括:对识别出的文本内容进行打分,以进行识别准确度标识。
4.根据权利要求1中所述的基于图像的文本录入方法,其特征在于,显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域的步骤包括:对所述与所选中的录入位置相对应的区域进行缩放。
5.一种基于图像的文本录入装置,其特征在于,包括:
获取识别参数单元,所述获取识别参数单元包括图像划分和识别单元,其被配置为通过图像自动划分模型对所述图像进行区域自动划分并对自动划分出的区域中的文本内容进行识别,以获取对应于所述图像中的至少一个区域的识别参数,其中,所述识别参数包括从所述至少一个区域中识别出的文本内容和与所述至少一个区域相关联的位置信息;
录入与显示联动单元,被配置为响应于在录入页面中选中录入位置而执行以下操作:获取多个标签页面共享的参数值,并且显示页面根据所获取的多个标签页面共享的参数值自动定位到并显示与所选中的录入位置相对应的所述图像的区域,其中,所述多个标签页面共享的参数值包括与所选中的录入位置的关键字相对应的位置信息;以及
录入文本确定单元,被配置为基于所述自动定位到的所述图像区域中的文本内容和所述识别参数,确定将被录入的文本内容。
6.根据权利要求5所述的基于图像的文本录入装置,其特征在于,所述图像划分和识别单元还被配置为采用OCR方式对所述自动划分出的区域中的文本内容进行识别。
7.根据权利要求5所述的基于图像的文本录入装置,其特征在于,所述图像划分和识别单元还被配置为对识别出的文本内容进行打分,以对识别准确度进行标识。
8.根据权利要求5所述的基于图像的文本录入装置,其特征在于,所述录入与显示联动单元还包括图像缩放单元,所述图像缩放单元被配置为对所述与所选中的录入位置相对应的区域进行缩放。
9.一种计算机可读存储介质,其上存储有处理器可执行指令,所述处理器执行所述可执行指令时,执行根据权利要求1-4中任一项所述的方法。
CN201711166037.1A 2017-11-21 2017-11-21 一种基于图像的文本录入方法 Active CN107958249B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711166037.1A CN107958249B (zh) 2017-11-21 2017-11-21 一种基于图像的文本录入方法
PCT/CN2018/116414 WO2019101066A1 (zh) 2017-11-21 2018-11-20 一种基于图像的文本录入方法
US16/288,459 US20190197309A1 (en) 2017-11-21 2019-02-28 Method for entering text based on image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711166037.1A CN107958249B (zh) 2017-11-21 2017-11-21 一种基于图像的文本录入方法

Publications (2)

Publication Number Publication Date
CN107958249A CN107958249A (zh) 2018-04-24
CN107958249B true CN107958249B (zh) 2020-09-11

Family

ID=61965170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711166037.1A Active CN107958249B (zh) 2017-11-21 2017-11-21 一种基于图像的文本录入方法

Country Status (3)

Country Link
US (1) US20190197309A1 (zh)
CN (1) CN107958249B (zh)
WO (1) WO2019101066A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958249B (zh) * 2017-11-21 2020-09-11 众安信息技术服务有限公司 一种基于图像的文本录入方法
CN108334484B (zh) * 2017-12-28 2022-01-11 北京科迅生物技术有限公司 数据录入的方法和装置
CN109190629A (zh) * 2018-08-28 2019-01-11 传化智联股份有限公司 一种电子运单生成方法及装置
CN111291290A (zh) * 2018-12-06 2020-06-16 北京京东尚科信息技术有限公司 一种数据处理方法和装置
CN109918416A (zh) * 2019-02-28 2019-06-21 生活空间(沈阳)数据技术服务有限公司 一种单据录入的方法、装置及设备
CN110333813A (zh) * 2019-05-30 2019-10-15 平安科技(深圳)有限公司 ***图片展示的方法、电子装置及计算机可读存储介质
CN110427853B (zh) * 2019-07-24 2022-11-01 北京一诺前景财税科技有限公司 一种智能票据信息提取处理的方法
CN110659607A (zh) * 2019-09-23 2020-01-07 天津车之家数据信息技术有限公司 数据核对方法、装置、***及计算设备
CN111079708B (zh) * 2019-12-31 2020-12-29 广州市昊链信息科技股份有限公司 一种信息识别方法、装置、计算机设备和存储介质
CN111444908B (zh) * 2020-03-25 2024-02-02 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN113130023B (zh) * 2021-04-22 2023-04-07 嘉兴易迪希计算机技术有限公司 Edc***中图文识别录入方法及***
CN113569834A (zh) * 2021-08-05 2021-10-29 五八同城信息技术有限公司 营业执照识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859225A (zh) * 2010-05-31 2010-10-13 济南恒先科技有限公司 通过数字描红实现文字和表格快速录入的方法
CN105718846A (zh) * 2014-12-03 2016-06-29 航天信息股份有限公司 票据信息的录入方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7245765B2 (en) * 2003-11-11 2007-07-17 Sri International Method and apparatus for capturing paper-based information on a mobile computing device
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US9147275B1 (en) * 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
US9292739B1 (en) * 2013-12-12 2016-03-22 A9.Com, Inc. Automated recognition of text utilizing multiple images
CN107958249B (zh) * 2017-11-21 2020-09-11 众安信息技术服务有限公司 一种基于图像的文本录入方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859225A (zh) * 2010-05-31 2010-10-13 济南恒先科技有限公司 通过数字描红实现文字和表格快速录入的方法
CN105718846A (zh) * 2014-12-03 2016-06-29 航天信息股份有限公司 票据信息的录入方法及装置

Also Published As

Publication number Publication date
US20190197309A1 (en) 2019-06-27
WO2019101066A1 (zh) 2019-05-31
CN107958249A (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
CN107958249B (zh) 一种基于图像的文本录入方法
US9158744B2 (en) System and method for automatically extracting multi-format data from documents and converting into XML
US7937338B2 (en) System and method for identifying document structure and associated metainformation
US20190318189A1 (en) Method, System and Computer Readable Storage Medium for Identifying Information Carried on Sheet
US10049096B2 (en) System and method of template creation for a data extraction tool
US20190294912A1 (en) Image processing device, image processing method, and image processing program
JP2016048444A (ja) 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
CN105631393A (zh) 信息识别方法及装置
US10460191B1 (en) Dynamically optimizing photo capture for multiple subjects
WO2021171274A1 (en) Machine learned structured data extraction from document image
JP5670787B2 (ja) 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム
US10769360B1 (en) Apparatus and method for processing an electronic document to derive a first electronic document with electronic-sign items and a second electronic document with wet-sign items
JP6795195B2 (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
US11763588B2 (en) Computing system for extraction of textual elements from a document
US9710769B2 (en) Methods and systems for crowdsourcing a task
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP2019191665A (ja) 財務諸表読取装置、財務諸表読取方法及びプログラム
US11256944B2 (en) Image evaluation and dynamic cropping system
JP2020095374A (ja) 文字認識システム、文字認識装置、プログラム及び文字認識方法
JP4518212B2 (ja) 画像処理装置及びプログラム
US20220129781A1 (en) Method, apparatus and computer program product for improving interpretability of software black-box machine learning model outputs
JP6311347B2 (ja) 情報処理装置、情報処理システム、及びプログラム
JP2020173819A (ja) 財務諸表読取装置、財務諸表読取方法及びプログラム
JP2009223391A (ja) 画像処理装置及び画像処理プログラム
JP5757299B2 (ja) 帳票設計装置、帳票設計方法、及び、帳票設計プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1254256

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240320

Address after: Room 1179, W Zone, 11th Floor, Building 1, No. 158 Shuanglian Road, Qingpu District, Shanghai, 201702

Patentee after: Shanghai Zhongan Information Technology Service Co.,Ltd.

Country or region after: China

Address before: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Patentee before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Country or region before: China