CN104463153A - 一种提高版式文档中字符识别率的方法和*** - Google Patents

一种提高版式文档中字符识别率的方法和*** Download PDF

Info

Publication number
CN104463153A
CN104463153A CN201310450972.6A CN201310450972A CN104463153A CN 104463153 A CN104463153 A CN 104463153A CN 201310450972 A CN201310450972 A CN 201310450972A CN 104463153 A CN104463153 A CN 104463153A
Authority
CN
China
Prior art keywords
character
coding
book
format document
universal standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310450972.6A
Other languages
English (en)
Other versions
CN104463153B (zh
Inventor
董宁
耿蕾蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310450972.6A priority Critical patent/CN104463153B/zh
Publication of CN104463153A publication Critical patent/CN104463153A/zh
Application granted granted Critical
Publication of CN104463153B publication Critical patent/CN104463153B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明是一种提高版式文档中字符识别率的方法和***,将所述版式文档中同一个预定字符所对应的字符原始编码与字符标准编码进行比对得到编码比对结果,将多个所述编码比对结果进行概率统计得到概率值,将所述概率值与阈值进行比对,若超过阈值,则所述版式文档显示所述字符原始编码对照通用标准字符编码库得到的字符;否则,所述版式文档显示OCR识别后的字符。本发明通过概率统计的方法,来选择显示所述字符原始编码对照通用标准字符编码库得到的字符或者所述版式文档显示OCR识别后的字符,因此有效提高了字符识别的正确率。

Description

一种提高版式文档中字符识别率的方法和***
技术领域
本发明涉及一种提高文字识别率的方法,具体地说是一种提高版式文档中字符识别率的方法和***。
背景技术
为了保证读者的阅读效果,书刊的出版方在印刷前所发布的排版文件一般为版式文档。所谓的版式文档就是能够明确记录每个字符的位置、字形位图、字体、大小、颜色等信息的文件,所述版式文档还可以记录每个字符的编码。由于版式文档记载了字形位图和字符间的相对位置,因此具有一定的稳定性,能够保证读者在任何计算机环境下所阅读的版式文档与印刷出来的书刊都具有一致的视觉效果,常用的版式文档主要为PDF等。
虽然有的版式文档中记载了字符的编码,但是在显示的时候,一般根据字形位图进行显示,不是根据编码进行显示。当从版式文档中提取文字的字符的时候,由于版式文档中所记录的字符的编码一般可能通过通用标准编码或者自定义编码的方式得到,因此具体到一个版式文档,不确定其字符的编码方式,进而就不能根据该编码得到文字的字符。
因此现有技术中,通常采用OCR(Optical Character Recognition,光学字符识别)技术来提取版式文档中的字符,但是由于OCR技术本身存在识别率的问题,因此采用OCR技术识别出的文字的字符往往存在错误率高的问题,影响用户阅读。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中采用OCR技术识别字符时存在错误率较高的问题,提供一种提高版式文档中字符识别率的方法和***。
为解决上述技术问题,本发明是一种提高版式文档中字符识别率的方法,
包括如下步骤:
将所述版式文档中同一个预定字符所对应的字符原始编码与字符通用标准编码进行比较得到编码相同或者编码不同的编码比对结果;
将多个所述预定字符所对应的所述编码比对结果进行概率统计得到所述预定字符采用字符通用标准编码的概率值;
将所述概率值与阈值进行比对,若超过阈值,则所述预定字符按照其所述字符原始编码对照通用标准字符编码库所得到的字符并显示;否则,直接显示该所述预定字符通过OCR识别出的字符。
一种提高版式文档中字符识别率的方法,在得到所述编码比对结果的步骤前,还包括如下步骤:
提取所述版式文档中的每个预定字符的字形位图;
提取所述版式文档中的每个所述预定字符的字符原始编码;
对所述字形位图进行OCR识别后得到识别后字符;
对所述识别后字符对照通用标准字符编码库得到字符通用标准编码。
一种提高版式文档中字符识别率的方法,在提取所述字符原始编码的步骤之前,还包括如下步骤:
将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来。
一种提高版式文档中字符识别率的方法,将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来的步骤之后,还包括如下步骤:
为每个所述预定字符进行ID编号。
一种提高版式文档中字符识别率的方法,在提取所述版式文档中的每个所述预定字符的字符原始编码的步骤后,还包括如下步骤:
建立一个字符原始编码表,将所述预定字符的ID与其相对应的所述字符原始编码存储到所述字符原始编码表中。
一种提高版式文档中字符识别率的方法,在得到所述字符通用标准编码的步骤后,还包括如下步骤:
建立一个字符标准编码表,将所述预定字符的ID与其相对应的所述字符标准编码存储到所述字符标准编码表中。
一种提高版式文档中字符识别率的方法,将所述概率值与阈值进行比对并进行相应的操作之前,还包括如下步骤:
建立一个用于显示、修改和确认所述字符的可编辑界面。
一种提高版式文档中字符识别率的***,包括编码比对装置、概率统计装置和概率值、阈值比对装置,其中,
所述编码比对装置,用于将所述版式文档中同一个预定字符所对应的字符原始编码与字符通用标准编码进行比较得到编码相同或者编码不同的编码比对结果;
所述概率统计装置,用于将多个所述预定字符所对应的所述编码比对结果进行概率统计得到所述预定字符采用字符通用标准编码的概率值;
所述概率值、阈值比对装置,用于将所述概率值与阈值进行比对,若超过阈值,则所述预定字符按照其所述字符原始编码对照通用标准字符编码库所得到的字符并显示;否则,直接显示该所述预定字符通过OCR识别出的字符。
一种提高版式文档中字符识别率的***,还包括字形位图提取装置、字符原始编码提取装置、OCR识别装置和字符通用标准编码对应装置,其中,
所述字形位图提取装置,用于提取所述版式文档中的每个预定字符的字形位图;
所述字符原始编码提取装置,用于提取所述版式文档中的每个所述预定字符的字符原始编码;
所述OCR识别装置,用于对提取出的所述字形位图进行OCR识别后得到识别后字符;
所述字符通用标准编码对应装置,用于对所述识别后字符对照通用标准字符编码库得到字符通用标准编码。
一种提高版式文档中字符识别率的***,还包括预定字符筛选装置,所述预定字符筛选装置用于将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来。
一种提高版式文档中字符识别率的***,还包括ID编号装置,所述ID编号装置用于为每个所述预定字符进行ID编号。
一种提高版式文档中字符识别率的***,还包括字符标准编码表建立装置,所述字符标准编码表建立装置,用于建立一个字符标准编码表,将所述预定字符的ID与其相对应的所述字符标准编码存储到所述字符标准编码表中。
一种提高版式文档中字符识别率的***,还包括字符标准编码表建立装置,所述字符标准编码表建立装置,用于建立一个字符标准编码表,将所述预定字符的ID与其相对应的所述字符标准编码存储到所述字符标准编码表中。
一种提高版式文档中字符识别率的***,还包括可编辑界面建立装置,所述可编辑界面建立装置,用于建立一个用于显示、修改和确认所述字符的可编辑界面。
本发明的上述技术方案相比现有技术具有以下优点:
1、在本发明所述的一种提高版式文档中字符识别率的方法和***,将所述版式文档中同一个预定字符所对应的字符原始编码与字符通用标准编码进行比较得到编码相同或者编码不同的编码比对结果,将多个所述编码比对结果进行概率统计得到概率值,将所述概率值与阈值进行比对,若超过阈值,则显示所述字符原始编码对照通用标准字符编码库得到的字符;否则,显示OCR识别后的字符。本发明通过概率统计的方法,来选择显示所述字符原始编码对照通用标准字符编码库得到的字符或者所述版式文档显示OCR识别后的字符,因此有效提高了字符识别的正确率。
2、在本发明所述的一种提高版式文档中字符识别率的方法和***,在得到所述编码比对结果的步骤前,还包括如下步骤:提取所述版式文档中的每个预定字符的字形位图。提取所述版式文档中的每个所述预定字符的字符原始编码。对所述字形位图进行OCR识别后得到识别后字符;对所述识别后字符对照通用标准字符编码库得到字符通用标准编码。本发明能够通过OCR识别的方法得到识别后字符,便于进一步得到所述字符通用标准编码。所述OCR识别装置为市售的通用模块,具有价格低的优点。
3、在本发明所述的一种提高版式文档中字符识别率的方法和***,在提取所述字符原始编码的步骤之前,还包括将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来的步骤,筛选预定字符的操作能够减少提取需要提取所述字形位图的字符步骤的次数,有效减少了本发明的运行时间,提高了运行效率。本发明还包括为每个所述预定字符进行ID编号的步骤,采用ID编号的方式能够更加方便准确的使所述预定字符与所述字符原始编码或所述识别后字符一一对应。本发明还包括建立一个字符原始编码表和建立一个字符标准编码表的步骤,所述字符原始编码表能够有效管理字符原始编码,所述字符标准编码表能够有效管理字符标准编码,能够减少本发明的运行的时间。
4、在本发明所述的一种提高版式文档中字符识别率的方法和***,还包括建立可编辑界面的步骤,所述可编辑界面能够显示、修改和确认所显示的字符,能够人工干预所显示的错误字符,便于纠正错误。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明一个实施例的一种提高版式文档中字符识别率的方法的流程图;
图2为本发明一个实施例的一种提高版式文档中字符识别率的***的结构框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
实施例1
作为本发明的一个实施例,如图1所示,一种提高版式文档中字符识别率的方法,包括如下步骤:
将所述版式文档中同一个预定字符所对应的字符原始编码与字符通用标准编码进行比较得到编码相同或者编码不同的编码比对结果。
将多个所述预定字符所对应的所述编码比对结果进行概率统计得到所述预定字符采用字符通用标准编码的概率值。
将所述概率值与阈值进行比对,若超过阈值,则所述预定字符按照其所述字符原始编码对照通用标准字符编码库所得到的字符并显示。否则,直接显示该所述预定字符通过OCR识别出的字符。
本发明通过概率统计的方法,来选择显示所述字符原始编码根据对照通用标准字符编码库所得到的字符或者显示OCR识别后的字符,本发明在所述预定字符采用字符通用标准编码方式时,用所述字符原始编码根据对照通用标准字符编码库所得到的字符来替代OCR识别后的字符,所述字符原始编码根据对照字符通用标准字符编码库所得到的字符的正确率比OCR的正确率更高,因此本发明在整体上能够提高文字识别的正确率。
实施例2
作为本发明的一个实施例,在实施例1的基础上,在得到所述编码比对结果的步骤前,还包括如下步骤:
提取所述版式文档中的每个预定字符的字形位图。
对提取出的所述字形位图进行OCR识别后得到识别后字符。
对所述识别后字符对照通用标准字符编码库得到字符通用标准编码。其中,所述字符通用标准编码为国标GB2312。
提取所述版式文档中的每个所述预定字符的字符原始编码。
上述获取字符通用标准编码和字符原始编码步骤,可以分别同时执行,也可以有一定的先后顺序,比如先获取字符通用标准编码,再获取字符原始编码;或者先获取字符原始编码,再获取字符通用标准编码。只要在比对前获取到所述字符通用标准编码和字符原始编码即可实现本发明的目的。
本发明能够通过OCR识别的方法得到识别后字符,便于进一步得到所述字符通用标准编码。
实施例3
作为本发明的一个实施例,在实施例2的基础上,在提取所述字符原始编码的步骤之前,还包括如下步骤:
将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来。筛选预定字符的操作能够减少提取需要提取所述字形位图的字符步骤的次数,有效减少了本发明的运行时间,提高了运行效率。
实施例4
作为本发明的一个实施例,在实施例3的基础上,将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来的步骤之后,还包括如下步骤:
为每个所述预定字符进行ID编号。采用ID编号的方式能够更加方便准确的使所述预定字符与所述字符原始编码或所述识别后字符一一对应。
实施例5
作为本发明的一个实施例,在实施例4的基础上,在提取所述版式文档中的每个所述预定字符的字符原始编码的步骤后,还包括如下步骤:
建立一个字符原始编码表,将所述预定字符的ID与其相对应的所述字符原始编码存储到所述字符原始编码表中。所述字符原始编码表能够有效管理字符原始编码,能够减少本发明的运行的时间。
实施例6
作为本发明的一个实施例,在实施例4或实施例5的基础上,在得到所述字符通用标准编码的步骤后,还包括如下步骤:
建立一个字符标准编码表,将所述预定字符的ID与其相对应的所述字符标准编码存储到所述字符标准编码表中。所述字符标准编码表能够有效管理字符标准编码,能够减少本发明的运行的时间。
实施例7
作为本发明的一个实施例,在上述实施例的基础上,将所述概率值与阈值进行比对并进行相应的操作之前,还包括如下步骤:
建立一个用于显示、修改和确认所述字符的可编辑界面。
所述可编辑界面能够显示、修改和确认所显示的字符,能够人工干预所显示的错误字符,方便纠正错误。
作为本发明的一个实施例,在上述实施例的基础上,所述阈值为90%。
实施例8
作为本发明的一个实施例,参见图2所示,一种提高版式文档中字符识别率的***,包括编码比对装置、概率统计装置和概率值、阈值比对装置。其中,
所述编码比对装置,用于将所述版式文档中同一个预定字符所对应的字符原始编码与字符通用标准编码进行比较得到编码相同或者编码不同的编码比对结果。
所述概率统计装置,用于将多个所述预定字符所对应的所述编码比对结果进行概率统计得到所述预定字符采用字符通用标准编码的概率值。
所述概率值、阈值比对装置,用于将所述概率值与阈值进行比对,若超过阈值,则所述预定字符按照其所述字符原始编码对照通用标准字符编码库所得到的字符并显示。否则,直接显示该所述预定字符通过OCR识别出的字符。
本发明通过概率统计的方法,来选择显示所述字符原始编码对照通用标准字符编码库得到的字符或者所述版式文档显示OCR识别后的字符,因此有效提高了文字识别的正确率。
实施例9
作为本发明的一个实施例,在实施例8的基础上,还包括字形位图提取装置、字符原始编码提取装置、OCR识别装置和字符通用标准编码对应装置。其中,
所述字形位图提取装置,用于提取所述版式文档中的每个预定字符的字形位图。
所述字符原始编码提取装置,用于提取所述版式文档中的每个所述预定字符的字符原始编码。
所述OCR识别装置,用于对提取出的所述字形位图进行OCR识别后得到识别后字符。
所述字符通用标准编码对应装置,用于对所述识别后字符对照通用标准字符编码库得到字符通用标准编码。
本发明能够通过OCR识别的方法得到识别后字符,便于进一步得到所述字符通用标准编码。所述OCR识别装置为市售的通用模块,具有价格低的优点。
实施例10
作为本发明的一个实施例,在实施例9的基础上,还包括预定字符筛选装置,所述预定字符筛选装置用于将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来。所述预定字符筛选装置能够减少提取需要提取所述字形位图的字符步骤的次数,有效减少了本发明的运行时间,提高了运行效率。
实施例11
作为本发明的一个实施例,在实施例10的基础上,还包括ID编号装置,所述ID编号装置用于为每个所述预定字符进行ID编号。所述ID编号装置能够更加方便准确的使所述预定字符与所述字符原始编码或所述识别后字符一一对应。
实施例12
作为本发明的一个实施例,在实施例11的基础上,还包括字符原始编码表建立装置,所述字符原始编码表建立装置,用于建立一个字符原始编码表,将所述预定字符的ID与其相对应的所述字符原始编码存储到所述字符原始编码表中。所述字符原始编码表建立装置能够有效管理字符原始编码,能够减少本发明的运行的时间。
实施例13
作为本发明的一个实施例,在实施例11或者实施例12的基础上,还包括字符标准编码表建立装置,所述字符标准编码表建立装置,用于建立一个字符标准编码表,将所述预定字符的ID与其相对应的所述字符标准编码存储到所述字符标准编码表中。所述字符标准编码表建立装置,能够有效管理字符标准编码,能够减少本发明的运行的时间。
实施例14
作为本发明的一个实施例,在实施例8-13任意一个实施例的基础上,还包括可编辑界面建立装置,所述可编辑界面建立装置,用于建立一个用于显示、修改和确认所述字符的可编辑界面。所述可编辑界面能够显示、修改、确认所显示的字符,能够人工干预所显示的错误字符,具有纠正错误的功能。
作为本发明的一个实施例,在上述实施例的基础上,所述阈值为90%。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种提高版式文档中字符识别率的方法,其特征在于,包括如下步骤:
将所述版式文档中同一个预定字符所对应的字符原始编码与字符通用标准编码进行比较得到编码相同或者编码不同的编码比对结果;
将多个所述预定字符所对应的所述编码比对结果进行概率统计得到所述预定字符采用字符通用标准编码的概率值;
将所述概率值与阈值进行比对,若超过阈值,则所述预定字符按照其所述字符原始编码对照通用标准字符编码库所得到的字符并显示;否则,直接显示该所述预定字符通过OCR识别出的字符。
2.根据权利要求1所述的一种提高版式文档中字符识别率的方法,其特征在于,在得到所述编码比对结果的步骤前,还包括如下步骤:
提取所述版式文档中的每个预定字符的字形位图;
提取所述版式文档中的每个所述预定字符的字符原始编码;
对所述字形位图进行OCR识别后得到识别后字符;
对所述识别后字符对照通用标准字符编码库得到字符通用标准编码。
3.根据权利要求2所述的一种提高版式文档中字符识别率的方法,其特征在于,在提取所述字符原始编码的步骤之前,还包括如下步骤:
将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来。
4.根据权利要求3所述的一种提高版式文档中字符识别率的方法,其特征在于,将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来的步骤之后,还包括如下步骤:
为每个所述预定字符进行ID编号。
5.根据权利要求4所述的一种提高版式文档中字符识别率的方法,其特征在于,在提取所述版式文档中的每个所述预定字符的字符原始编码的步骤后,还包括如下步骤:
建立一个字符原始编码表,将所述预定字符的ID与其相对应的所述字符原始编码存储到所述字符原始编码表中。
6.根据权利要求4或5所述的一种提高版式文档中字符识别率的方法,其特征在于,在得到所述字符通用标准编码的步骤后,还包括如下步骤:
建立一个字符标准编码表,将所述预定字符的ID与其相对应的所述字符标准编码存储到所述字符标准编码表中。
7.根据权利要求1-6任一所述的一种提高版式文档中字符识别率的方法,其特征在于,将所述概率值与阈值进行比对并进行相应的操作之前,还包括如下步骤:
建立一个用于显示、修改和确认所述字符的可编辑界面。
8.一种提高版式文档中字符识别率的***,其特征在于,包括编码比对装置、概率统计装置和概率值、阈值比对装置,其中,
所述编码比对装置,用于将所述版式文档中同一个预定字符所对应的字符原始编码与字符通用标准编码进行比较得到编码相同或者编码不同的编码比对结果;
所述概率统计装置,用于将多个所述预定字符所对应的所述编码比对结果进行概率统计得到所述预定字符采用字符通用标准编码的概率值;
所述概率值、阈值比对装置,用于将所述概率值与阈值进行比对,若超过阈值,则所述预定字符按照其所述字符原始编码对照通用标准字符编码库所得到的字符并显示;否则,直接显示该所述预定字符通过OCR识别出的字符。
9.根据权利要求8所述的一种提高版式文档中字符识别率的***,其特征在于,还包括字形位图提取装置、字符原始编码提取装置、OCR识别装置和字符通用标准编码对应装置,其中,
所述字形位图提取装置,用于提取所述版式文档中的每个预定字符的字形位图;
所述字符原始编码提取装置,用于提取所述版式文档中的每个所述预定字符的字符原始编码;
所述OCR识别装置,用于对提取出的所述字形位图进行OCR识别后得到识别后字符;
所述字符通用标准编码对应装置,用于对所述识别后字符对照通用标准字符编码库得到字符通用标准编码。
10.根据权利要求9所述的一种提高版式文档中字符识别率的***,其特征在于,还包括预定字符筛选装置,所述预定字符筛选装置用于将所述版式文档中具有字符原始编码的字符作为预定字符筛选出来。
CN201310450972.6A 2013-09-25 2013-09-25 一种提高版式文档中字符识别率的方法和*** Expired - Fee Related CN104463153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310450972.6A CN104463153B (zh) 2013-09-25 2013-09-25 一种提高版式文档中字符识别率的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310450972.6A CN104463153B (zh) 2013-09-25 2013-09-25 一种提高版式文档中字符识别率的方法和***

Publications (2)

Publication Number Publication Date
CN104463153A true CN104463153A (zh) 2015-03-25
CN104463153B CN104463153B (zh) 2018-09-04

Family

ID=52909169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310450972.6A Expired - Fee Related CN104463153B (zh) 2013-09-25 2013-09-25 一种提高版式文档中字符识别率的方法和***

Country Status (1)

Country Link
CN (1) CN104463153B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038093A (zh) * 2017-11-10 2018-05-15 万兴科技股份有限公司 Pdf文字提取方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5955579A (ja) * 1982-09-24 1984-03-30 Fujitsu Ltd 文字認識装置
JPH06187505A (ja) * 1992-12-21 1994-07-08 Hitachi Ltd データエントリシステムおよびデータエントリ方法
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN102194503A (zh) * 2010-03-12 2011-09-21 腾讯科技(深圳)有限公司 一种播放器及字幕文件的字符编码检测方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5955579B2 (ja) * 2011-07-21 2016-07-20 日東電工株式会社 ガラスエッチング用保護シート

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5955579A (ja) * 1982-09-24 1984-03-30 Fujitsu Ltd 文字認識装置
JPH06187505A (ja) * 1992-12-21 1994-07-08 Hitachi Ltd データエントリシステムおよびデータエントリ方法
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN102194503A (zh) * 2010-03-12 2011-09-21 腾讯科技(深圳)有限公司 一种播放器及字幕文件的字符编码检测方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038093A (zh) * 2017-11-10 2018-05-15 万兴科技股份有限公司 Pdf文字提取方法和装置
CN108038093B (zh) * 2017-11-10 2021-06-15 深圳市亿图软件有限公司 Pdf文字提取方法和装置

Also Published As

Publication number Publication date
CN104463153B (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110751143A (zh) 一种电子***信息的提取方法及电子设备
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
CN102855232A (zh) 一种表格分析编改加工方法
CN104424165A (zh) 一种文本文档乱码检测方法及***
CN108319578B (zh) 一种用于数据记录的介质的生成方法
CN101008940A (zh) 自动处理字体缺失的方法与装置
JP2019079347A (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
CN104809099A (zh) 文档文件生成装置及文档文件生成方法
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN109582934B (zh) 版式文档的转换方法及装置
CN115171143A (zh) 一种电子***全票面信息提取方法及***
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN102467664B (zh) 辅助光学字符识别的方法和装置
CN104463153A (zh) 一种提高版式文档中字符识别率的方法和***
CN111476090A (zh) 水印识别方法和装置
KR102024127B1 (ko) 문자인식 시스템, 문자인식 프로그램 및 문자인식방법
JP5720182B2 (ja) 画像処理装置及び画像処理プログラム
CN103729634A (zh) 字符识别装置和字符识别方法
CN105653549A (zh) 一种提取文档信息的方法及装置
US9531906B2 (en) Method for automatic conversion of paper records to digital form
CN105335346B (zh) 一种pdf文档的文本提取方法和装置
CN105512100B (zh) 一种版面分析方法及装置
CN104516579B (zh) 信息处理装置以及信息处理方法
CN103488619A (zh) 一种用于进行文档文件处理的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220620

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180904