CN102929843B - 一种文字编改***及编改的方法 - Google Patents

一种文字编改***及编改的方法 Download PDF

Info

Publication number
CN102929843B
CN102929843B CN201210338739.4A CN201210338739A CN102929843B CN 102929843 B CN102929843 B CN 102929843B CN 201210338739 A CN201210338739 A CN 201210338739A CN 102929843 B CN102929843 B CN 102929843B
Authority
CN
China
Prior art keywords
adapt
page analysis
space
printed page
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210338739.4A
Other languages
English (en)
Other versions
CN102929843A (zh
Inventor
王艳
瞿洋
梁洵
袁仁慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
" Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Original Assignee
" Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society filed Critical " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority to CN201210338739.4A priority Critical patent/CN102929843B/zh
Publication of CN102929843A publication Critical patent/CN102929843A/zh
Application granted granted Critical
Publication of CN102929843B publication Critical patent/CN102929843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种文字编改***及编改的方法,所述***包括:版面分析模块、版面加工模块及编改合并模块,所述版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,计算所述板块的语种属性;版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块及单位块属性进行调整;编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。本发明可以极大地提高编改效率、降低成本、提高质量;通过交互式版面调整,整合各语种独立的编改***,可快速、高质的完成编改任务,经试验可得,根据本发明进行编改,每年的成本可节约71.6%。

Description

一种文字编改***及编改的方法
技术领域
本发明涉及扫描文档的电子化,尤其涉及一种基于交互式版面分析的文字编改***。
背景技术
目前流水线上涉及到图像文字识别的主流工具有汉王、FineReader两种,其中又以汉王软件的使用最为广泛。根据生产部门长期使用的经验,这些工具在某些应用中取得了非常好的效果,但同时又存在很大的不足,主要表现在:汉王识别软件对中文的支持相当好,但在英文识别中表现不佳。FineReader对英文文献识别效果非常好,但中文识别支持不好。单独使用某种识别引擎会一方面增加编改字符的数量,影响编改效率的提升,另一方面由于编改字符的增加,在一致的编改错误率下增加了错误字符的数量,从而降低了最终产品的质量。因此对于中英文混合的文献不管选择哪种识别工具都有各自的瓶颈,需要改进编改***。
发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种编改***及编改方法,该***和方法可以极大地提高编改效率、降低成本、提高质量。所述技术方案如下:
一种文字编改***,包括:
所述***包括:版面分析模块、版面加工模块及编改合并模块,所述
版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,计算所述板块的语种属性;
版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块及单位块属性进行调整;
编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
一种文字编改的方法,包括:
对版面非文字内容进行处理;
通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属性;
对需要交互式版面分析的单位块及单位块属性进行调整;
通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
本发明提供的技术方案的有益效果是:
可以极大地提高编改效率、降低成本、提高质量;
通过交互式版面调整,整合各语种独立的编改***,可快速、高质的完成编改任务,经试验可得,根据本发明进行编改,每年的成本可节约71.6%。
附图说明
图1是文字编改***结构图;
图2是文字编改方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
如图1所示,为文字编改***结构,包括:版面分析模块、版面加工模块及编改合并模块,所述
版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,计算所述板块的语种属性;
版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块及单位块属性进行调整;
编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
上述版面非文字内容的处理包括黑边、杂质及图像中的非文字内容等。
在处理完版面非文字内容文档中,为了对版面作出尽可能准确的分析,采用如下算法:
1)行扫描:对图像进行逐行扫描,统计处每一行的像素点个数,利用其统计特征,得到每一行的上下边界。
2)列扫描:对每一行进行列扫描,统计出每一列的像素点个数,利用其统计特征,得到每一行的左右边界,从而得到每一单位块。
3)单位块语种的识别:对每行文件进行简单识别处理,分析出中英文语种的特征,如中英文文字的长宽比特征等。
4)后处理:个性化处理不同类型的文献。
交互式版面分析
经过自动版面分析之后,对于大部分排版较好的文档,处理结果基本可以接受,但对于一些版式较乱、较复杂的文档,需要辅助一定的交互式版面分析,即调整版面的单位块、每块的语种等其它属性,确保最后版面分析的正确性。
按语种识别编改
经过交互式版面分析后按语种形式的文档,提交给各自的编改***;对用中文部分,采用汉王和文通识别,不一致的部分抛出编改;对于英文部分,采用FineReader和文通识别,不一致的部分抛出编改。
编改结果合并
将不同的编改文本进行合并生成最终的编改结果。
如图2所示,为文字编改方法,该方法包括:
对版面非文字内容进行处理;
通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属性;
对需要交互式版面分析的单位块及单位块属性进行调整;
通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种文字编改***,其特征在于,所述***包括:版面分析模块、版面加工模块及编改合并模块,所述
版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,计算所述单位块的语种属性,形成文档的整体版面;
版面加工模块,用于辅助版面分析模块,对版面分析所得的单位块及单位块属性进行调整;
编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本;
根据所述行扫描得到每行的有效像素点个数,并对有效像素点个数的分布进行统计得到每行的上下边界;
所述列扫描是对每一行进行列扫描,统计处每一列的像素点个数,并对像素点个数特征进行统计得到每行的左右边界;
根据所述行的上下边界和左右边界得到所述文档单位块;
所述版面分析模块包括预处理单元和自动版面分析单元;所述版面加工模块包括交互式版面分析单元;所述编改合并模块包括识别编改单元和编改结果合并单元。
2.一种文字编改的方法,其特征在于,所述方法包括:
对版面非文字内容进行处理;
通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属性;
对需要交互式版面分析的单位块及单位块属性进行调整;
通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本;
所述行扫描得到每行的有效像素点个数,并对有效像素点个数的分布进行统计得到每行的上下边界;
所述列扫描是对每一行进行列扫描,统计处每一列的像素点个数,并对像素点个数特征进行统计得到每行的左右边界;
根据所述行的上下边界和左右边界得到所述文档单位块。
CN201210338739.4A 2012-09-14 2012-09-14 一种文字编改***及编改的方法 Active CN102929843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210338739.4A CN102929843B (zh) 2012-09-14 2012-09-14 一种文字编改***及编改的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210338739.4A CN102929843B (zh) 2012-09-14 2012-09-14 一种文字编改***及编改的方法

Publications (2)

Publication Number Publication Date
CN102929843A CN102929843A (zh) 2013-02-13
CN102929843B true CN102929843B (zh) 2015-10-14

Family

ID=47644644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210338739.4A Active CN102929843B (zh) 2012-09-14 2012-09-14 一种文字编改***及编改的方法

Country Status (1)

Country Link
CN (1) CN102929843B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995904B (zh) * 2014-06-13 2017-09-12 上海珉智信息科技有限公司 一种影像档案电子资料的识别***
CN110348000B (zh) * 2019-07-16 2023-12-26 仲恺农业工程学院 排版文档交互计算方法、装置、设备及计算机可读介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1320481C (zh) * 2004-11-22 2007-06-06 北京北大方正技术研究院有限公司 一种对报纸版面进行标题与正文逻辑关联的方法
JP4835459B2 (ja) * 2007-02-16 2011-12-14 富士通株式会社 表認識プログラム、表認識方法および表認識装置
CN102298696B (zh) * 2010-06-28 2013-07-24 方正国际软件(北京)有限公司 一种字符识别方法及***
CN101923643B (zh) * 2010-08-11 2012-11-21 中科院成都信息技术有限公司 通用表格识别方法
CN101887519B (zh) * 2010-08-16 2012-04-18 同方知网(北京)技术有限公司 文字识别、编改的方法
CN102054169B (zh) * 2010-12-28 2013-01-16 青岛海信网络科技股份有限公司 车牌定位方法
CN102592121B (zh) * 2011-12-28 2013-12-04 方正国际软件有限公司 一种ocr漏识判断方法及***

Also Published As

Publication number Publication date
CN102929843A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
US10853565B2 (en) Method and device for positioning table in PDF document
CN102855232B (zh) 一种表格分析编改加工方法
CN107622230B (zh) 一种基于区域识别与分割的pdf表格数据解析方法
US10602032B2 (en) Method of correcting image distortion of optical device in display device and display device
US20150262007A1 (en) Detecting and extracting image document components to create flow document
CN108132916A (zh) 解析pdf表格数据的方法、存储介质
CN102929843B (zh) 一种文字编改***及编改的方法
CN106897690A (zh) Pdf表格提取方法
US11010543B1 (en) Systems and methods for table extraction in documents
WO2020155757A1 (zh) 柱状图数据转换控制方法、装置、计算机设备及存储介质
EP2435903A4 (en) SYSTEM AND ASSOCIATED METHOD FOR DIGITAL ATTITUDE MAPPING
CN105631447A (zh) 一种识别圆形公章中文字的方法
CN109598185B (zh) 图像识别翻译方法、装置、设备及可读存储介质
CN103996318A (zh) 一种学生作业管理及教师批改答疑***
US20200364452A1 (en) A heuristic method for analyzing content of an electronic document
EP2549406A3 (en) Method of and device for identifying direction of characters in image block
EP2975574A3 (en) Method, apparatus and terminal for image retargeting
CN111914805A (zh) 表格结构化方法、装置、电子设备及存储介质
CN105160343A (zh) 应用于胶片按需打印***的信息识别方法和装置
CN103714047B (zh) 横向校对和输出双层pdf的方法和装置
CN106228972B (zh) 面向智能机器人***的多语言文本混合朗读方法及***
CN116311317A (zh) 一种纸质文档电子化后的段落信息还原方法
Saleh et al. Pixel. js: Web-based pixel classification correction platform for ground truth creation
US9256592B1 (en) System for detecting and correcting broken words
CN114782957A (zh) 确定***图像中文本信息的方法、装置、电子设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 100084 Haidian District Tsinghua Yuan Tsinghua University Beijing District 1407, 1408, 36, 1409

Applicant after: " academic magazine (CD-ROM) " company limited of e-magazine society

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: "Chinese Academic Journals (CD)" Electronic Magazine

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHINA ACADEMIC JOURNAL (CD) ELECTRONIC PUBLISHING HOUSE TO: CHINA ACADEMIC JOURNAL (CD) ELECTRONIC PUBLISHING HOUSE CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant