CN102609408B

CN102609408B - 基于多文种文档图像识别的跨文种理解方法

Info

Publication number: CN102609408B
Application number: CN201210007729.2A
Authority: CN
Inventors: 彭良瑞; 丁晓青; 苏冰; 刘长松; 方驰; 文迪
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-01-11
Filing date: 2012-01-11
Publication date: 2014-11-26
Anticipated expiration: 2032-01-11
Also published as: CN102609408A

Abstract

本发明公开了一种基于多文种文档图像识别的跨文种理解方法，包括以下步骤：获取源文种的文档扫描图像，通过多文种文档图像识别途径对所述文档扫描图像进行处理，以得到源文种识别文本；对所述源文种识别文本进行分句处理；利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换，获得目标文种文本；对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出。本发明能够实现对多文种的文档扫描图像进行识别、分句、跨文种理解以及双语对照图文显示，为用户提供了各文种、各民族文字信息的获取、保存、交流与转换功能，便于用户实现跨文种的文档理解。

Description

基于多文种文档图像识别的跨文种理解方法

技术领域

本发明涉及文本图像识别与分析领域，特别是涉及一种基于多文种文档图像识别的跨文种理解方法。

背景技术

我国作为一个具有悠久历史的多民族大国，55个少数民族约占全国人口总数的8％，分布在占全国总面积50％-60％的土地上。少数民族语言分属汉藏、阿尔泰、南亚、南岛和印欧等几大语系，使用人数较多且影响较广的少数民族文字以蒙古文、藏文、维吾尔文为代表。蒙古文、藏文、维吾尔文是非拉丁字母、非汉字体系的文字，民族文字识别与翻译理解技术是构建各民族文化信息化交流渠道的重要基础。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是提供一种多文种文档识别与翻译理解的跨文种一体化技术，实现各民族文字信息的获取、保存、交流与转换。

(二)技术方案

为了解决上述技术问题，本发明提供一种基于多文种文档图像识别的跨文种理解方法，其包括以下步骤：

获取源文种的文档扫描图像，通过多文种文档图像识别途径对所述文档扫描图像进行处理，以得到源文种识别文本；

对所述源文种识别文本进行分句处理；

利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换，获得目标文种文本；

对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出。

其中，所述多文种文档图像识别途径具体包括：将获取的所述文档扫描图像输入多文种文档图像识别模块中，对所述文档扫描图像依次进行版面分析、文本行切分、字符切分和识别，得到所述文档扫描图像的文本代码。

其中，所述分句处理具体包括：对所述源文种识别文本进行断句和整理，使得原版式上换行断开的句子合并，重新从标点符号处断开文本。

其中，基于词的源文种识别文本转换具体包括：记源文种为A，目标文种为B，根据B的检索词或指定检索词组，从所述文本翻译理解模块的文种A-B双语对照词典知识库中查找对应A的词条或词条组，在所述源文种识别文本中匹配查询，并记录匹配结果。

其中，所述显示输出具体包括：将所述匹配结果在所述源文种识别文本中高亮显示，同时将A和B双语对照的词条内容列表显示出来；或者，将所述匹配结果在所述文档扫描图像上标记显示，同时将A和B双语对照的词条内容列表显示出来。

其中，基于句子的源文种识别文本转换具体包括：采用基于句子的翻译模块，实现句子的翻译转换。

其中，所述显示输出具体包括：将翻译转换后的目标文种文本与源文种识别文本按句交替显示。

其中，所述显示输出具体还包括：目标文种文本与源文种识别文本按句交替显示时，在目标文种文本中选中某句时，将该句在所述文档扫描图像上标记显示。

(三)有益效果

上述技术方案所提供的基于多文种文档图像识别的跨文种理解方法，能够实现对多文种的文档扫描图像进行识别、分句、跨文种理解以及双语对照图文显示，为用户提供了跨文种的文档翻译理解功能，实现各文种、各民族文字信息的获取、保存、交流与转换功能，便于用户实现跨文种的文档理解。

附图说明

图1是本发明实施例的基于多文种文档图像识别的跨文种理解方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1示出了本实施例的基于多文种文档图像识别的跨文种理解方法的流程图，参照图示，该方法包括如下步骤：

第一步：获取源文种的文档扫描图像，通过多文种文档图像识别途径对所述文档扫描图像进行处理，以得到源文种识别文本；

第二步：对所述源文种识别文本进行分句处理；

第三步：利用基于词的或基于句子的文本翻译理解模块对分句处理后的源文种识别文本进行转换，获得目标文种文本；

第四步：对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出。

在第一步中，采用多文种文档图像识别(又称文字识别或光学字符识别，Optical Character Recognition，OCR)技术，对扫描得到的报纸、书籍等文档扫描图像进行识别，具体过程包括：将获取的所述文档扫描图像输入多文种文档图像识别模块中，进一步对其依次进行版面分析、文本行切分、文字切分和识别，得到文档扫描图像文本代码，将结果保存在文本文件中，同时记录文字在原始图像上的对应位置信息，如字符图像外接矩形框的顶点坐标。本实施例中的识别支持的文种如汉、英、蒙古、藏、维吾尔、哈萨克、柯尔克孜、***、朝鲜文等。

其中，版面分析通过连通域分析、投影分析或纹理分析等方法，将文档扫描图像分割成同质的区域，包括文本、表格、图片等区域，文本区域包括横排文本和竖排文本。

文本行切分通过连通域分析、投影分析等方法将文本区域分割为单个文本行。

在单个文本行的文字识别过程中，通过连通域分析、轮廓分析等方法分离出文字识别的基本单元，对其进行识别。根据识别方法的不同，文字识别的基本单元可以是字符、字符部件或单词等。

识别结果为字符代码，存入文本文件，形成源文种识别文本，其他信息也存入文件进行保存，包括文字在原始图像上的对应位置信息，如字符图像外接矩形框的顶点坐标。

在第二步中，进行分句处理对源文种识别文本进行断句。由于源文种识别文本每行对应原始文档扫描图像中的一行，每一行的长短不一，很多句子在行间断开，一行中也可能包含多个句子，需要对识别出的源文种识别文本进行断句和整理，使得原版式上换行断开的句子合并，重新从标点符号处断开文本。

分句具体过程包括，循环读入源文种识别文本中每一行，在每一行读入的字符串中从前向后依次搜索句末标点，找到句末标点，则在输出文件中输出前面的字符串，换行并在原字符串中删除句末标点之前的字符串，然后继续搜索，直到读入的这一行字符串的结尾；如果处理到该行结束时没有遇到句末标点，则将剩余字符串内容直接输出到输出文件，但不换行；对每一行都做这样的处理，直到文本文件处理结束。断句后的文本另存入一个文件。

句子分离的标志是标点，本***中认为是标志句子分段结束的句末标点包括：逗号、句号、冒号、分号、问号、感叹号、双引号和括号的右半边等。有些句子结束之后会跟后一个句子开头的标点相连，比如双引号或括号左半边，因此这些标点符号不能作为句末标点。为对各文种中的特定标点具有较好的扩展性，可在处理过程中自定义添加标点符号。

有些句子可能出现多个句末有多个标点的情况，比如表示惊叹时将感叹号和问号连用，句号后边接着双引号的后半边，或者识别时将句末标点前面一个字符误识为标点符号。因此***在搜索找到第一个句末标点时不立即停止搜索，而是继续往后搜索，直到不是句末标点为止。

在第三步中，对分句处理后的源文种识别文本进行转换有两种途径：

途径一：记源文种为A，目标文种为B，根据B的检索词或指定检索词组，从所述文本翻译理解模块的文种A-B双语对照词典知识库中查找对应A的词条或词条组，在所述源文种识别文本中匹配查询，并将匹配结果记录下来，其中词典可以为通用词典或自定义词典。

以藏汉跨文种理解为例，对输入的汉语检索词，在词典数据库每个藏文词条的各汉语解释中逐项查找，如果某个汉语解释中包含要查找的检索词，认为找到了一个对应的藏文词条，直到词典中所有藏文词条查询完毕。***对每一个找到的藏文词条建立一个藏汉信息节点，节点成员包括：关键词编号、对应藏文单词、对应藏文单词长度、相应汉语翻译、汉语翻译长度、单词分类和单词分类长度。本***还设计了专门的查询结果节点结构来保存相应的查询结果，节点成员包括：关键词的编号、关键词在文本中行数、关键词在文本中的列数、关键词在全文中的位置、关键词的长度。

对于找到的每一个藏文词条，在藏文文本中进行查找，该词条每出现一次则新建一个查询结果节点，直到所有的词条查找完毕。返回所有与中文检索词对应的藏文词条在文档中出现的次数和所有查询结果节点。

本***使用的藏汉词典格式包括藏文单词，词性，一个或多个汉语翻译。目前由于藏汉词典大多是解释描述性的，缺乏一一对应的准确汉语词语翻译，这给直接从藏汉词典词义中完全匹配检索词造成很大的困难。本***中，词典作为数据库，***通过ODBC接口与词典数据库相连，使用结构化查询语言(SQL)进行模糊查询。在解释性藏汉词典中进行初步模糊查询的策略是只要一个藏文词条的任何一条解释性的语言中出现了要查询的词，就认为该藏文词条包含要查询的汉语检索词。

此外，用户可以建立自定义词典文件，格式为：″藏文词条″，″汉语意思1″，″汉语意思2″，...可以给每个藏文词条添加多个汉语意思，只需要用英文双引号括起来，每个汉语意思之间用英文逗号隔开。当用户指定用自定义词典进行理解查询时，则对词表中每一个藏文词条建立一个藏汉信息节点，随后在藏文文本中一次检索所有的藏文词条。

途径二：采用基于句子的翻译模块，对分句处理后的源文种文本按句实现翻译转换，本实施例可采用常规统计机器翻译模块进行翻译转换。

在第四步中，支持双语文本或图文对照显示方法，包括两种显示模式，一种为文本显示模式，若采用上述途径一，则将匹配的结果词条在源文种识别文本中高亮显示，同时将A和B双语对照的词条内容列表显示出来；若采用途径二，则将翻译转换后的目标文种文本与源文种识别文本按句交替显示；另一种为图像显示模式，根据文档扫描图像识别过程中所获得的文本在图像上的对应位置，若采用途径一，则将匹配的结果词条在原文档扫描图像上标记显示，同时将A和B双语对照的词条内容列表显示出来；若采用途径二，不仅将翻译转换后的目标文种文本与源文种识别文本按句交替显示，还可以在目标文种文本中选中某句时，将该句在所述文档扫描图像上标记显示。

由以上实施例可以看出，本发明实施例能够实现对多文种的文档扫描图像进行识别、分句、跨文种理解以及双语对照图文显示，为用户提供了跨文种的文档翻译理解方法，实现了各文种、各民族文字信息的获取、保存、交流与转换功能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于多文种文档图像识别的跨文种理解方法，其特征在于，包括以下步骤：

所述多文种文档图像识别途径具体包括：将获取的所述文档扫描图像输入多文种文档图像识别模块中，对所述文档扫描图像依次进行版面分析、文本行切分、字符切分和识别，得到所述文档扫描图像的文本代码；

对所述源文种识别文本进行分句处理；

基于词的源文种识别文本转换具体包括：记源文种为A，目标文种为B，根据B的检索词或指定检索词组，从所述文本翻译理解模块的文种A-B双语对照词典知识库中查找对应A的词条或词条组，在所述源文种识别文本中匹配查询，并记录匹配结果；

基于句子的源文种识别文本转换具体包括：采用基于句子的翻译模块，实现句子的翻译转换；

对所述文档扫描图像、源文种识别文本和目标文种文本进行显示输出；

所述显示输出具体包括：将所述匹配结果在所述源文种识别文本中高亮显示，同时将A和B双语对照的词条内容列表显示出来；或者，将所述匹配结果在所述文档扫描图像上标记显示，同时将A和B双语对照的词条内容列表显示出来；

所述分句处理具体包括：对所述源文种识别文本进行断句和整理，使得原版式上换行断开的句子合并，重新从标点符号处断开文本；

所述显示输出具体还包括：将翻译转换后的目标文种文本与源文种识别文本按句交替显示，目标文种文本与源文种识别文本按句交替显示时，在目标文种文本中选中某句时，将该句在所述文档扫描图像上标记显示。