CN113221536A

CN113221536A - 一种基于自然语言分析文件中相似段落的方法及装置

Info

Publication number: CN113221536A
Application number: CN202011587935.6A
Authority: CN
Inventors: 李志�; 谢化安; 谢志武; 李�根; 杨灿魁; 陈剑光; 佟忠正; 雷璟; 王栋; 肖琪
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-08-06

Abstract

本发明涉及图像识别领域，具体公开了一种基于自然语言分析文件中相似段落的方法，包括以下步骤：将文件转化成图像，生成原图像和目标图像，对原图像和目标图像进行识别，获取第一文字信息和第二文字信息；对所述第一文字信息和第二文字信息进行分词处理；根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；本发明实现了精确识别文本内容、精确定位文字位置及快速识别相似段落的目的。

Description

一种基于自然语言分析文件中相似段落的方法及装置

技术领域

本发明涉及图像识别领域，特别是涉及一种基于自然语言分析文件中相似段落的方法及装置。

背景技术

自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。随着计算机和互联网的广泛应用，也随之衍生出了一系列的产品。目前，以文本识别为代表的识别技术正快速发展。但在进行文本识别时，可能存在部分字符不清晰的情况，字符不够清晰，从而降低了文本识别的准确率。

发明内容

针对上述问题，本发明的目的在于提供了一种基于自然语言分析文件中相似段落的方法及装置。

为解决上述问题，本发明第一方面提供了一种基于自然语言分析文件中相似段落的方法，包括以下步骤：

S1. 将文件转化成图像，生成原图像和目标图像，对原图像和目标图像进行识别，获取第一文字信息和第二文字信息；

S2.对所述第一文字信息和第二文字信息进行分词处理；

S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；

S4.确定各词语的上下文内容，从而判断文件中的相似段落。

优选地，步骤S2包括：根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。

优选地，步骤S3包括：根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度；根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度；

优选地，所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度，具体为：

根据所述第一文字信息的分词结果，获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置；

根据所述第二文字信息的分词结果，获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置；

优选地，根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度；根据公式计算第一文字信息和第二文字信息的坐标位置相似度。

优选地，计算所述第一文字信息和第二文字信息的坐标位置相似度包括：在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度；

其计算相似度公式为：

其中，W_i为第一文字信息的词的语相邻坐标点，

为第一文字信息的长度以及词语在第一文字信息中的相对位置，W_j为第二文字信息的词的语相邻坐标点，

为第二文字信息的长度以及词语在第一文字信息中的相对位置；L₁为第一文字信息的词语的长度；L₂为第二文字信息的词语的长度。

优选地，步骤S4包括：根据所述第一文字信息和第二文字信息的坐标位置相似度，计算所述第一文字信息和第二文字信息的语义相似度，确定各词语的上下文内容，从而判断文件中的相似段落。

本发明第二方面提供了一种基于自然语言分析文件中相似段落的装置，包括

图像识别模块：所述的图像识别模块用于将原图像和目标图像进行识别，获取第一文字信息和第二文字信息；

提取分词模块：对所述第一文字信息和第二文字信息进行分词处理；

计算语义相似度模块：所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；

相似段落判定模块：所述的相似段落判定模块用于确定各词语的上下文内容，从而判断文件中的相似段落。

与现有技术相比，本发明将两张图片识别出第一文字信息和第二文字信息，再将文字信息进行分词，用过计算第一文字信息和第二文字信息词语的相似度和坐标位置相似度，进而计算出语义特征向量的相似度，通过特征向量的相似度确定各词语的上下文内容，从而判断文件中的相似段落。实现精确识别文本内容、精确定位文字位置及快速识别相似段落的目的。

附图说明

图1为本发明实施例提供了一种基于自然语言分析文件中相似段落的方法流程图。

图2为本发明实施例第二方面提供了一种基于自然语言分析文件中相似段落的装置。

施例提供的一种基于自然语言分析文件中相似段落的装置的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明实施例提供了一种基于自然语言分析文件中相似段落的方法，包括以下步骤：

S2.对所述第一文字信息和第二文字信息进行分词处理；

在本发明实施中，步骤S2包括：根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。

在本发明实施中，步骤S3包括：根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度；根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度；

在本发明实施中，所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度，具体为：

在本发明实施中，根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度；根据公式计算第一文字信息和第二文字信息的坐标位置相似度。

在本发明实施中，计算所述第一文字信息和第二文字信息的坐标位置相似度包括：在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度；

其计算相似度公式为：

其中，W_i为第一文字信息的词的语相邻坐标点，

S4.确定各词语的上下文内容，从而判断文件中的相似段落。

在本发明实施中，步骤S4包括：根据所述第一文字信息和第二文字信息的坐标位置相似度，计算所述第一文字信息和第二文字信息的语义相似度，确定各词语的上下文内容，从而判断文件中的相似段落。

请参阅图2，本发明实施例第二方面提供了一种基于自然语言分析文件中相似段落的装置，包括

图像识别模块201：所述的图像识别模块用于将原图像和目标图像进行识别，获取第一文字信息和第二文字信息；

提取分词模块202：对所述第一文字信息和第二文字信息进行分词处理；

计算语义相似度模块203：所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；

相似段落判定模块204：所述的相似段落判定模块用于确定各词语的上下文内容，从而判断文件中的相似段落。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语言分析文件中相似段落的方法，其特征在于，包括：

S1.将文件转化成图像，生成原图像和目标图像，对原图像和目标图像进行识别，获取第一文字信息和第二文字信息；

S2.对所述第一文字信息和第二文字信息进行分词处理；

S4.确定各词语的上下文内容，从而判断文件中的相似段落。

2.根据权利要求1所述的语义相似度的计算方法，其特征在于，步骤S2包括：根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。

3.根据权利要求1基于自然语言分析文件中相似段落的方法，其特征在于，步骤S3包括：根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度；根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度。

4.根据权利要求2基于自然语言分析文件中相似段落的方法，其特征在于，所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度，具体为：

根据所述第二文字信息的分词结果，获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置。

5.根据权利要求4基于自然语言分析文件中相似段落的方法，其特征在于，根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度；根据公式计算第一文字信息和第二文字信息的坐标位置相似度。

6.根据权利要求3基于自然语言分析文件中相似段落的方法，其特征在于，计算所述第一文字信息和第二文字信息的坐标位置相似度包括：在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度；

其计算相似度公式为：

其中，W_i为第一文字信息的词的语相邻坐标点，

为第一文字信息的长度以及词语在第一文字信息中的相对位置，W_j为第二文字信息的词的语相邻坐标点，为第二文字信息的长度以及词语在第一文字信息中的相对位置；L₁为第一文字信息的词语的长度；L₂为第二文字信息的词语的长度。

7.根据权利要求1基于自然语言分析文件中相似段落的方法，其特征在于，步骤S4包括：根据所述第一文字信息和第二文字信息的坐标位置相似度，计算所述第一文字信息和第二文字信息的语义相似度，确定各词语的上下文内容，从而判断文件中的相似段落。

8.一种基于自然语言分析文件中相似段落的装置，其特征在于：包括