CN113221536A - 一种基于自然语言分析文件中相似段落的方法及装置 - Google Patents

一种基于自然语言分析文件中相似段落的方法及装置 Download PDF

Info

Publication number
CN113221536A
CN113221536A CN202011587935.6A CN202011587935A CN113221536A CN 113221536 A CN113221536 A CN 113221536A CN 202011587935 A CN202011587935 A CN 202011587935A CN 113221536 A CN113221536 A CN 113221536A
Authority
CN
China
Prior art keywords
character information
information
word
similarity
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011587935.6A
Other languages
English (en)
Inventor
李志�
谢化安
谢志武
李�根
杨灿魁
陈剑光
佟忠正
雷璟
王栋
肖琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202011587935.6A priority Critical patent/CN113221536A/zh
Publication of CN113221536A publication Critical patent/CN113221536A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及图像识别领域,具体公开了一种基于自然语言分析文件中相似段落的方法,包括以下步骤:将文件转化成图像,生成原图像和目标图像,对原图像和目标图像进行识别,获取第一文字信息和第二文字信息;对所述第一文字信息和第二文字信息进行分词处理;根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;本发明实现了精确识别文本内容、精确定位文字位置及快速识别相似段落的目的。

Description

一种基于自然语言分析文件中相似段落的方法及装置
技术领域
本发明涉及图像识别领域,特别是涉及一种基于自然语言分析文件中相似段落的方法及装置。
背景技术
自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。随着计算机和互联网的广泛应用,也随之衍生出了一系列的产品。目前,以文本识别为代表的识别技术正快速发展。但在进行文本识别时,可能存在部分字符不清晰的情况,字符不够清晰,从而降低了文本识别的准确率。
发明内容
针对上述问题,本发明的目的在于提供了一种基于自然语言分析文件中相似段落的方法及装置。
为解决上述问题,本发明第一方面提供了一种基于自然语言分析文件中相似段落的方法,包括以下步骤:
S1. 将文件转化成图像,生成原图像和目标图像,对原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
S2.对所述第一文字信息和第二文字信息进行分词处理;
S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
S4.确定各词语的上下文内容,从而判断文件中的相似段落。
优选地,步骤S2包括:根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。
优选地,步骤S3包括:根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度;根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度;
优选地,所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度,具体为:
根据所述第一文字信息的分词结果,获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置;
根据所述第二文字信息的分词结果,获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置;
优选地,根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度;根据公式计算第一文字信息和第二文字信息的坐标位置相似度。
优选地,计算所述第一文字信息和第二文字信息的坐标位置相似度包括:在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度;
其计算相似度公式为:
Figure 622174DEST_PATH_IMAGE001
其中,Wi为第一文字信息的词的语相邻坐标点,
Figure 436546DEST_PATH_IMAGE002
为第一文字信息的长度以及词语在第一文字信息中的相对位置,Wj为第二文字信息的词的语相邻坐标点,
Figure 321325DEST_PATH_IMAGE003
为第二文字信息的长度以及词语在第一文字信息中的相对位置;L1为第一文字信息的词语的长度;L2为第二文字信息的词语的长度。
优选地,步骤S4包括:根据所述第一文字信息和第二文字信息的坐标位置相似度,计算所述第一文字信息和第二文字信息的语义相似度,确定各词语的上下文内容,从而判断文件中的相似段落。
本发明第二方面提供了一种基于自然语言分析文件中相似段落的装置,包括
图像识别模块:所述的图像识别模块用于将原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
提取分词模块:对所述第一文字信息和第二文字信息进行分词处理;
计算语义相似度模块:所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
相似段落判定模块:所述的相似段落判定模块用于确定各词语的上下文内容,从而判断文件中的相似段落。
与现有技术相比,本发明将两张图片识别出第一文字信息和第二文字信息,再将文字信息进行分词,用过计算第一文字信息和第二文字信息词语的相似度和坐标位置相似度,进而计算出语义特征向量的相似度,通过特征向量的相似度确定各词语的上下文内容,从而判断文件中的相似段落。实现精确识别文本内容、精确定位文字位置及快速识别相似段落的目的。
附图说明
图1为本发明实施例提供了一种基于自然语言分析文件中相似段落的方法流程图。
图2为本发明实施例第二方面提供了一种基于自然语言分析文件中相似段落的装置。
施例提供的一种基于自然语言分析文件中相似段落的装置的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明实施例提供了一种基于自然语言分析文件中相似段落的方法,包括以下步骤:
S1. 将文件转化成图像,生成原图像和目标图像,对原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
S2.对所述第一文字信息和第二文字信息进行分词处理;
在本发明实施中,步骤S2包括:根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。
S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
在本发明实施中,步骤S3包括:根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度;根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度;
在本发明实施中,所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度,具体为:
根据所述第一文字信息的分词结果,获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置;
根据所述第二文字信息的分词结果,获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置;
在本发明实施中,根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度;根据公式计算第一文字信息和第二文字信息的坐标位置相似度。
在本发明实施中,计算所述第一文字信息和第二文字信息的坐标位置相似度包括:在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度;
其计算相似度公式为:
Figure 588358DEST_PATH_IMAGE004
其中,Wi为第一文字信息的词的语相邻坐标点,
Figure 600308DEST_PATH_IMAGE002
为第一文字信息的长度以及词语在第一文字信息中的相对位置,Wj为第二文字信息的词的语相邻坐标点,
Figure 269187DEST_PATH_IMAGE003
为第二文字信息的长度以及词语在第一文字信息中的相对位置;L1为第一文字信息的词语的长度;L2为第二文字信息的词语的长度。
S4.确定各词语的上下文内容,从而判断文件中的相似段落。
在本发明实施中,步骤S4包括:根据所述第一文字信息和第二文字信息的坐标位置相似度,计算所述第一文字信息和第二文字信息的语义相似度,确定各词语的上下文内容,从而判断文件中的相似段落。
请参阅图2,本发明实施例第二方面提供了一种基于自然语言分析文件中相似段落的装置,包括
图像识别模块201:所述的图像识别模块用于将原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
提取分词模块202:对所述第一文字信息和第二文字信息进行分词处理;
计算语义相似度模块203:所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
相似段落判定模块204:所述的相似段落判定模块用于确定各词语的上下文内容,从而判断文件中的相似段落。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于自然语言分析文件中相似段落的方法,其特征在于,包括:
S1.将文件转化成图像,生成原图像和目标图像,对原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
S2.对所述第一文字信息和第二文字信息进行分词处理;
S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
S4.确定各词语的上下文内容,从而判断文件中的相似段落。
2.根据权利要求1所述的语义相似度的计算方法,其特征在于,步骤S2包括:根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。
3.根据权利要求1基于自然语言分析文件中相似段落的方法,其特征在于,步骤S3包括:根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度;根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度。
4.根据权利要求2基于自然语言分析文件中相似段落的方法,其特征在于,所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度,具体为:
根据所述第一文字信息的分词结果,获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置;
根据所述第二文字信息的分词结果,获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置。
5.根据权利要求4基于自然语言分析文件中相似段落的方法,其特征在于,根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度;根据公式计算第一文字信息和第二文字信息的坐标位置相似度。
6.根据权利要求3基于自然语言分析文件中相似段落的方法,其特征在于,计算所述第一文字信息和第二文字信息的坐标位置相似度包括:在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度;
其计算相似度公式为:
Figure DEST_PATH_IMAGE001
其中,Wi为第一文字信息的词的语相邻坐标点,
Figure 847657DEST_PATH_IMAGE002
为第一文字信息的长度以及词语在第一文字信息中的相对位置,Wj为第二文字信息的词的语相邻坐标点,为第二文字信息的长度以及词语在第一文字信息中的相对位置;L1为第一文字信息的词语的长度;L2为第二文字信息的词语的长度。
7.根据权利要求1基于自然语言分析文件中相似段落的方法,其特征在于,步骤S4包括:根据所述第一文字信息和第二文字信息的坐标位置相似度,计算所述第一文字信息和第二文字信息的语义相似度,确定各词语的上下文内容,从而判断文件中的相似段落。
8.一种基于自然语言分析文件中相似段落的装置,其特征在于:包括
图像识别模块:所述的图像识别模块用于将原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
提取分词模块:对所述第一文字信息和第二文字信息进行分词处理;
计算语义相似度模块:所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
相似段落判定模块:所述的相似段落判定模块用于确定各词语的上下文内容,从而判断文件中的相似段落。
CN202011587935.6A 2020-12-29 2020-12-29 一种基于自然语言分析文件中相似段落的方法及装置 Pending CN113221536A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011587935.6A CN113221536A (zh) 2020-12-29 2020-12-29 一种基于自然语言分析文件中相似段落的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011587935.6A CN113221536A (zh) 2020-12-29 2020-12-29 一种基于自然语言分析文件中相似段落的方法及装置

Publications (1)

Publication Number Publication Date
CN113221536A true CN113221536A (zh) 2021-08-06

Family

ID=77085953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011587935.6A Pending CN113221536A (zh) 2020-12-29 2020-12-29 一种基于自然语言分析文件中相似段落的方法及装置

Country Status (1)

Country Link
CN (1) CN113221536A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128364A (zh) * 2023-02-20 2023-05-16 北京中联迅捷通信科技有限公司 一种文本撰写质量监控方法与***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024606A1 (en) * 2007-07-20 2009-01-22 Google Inc. Identifying and Linking Similar Passages in a Digital Text Corpus
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN109145085A (zh) * 2018-07-18 2019-01-04 北京市农林科学院 语义相似度的计算方法及***
CN111694978A (zh) * 2020-05-20 2020-09-22 Oppo(重庆)智能科技有限公司 图像相似度检测方法、装置、存储介质与电子设备
CN111949766A (zh) * 2020-08-20 2020-11-17 深圳市卡牛科技有限公司 一种文本相似度的识别方法、***、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024606A1 (en) * 2007-07-20 2009-01-22 Google Inc. Identifying and Linking Similar Passages in a Digital Text Corpus
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN109145085A (zh) * 2018-07-18 2019-01-04 北京市农林科学院 语义相似度的计算方法及***
CN111694978A (zh) * 2020-05-20 2020-09-22 Oppo(重庆)智能科技有限公司 图像相似度检测方法、装置、存储介质与电子设备
CN111949766A (zh) * 2020-08-20 2020-11-17 深圳市卡牛科技有限公司 一种文本相似度的识别方法、***、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128364A (zh) * 2023-02-20 2023-05-16 北京中联迅捷通信科技有限公司 一种文本撰写质量监控方法与***
CN116128364B (zh) * 2023-02-20 2024-01-16 北京天方智力知识产权代理有限公司 一种文本撰写质量监控方法与***

Similar Documents

Publication Publication Date Title
CN108509915B (zh) 人脸识别模型的生成方法和装置
EP3975123A1 (en) Map constructing method, positioning method and system, wireless communication terminal, and computer-readable medium
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN107193796B (zh) 一种舆情事件检测方法及装置
CN105117740B (zh) 字体识别方法及装置
CN111241230A (zh) 一种基于文本挖掘识别串标风险的方法及***
CN108062307B (zh) 基于词嵌入模型的文本语义隐写分析方法
US20150055866A1 (en) Optical character recognition by iterative re-segmentation of text images using high-level cues
CN112801099B (zh) 一种图像处理方法、装置、终端设备及介质
CN112052687A (zh) 基于深度可分离卷积的语义特征处理方法、装置及介质
CN113221536A (zh) 一种基于自然语言分析文件中相似段落的方法及装置
CN113177542A (zh) 识别***文字的方法、装置、设备和计算机可读介质
Dat et al. An improved CRNN for Vietnamese Identity Card Information Recognition.
CN117235546A (zh) 多版本文件比对方法、装置、***及存储介质
Kesorn et al. Optical Character Recognition (OCR) enhancement using an approximate string matching technique.
CN116311276A (zh) 文档图像矫正方法、装置、电子设备及可读介质
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质
CN114155387A (zh) 利用Logo标志图文信息的相似度Logo发现方法
CN114898375A (zh) 字符检测模型训练方法及组件,文本识别方法及组件
CN115147846A (zh) 多语言票据识别方法、装置、设备及存储介质
US20230036812A1 (en) Text Line Detection
CN108021918B (zh) 文字识别方法及装置
CN114399782A (zh) 文本图像处理方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806