CN112528980B - Ocr识别结果纠正方法及其终端、*** - Google Patents
Ocr识别结果纠正方法及其终端、*** Download PDFInfo
- Publication number
- CN112528980B CN112528980B CN202011484096.5A CN202011484096A CN112528980B CN 112528980 B CN112528980 B CN 112528980B CN 202011484096 A CN202011484096 A CN 202011484096A CN 112528980 B CN112528980 B CN 112528980B
- Authority
- CN
- China
- Prior art keywords
- result
- probability
- recognition result
- intermediate result
- candidate character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种OCR识别结果纠正方法及其终端、***。其中所述方法,包括:获取OCR识别结果;确定识别结果中的出错结果;纠正出错结果,生成最终的识别结果。通过对出错结果的纠正,可以实现对OCR识别结果的纠正。
Description
技术领域
本申请涉及字符校对技术领域,尤其涉及一种OCR识别结果纠正方法及其终端、***。
背景技术
光学字符识别(OCR)技术,是指通过电子设备识别,检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成文字的过程;针对印刷体字符等采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成计算机文本格式。
在实现现有技术的过程中,发明人发现:
在中文手写体的识别结果中,仍然存在部分形体字被错误识别,特别是在中文手写体的识别结果中尤为突出。
现有的一些OCR识别结果纠正模型,都是对于中文印刷体识别结果进行纠正的。从现有的使用记录来看,对于约1000字的中文手写体内容进行OCR识别,其中出错的地方高达100到150处。这将很大程度影响到OCR的下游任务的处理。
这些中文识别结果纠正方法,很多都是依据一些比较简单的书写文法规则,编辑距离和无监督纠错模型,来实现对于字符相对简单的纠正。这些方法相对简单,忽略了字符在其整个文段中起到的语义表达意思。
此外,由于是中文手写体的OCR识别结果,其书写的语句容易偏向于口语化,表达形式多变,从而导致传统的基于字典的纠正方法,效果较差,字典构成难度较大。
因此,需要提供一种可以基于语义对OCR识别结果进行纠正的技术方案。
发明内容
本申请实施例提供一种对OCR识别结果进行纠正的技术方案,用以解决现有技术中OCR识别结果不准确,自动化识别程度低的问题。
本申请提供的一种OCR识别结果纠正方法,包括:
获取OCR识别结果;
确定识别结果中的出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,确定识别结果中的出错结果,具体包括:
筛选识别结果中可能出错的候选字符集;
根据候选字符集确定出错结果。
进一步的,在本申请提供的一种优选实施方式中,筛选识别结果中可能出错的候选字符集,具体包括:
筛选出识别结果中可能识别出错的第一中间结果;
根据第一中间结果得到候选字符集。
进一步的,在本申请提供的一种优选实施方式中,根据第一中间结果得到候选字符集,具体包括:
计算第一中间结果的双向概率值得到第二中间结果;
根据第二中间结果生成候选字符集。
进一步的,在本申请提供的一种优选实施方式中,计算第一中间结果的双向概率值得到第二中间结果,具体包括:
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果。
进一步的,在本申请提供的一种优选实施方式中,根据第二中间结果生成候选字符集,具体包括:
通过深度学习模型,得到第二中间结果各个位置的候选字符集。
进一步的,在本申请提供的一种优选实施方式中,根据候选字符集确定出错结果,具体包括:
根据候选字符集计算概率最大组合解;
根据概率最大组合解确定出错结果。
进一步的,在本申请提供的一种优选实施方式中,根据候选字符集计算概率最大组合解,具体包括:
计算候选字符集的改写概率;
计算候选字符集的置信概率;
根据改写概率和置信概率计算概率最大组合解。
本申请还提供一种终端,所述终端被配置为可以执行权利要求1至8中任一项所述的方法。
本申请还提供一种OCR识别结果纠正***,其特征在于,所述OCR识别结果纠正***可以执行权利要求1至8中任一项所述的方法。
本申请提供的实施例,至少具有以下技术效果:
通过对出错结果的纠正,可以实现对OCR识别结果的纠正。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的OCR识别结果纠正方法的流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,为本申请实施例提供的OCR识别结果纠正方法,具体包括以下步骤:
S100:获取OCR识别结果。
OCR也就是光学字符识别,是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。例如:通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。
具体的,假设通过OCR把要识别的内容转化为字符集合,输入的识别结果为长度为n的字符w={w1,w2,...,wn}以及其在该位置上的分布概率P={p1,p2,...,pn}。
概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。如果试验结果用变量X的取值来表示,则随机试验的概率分布就是随机变量的概率分布,即随机变量的可能取值及取得对应值的概率。
S200:确定识别结果中的出错结果。
可以理解的是,在本申请提供的一种优选实施方式中,确定识别结果中的出错结果,具体包括:
筛选识别结果中可能出错的候选字符集;
根据候选字符集确定出错结果。
本申请设计了一种双向的组合评价方法。该方法从双向上考虑了可能需要修改的字符位置,同时也减少了后续步骤中需要产生的候选的数量,加快了后续模块的处理速度。筛选识别结果中可能出错的候选字符集,大大减少了后续步骤中需要用到的候选数量。
进一步的,在本申请提供的一种优选实施方式中,筛选识别结果中可能出错的候选字符集,具体包括:
筛选出识别结果中可能识别出错的第一中间结果;
根据第一中间结果得到候选字符集。
具体的,判断识别结果中每个字符在该位置上的分布概率,如果识别结果中某个字符在对应位置的分布概率值低于设定的阈值,则把这个字符筛选出来,筛选出来的字符的位置构成一个位置集合。这个位置集合是筛选出来的识别结果中可能被识别出错的识别结果,这个结果就是上述所述第一中间结果。例如:初步可能出错位置其中TH1为初步过滤概率值。
进一步的,在本申请提供的一种优选实施方式中,根据第一中间结果得到候选字符集,具体包括:
计算第一中间结果的双向概率值得到第二中间结果;
根据第二中间结果生成候选字符集。
可以理解的是,本申请使用多次筛选结构,构建BiPV双向概率数值,考虑了前后字符之间的连接关系,提高其预测错误命中的可能性,同时减少了后续算法需要产生的候选字符的规模,提高了后续模型的运行效率。
根据筛选出的第一中间结果,计算第一中间结果对应的双向概率值,可以继续筛选需要候选的字符集数量,经过对第一中间结果的双向概率值判断,可以继续减少需要的候选字符集的数量。
进一步的,在本申请提供的一种优选实施方式中,计算第一中间结果的双向概率值得到第二中间结果,具体包括:
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果。
具体的,计算第一中间结果中每个位置的双向概率值,例如:计算第一中间结果Pos中某个i位置上的字符的双向概率值BiPVi。
双向概率值根据如下公式确定:
其中FT为事先构建好的正向转移概率矩阵,BT为事先构建好的反向转移概率。
进一步的,在本申请提供的一种优选实施方式中,根据第二中间结果生成候选字符集,具体包括:
通过深度学习模型,得到第二中间结果各个位置的候选字符集。
深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的人工智能目标。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
本申请利用基于语义信息的深度学习模型,得到在第二中间结果Pos’集合当中,各个位置基于语义信息的可能的候选字符集。例如:使用基于Transformer结构的多头注意力机制的深度学习模型,使预测的字符能够更加符合上下文的语义信息。该类模型,能够更好的利用上下文中的语义信息,例如:“南京市长江大桥”这种句子,模型能够根据上下文信息,判断,是“南京市/长江大桥”还是,“南京市长/江大桥”。而这种识别功能,无论是预先匹配规则还是计算TOPK的组合概率,很难实现的。这将有利于构建的候选字符,考虑上下文语义信息,产生的候选字符集更加合理。
S300:纠正出错结果,生成最终的识别结果。
本申请使用多种方法,对于需要修改位置的字符候选集进行综合考虑,能同时考虑OCR识别的字符信息和基于语义的字符信息。
可以理解的是,在本申请提供的一种优选实施方式中,根据候选字符集确定出错结果,具体包括:
根据候选字符集计算概率最大组合解;
根据概率最大组合解确定出错结果。
对于候选字符集的字符的选择。许多模型都直接使用产生的候选的字符集中概率数值最大的字符进行替代。这种方法,在很多实际使用情况下,忽略了原有的OCR识别上来的字符结构信息。为此,本方法在进行字符的修改前,会经过综合考虑才进行修改。
具体的,在本申请提供的一种优选实施方式中,根据候选字符集计算概率最大组合解,具体包括:
计算候选字符集的改写概率;
计算候选字符集的置信概率;
根据改写概率和置信概率计算概率最大组合解。
对于候选字符集的字符的选择。使用一种基于字符字形和编辑距离的方法,构建字符修改概率RP。然后结合候选字符在候选集当中的置信概率CP的分布情况,综合考虑是否对字符做修改。
置信概率是用来衡量统计推断可靠程度的概率。其意义是指在进行统计推断时被估参数包含在某一范围内的概率,也叫可信度。
要计算候选字符集计算概率最大组合解,首先需要计算每个位置上的字符改写概率RP,公式是其中TreeDist为树形距离计算,EditDist为编辑距离计算。其中α和β为预先设定权重参数。其次,字符在候选集中的分布,计算得到其置信概率。例如:需要构建置信概率最后,根据改写概率和置信概率计算最大组合解
以上为本申请实施例提供的OCR识别结果纠正方法,基于同样的思路,本申请实施例还提供一种终端,所述终端被配置为可以执行以下方法:
获取OCR识别结果;
确定识别结果中的出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述终端被配置为可以执行以下方法:
获取OCR识别结果;
筛选识别结果中可能出错的候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述终端被配置为可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
根据第一中间结果得到候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述终端被配置为可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果的双向概率值得到第二中间结果;
根据第二中间结果生成候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述终端被配置为可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果;
根据第二中间结果生成候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述终端被配置为可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果;
通过深度学习模型,得到第二中间结果各个位置的候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述终端被配置为可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果;
通过深度学习模型,得到第二中间结果各个位置的候选字符集;
根据候选字符集计算概率最大组合解;
根据概率最大组合解确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述终端被配置为可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果;
通过深度学习模型,得到第二中间结果各个位置的候选字符集;
计算候选字符集的改写概率;
计算候选字符集的置信概率;
根据改写概率和置信概率计算概率最大组合解;
根据概率最大组合解确定出错结果;
纠正出错结果,生成最终的识别结果。
本申请还提供一种OCR识别结果纠正***,其特征在于,所述OCR识别结果纠正***可以执行以下方法:
获取OCR识别结果;
确定识别结果中的出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述OCR识别结果纠正***可以执行以下方法:
获取OCR识别结果;
筛选识别结果中可能出错的候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述OCR识别结果纠正***可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
根据第一中间结果得到候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述OCR识别结果纠正***可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果的双向概率值得到第二中间结果;
根据第二中间结果生成候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述OCR识别结果纠正***可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果;
根据第二中间结果生成候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述OCR识别结果纠正***可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果;
通过深度学习模型,得到第二中间结果各个位置的候选字符集;
根据候选字符集确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述OCR识别结果纠正***可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果;
通过深度学习模型,得到第二中间结果各个位置的候选字符集;
根据候选字符集计算概率最大组合解;
根据概率最大组合解确定出错结果;
纠正出错结果,生成最终的识别结果。
进一步的,在本申请提供的一种优选实施方式中,所述OCR识别结果纠正***可以执行以下方法:
获取OCR识别结果;
筛选出识别结果中可能识别出错的第一中间结果;
计算第一中间结果中每个位置的双向概率值;
筛选符合预设条件的双向概率值的位置集合得到第二中间结果;
通过深度学习模型,得到第二中间结果各个位置的候选字符集;
计算候选字符集的改写概率;
计算候选字符集的置信概率;
根据改写概率和置信概率计算概率最大组合解;
根据概率最大组合解确定出错结果;
纠正出错结果,生成最终的识别结果。
本申请提供的实施例,至少具有以下技术效果:
通过对出错结果的纠正,可以实现对OCR识别结果的纠正。根据本申请实施例的OCR识别结果纠正方法,针对OCR的识别出错结果进行纠正,由此可降低OCR的识别错误率,可以使识别结果更加准确,提高用户体验。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (5)
1.一种OCR识别结果纠正方法,其特征在于,包括:
获取OCR识别结果;
判断识别结果中每个字符在该位置上的分布概率;
通过初步概率过滤值筛选所述分布概率,得到识别结果中可能识别出错位置的第一中间结果;
通过比较最终过滤值和所述第一中间结果中每个位置的双向概率值,筛选得到第二中间结果;
根据第二中间结果生成候选字符集;
基于树形距离和编辑距离,结合预先设定的权重参数计算候选字符集对应位置上的字符的改写概率;
计算候选字符集对应位置上的字符的置信概率;
根据改写概率和置信概率计算概率最大组合解,确定出错结果;
纠正出错结果,生成最终的识别结果。
2.根据权利要求1所述的方法,其特征在于,通过比较最终过滤值和所述第一中间结果中每个位置的双向概率值,筛选得到第二中间结果,具体包括:
计算第一中间结果中每个位置的双向概率值;
筛选出双向概率值小于最终过滤值的位置集合得到第二中间结果。
3.根据权利要求1所述的方法,其特征在于,根据第二中间结果生成候选字符集,具体包括:
通过深度学习模型,得到第二中间结果各个位置的候选字符集。
4.一种终端,其特征在于,所述终端被配置为可以执行权利要求1至3中任一项所述的方法。
5.一种OCR识别结果纠正***,其特征在于,所述OCR识别结果纠正***可以执行权利要求1至3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011484096.5A CN112528980B (zh) | 2020-12-16 | 2020-12-16 | Ocr识别结果纠正方法及其终端、*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011484096.5A CN112528980B (zh) | 2020-12-16 | 2020-12-16 | Ocr识别结果纠正方法及其终端、*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528980A CN112528980A (zh) | 2021-03-19 |
CN112528980B true CN112528980B (zh) | 2022-02-15 |
Family
ID=75000501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011484096.5A Active CN112528980B (zh) | 2020-12-16 | 2020-12-16 | Ocr识别结果纠正方法及其终端、*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528980B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及*** |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198149A (zh) * | 2013-04-23 | 2013-07-10 | 中国科学院计算技术研究所 | 一种查询纠错方法和*** |
CN106297797A (zh) * | 2016-07-26 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN106372107A (zh) * | 2016-08-19 | 2017-02-01 | 中兴通讯股份有限公司 | 自然语言文句库的生成方法及装置 |
CN106959977A (zh) * | 2016-01-12 | 2017-07-18 | 广州市动景计算机科技有限公司 | 文字输入中的候选集合计算方法及装置、文字纠错方法及装置 |
CN107832297A (zh) * | 2017-11-09 | 2018-03-23 | 电子科技大学 | 一种面向特征词粒度的领域情感词典构建方法 |
CN109002521A (zh) * | 2018-07-12 | 2018-12-14 | 北京猫眼文化传媒有限公司 | 搜索关键词的纠错方法、装置和存储介质 |
CN109635270A (zh) * | 2017-10-06 | 2019-04-16 | 声音猎手公司 | 双向概率性的自然语言重写和选择 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN111126045A (zh) * | 2019-11-25 | 2020-05-08 | 泰康保险集团股份有限公司 | 一种文本纠错方法和装置 |
CN111144100A (zh) * | 2019-12-24 | 2020-05-12 | 五八有限公司 | 一种问题文本识别方法、装置、电子设备及存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、***、设备及可读存储介质 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8331739B1 (en) * | 2009-01-21 | 2012-12-11 | Google Inc. | Efficient identification and correction of optical character recognition errors through learning in a multi-engine environment |
US8713433B1 (en) * | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
CN103678282B (zh) * | 2014-01-07 | 2016-05-25 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN107220639A (zh) * | 2017-04-14 | 2017-09-29 | 北京捷通华声科技股份有限公司 | Ocr识别结果的纠正方法和装置 |
CN107633250B (zh) * | 2017-09-11 | 2023-04-18 | 畅捷通信息技术股份有限公司 | 一种文字识别纠错方法、纠错***及计算机装置 |
CN109922371B (zh) * | 2019-03-11 | 2021-07-09 | 海信视像科技股份有限公司 | 自然语言处理方法、设备及存储介质 |
CN111046652A (zh) * | 2019-12-10 | 2020-04-21 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、文本纠错装置、存储介质和电子设备 |
CN111062376A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 基于光学字符识别与纠错紧耦合处理的文本识别方法 |
CN111310443B (zh) * | 2020-02-12 | 2023-08-18 | 新华智云科技有限公司 | 一种文本纠错方法和*** |
CN111460795B (zh) * | 2020-03-26 | 2023-05-26 | 云知声智能科技股份有限公司 | 一种文本纠错方法及*** |
CN111626049B (zh) * | 2020-05-27 | 2022-12-16 | 深圳市雅阅科技有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-16 CN CN202011484096.5A patent/CN112528980B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198149A (zh) * | 2013-04-23 | 2013-07-10 | 中国科学院计算技术研究所 | 一种查询纠错方法和*** |
CN106959977A (zh) * | 2016-01-12 | 2017-07-18 | 广州市动景计算机科技有限公司 | 文字输入中的候选集合计算方法及装置、文字纠错方法及装置 |
CN106297797A (zh) * | 2016-07-26 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN106372107A (zh) * | 2016-08-19 | 2017-02-01 | 中兴通讯股份有限公司 | 自然语言文句库的生成方法及装置 |
CN109635270A (zh) * | 2017-10-06 | 2019-04-16 | 声音猎手公司 | 双向概率性的自然语言重写和选择 |
CN107832297A (zh) * | 2017-11-09 | 2018-03-23 | 电子科技大学 | 一种面向特征词粒度的领域情感词典构建方法 |
CN109002521A (zh) * | 2018-07-12 | 2018-12-14 | 北京猫眼文化传媒有限公司 | 搜索关键词的纠错方法、装置和存储介质 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN111126045A (zh) * | 2019-11-25 | 2020-05-08 | 泰康保险集团股份有限公司 | 一种文本纠错方法和装置 |
CN111144100A (zh) * | 2019-12-24 | 2020-05-12 | 五八有限公司 | 一种问题文本识别方法、装置、电子设备及存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、***、设备及可读存储介质 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
Non-Patent Citations (5)
Title |
---|
Tree Kernel Engineering in Semantic Role Labeling Systems;Alessandro Moschitti等;《Proceedings of the workshop on Learning Structured Information in Natural Language Applications》;20061231;第49-56页 * |
基于几何约束的笔划宽度变换(SWT)算法及其字幕文本定位应用;袁俊淼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第(2016)02期);I138-1712 * |
基于统计模型的搜索引擎查询纠错***;沈健;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415(第(2018)04期);I138-3922 * |
基于自动纠错的最小编辑距离优化算法;欧晓聪;《网络安全技术与应用》;20191231;第44-48页 * |
基于贝叶斯纠错的AR辅助飞机装配数据纠错方法;肖文磊等;《航空制造技术》;20200315;第63卷(第06期);第14-22页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528980A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN110135414B (zh) | 语料库更新方法、装置、存储介质及终端 | |
CN108595410B (zh) | 手写作文的自动批改方法及装置 | |
Truong et al. | Improvement of end-to-end offline handwritten mathematical expression recognition by weakly supervised learning | |
CN114818668B (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
Bassil et al. | Ocr context-sensitive error correction based on *** web 1t 5-gram data set | |
CN113408535B (zh) | 一种基于中文字符级特征和语言模型的ocr纠错方法 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN114282527A (zh) | 多语言文本检测与纠错方法、***、电子设备及存储介质 | |
CN114255159A (zh) | 手写文本图像生成方法、装置、电子设备和存储介质 | |
CN111539414B (zh) | 一种ocr图像字符识别和字符校正的方法及*** | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN115661836A (zh) | 一种自动批改方法、装置、***及可读存储介质 | |
CN112528980B (zh) | Ocr识别结果纠正方法及其终端、*** | |
CN115017890A (zh) | 基于字音字形相似的文本纠错方法和装置 | |
CN112488111B (zh) | 一种基于多层级表达引导注意力网络的指示表达理解方法 | |
CN113903048A (zh) | 一种用于快递领域票据识别文本纠错方法 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
JP2011008784A (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN115358219A (zh) | 一种融合无监督学习和自监督学习的中文拼写纠错方法 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
Mohapatra et al. | Spell checker for OCR | |
Drobac | OCR and post-correction of historical newspapers and journals | |
CN114372467A (zh) | 命名实体抽取方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |