CN108664471B - 文字识别纠错方法、装置、设备及计算机可读存储介质 - Google Patents

文字识别纠错方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN108664471B
CN108664471B CN201810430989.8A CN201810430989A CN108664471B CN 108664471 B CN108664471 B CN 108664471B CN 201810430989 A CN201810430989 A CN 201810430989A CN 108664471 B CN108664471 B CN 108664471B
Authority
CN
China
Prior art keywords
file
error correction
target
phrase
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810430989.8A
Other languages
English (en)
Other versions
CN108664471A (zh
Inventor
张远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyin Technology Co ltd
Shenzhen Lian Intellectual Property Service Center
Original Assignee
Beijing Yiyin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiyin Technology Co ltd filed Critical Beijing Yiyin Technology Co ltd
Priority to CN201810430989.8A priority Critical patent/CN108664471B/zh
Publication of CN108664471A publication Critical patent/CN108664471A/zh
Application granted granted Critical
Publication of CN108664471B publication Critical patent/CN108664471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种文字识别纠错方法、装置、设备及计算机可读存储介质,所述方法包括:当接收到待纠错文件时,读取待纠错文件的扩展名,并根据扩展名确定待纠错文件的属性;判断待纠错文件的属性是否为只读文件,若待纠错文件的属性是只读文件,则对待纠错文件进行属性转换,生成可编辑文件;读取可编辑文件中的多个关键词,形成关键词组,并根据关键词组确定可编辑文件的目标文件类型;根据可编辑文件的文件类型与纠错库的预设映射关系,确定与目标文件类型对应的目标纠错库,并调用目标纠错库对可编辑文件纠错。本方案根据不同文件类型设定不同纠错库,使用与文件类型对应的目标纠错库进行纠错,可使纠错更为准确,提高纠错效率。

Description

文字识别纠错方法、装置、设备及计算机可读存储介质
技术领域
本发明主要涉及智能识别技术领域,具体地说,涉及一种文字识别纠错方法、装置、设备及计算机可读存储介质。
背景技术
目前很多场景需要将不可编辑文件(如PDF、图片)中的文字识别转换为可编辑文件,识别过程中对于相似的字可能难以区分而导致转换的文件中存在错别字,目前对转换后的错别字没有识别机制,也没有纠错机制;此外对于人工编辑文件中所存在的错别字,同样没有识别纠错机制,只能通过人工检查,费时费力。
发明内容
本发明的主要目的是提供一种文字识别纠错方法、装置、设备及计算机可读存储介质,旨在解决现有技术中对于文件中错别字没有识别纠错机制的问题。
为实现上述目的,本发明提供一种文字识别纠错方法,所述文字识别纠错方法包括以下步骤:
当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;
判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;
读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;
根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。
优选地,所述调用所述目标纠错库对所述可编辑文件纠错的步骤包括:
识别所述可编辑文件中的至少一个语句,并检测识别出的所述各语句中的连接词,按照所述连接词将所述各语句划分为多个待识别词组;
逐一将所述待识别词组与所述目标纠错库中各预设词组对比,判断所述目标纠错库中是否存在与所述待识别词组一致的预设词组;
若所述目标纠错库中不存在与所述待识别词组一致的预设词组,则获取所述目标纠错库中与所述待识别词组相似度最高的目标预设词组,并将所述待识别词组替换为所述目标预设词组。
优选地,所述将所述待识别词组替换为所述目标预设词组的步骤包括:
获取与当前待识别词组相邻的待识别词组,并将所述相邻的待识别词组与所述目标预设词组形成待识别语句,根据所述待识别语句判断所述目标预设词组与所述可编辑文件的语义情景匹配性;
若所述目标预设词组与所述可编辑文件匹配,则将所述待识别词组替换为所述目标预设词组。
优选地,所述根据所述关键词组确定所述可编辑文件的目标文件类型的步骤包括:
将所述关键词组和预设关键词组库对比,确定所述预设关键词组库中的目标关键词组,其中所述目标关键词组与所述关键词组的元素匹配率最高;
根据所述预设关键词组库中关键词组与文件类型的映射关系,确定与所述目标关键词组对应的目标文件类型,将所述对应的目标文件类型确定为所述可编辑文件的目标文件类型。
优选地,所述对所述待纠错文件进行属性转换,生成可编辑文件的步骤包括:
对所述待纠错文件进行扫描,根据所述待纠错文件中各文字之间的大小关系以及间隔关系确定所述待纠错文件中的标题和段落;
逐一扫描所述标题和所述段落中的文字,根据预设文字库对所述扫描的文字进行识别,并对所述识别的标题文字添加标题标识符;
将所述识别的标题文字和段落文字传输到预设编辑器中,生成所述可编辑文件。
优选的,所述读取所述可编辑文件中的多个关键词,形成关键词组的步骤包括:
读取所述可编辑文件中的词组,并统计所述各词组出现的频次,将所述频次大于预设值的词组作为所述关键词;
根据所述标题标识符获取所述标题中的词组,将所述标题中的词组与所述关键词一并形成关键词组。
优选地,所述调用所述目标纠错库对所述可编辑文件纠错的步骤之后包括:
将经纠错的所述可编辑文件输出,并在接收到对所述输出的可编辑文件的修正操作时,将与修正操作对应的修正词传输到所述目标纠错库中,以对所述目标纠错库更新。
此外,为实现上述目的,本发明还提出一种文字识别纠错装置,所述文字识别纠错装置包括:
读取模块,用于当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;
判断模块,用于判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;
确定模块,用于读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;
纠错模块,用于根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。
此外,为实现上述目的,本发明还提出一种文字识别纠错设备,所述文字识别纠错设备包括:存储器、处理器、通信总线以及存储在所述存储器上的文字识别纠错程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述文字识别纠错程序,以实现以下步骤:
当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;
判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;
读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;
根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;
判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;
读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;
根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。
本实施例的文字识别纠错方法,当接收到待纠错文件时,读取待纠错文件的扩展名,并根据所述扩展名确定待纠错文件的属性;判断待纠错文件的属性是否为只读文件,若待纠错文件的属性是只读文件,对待纠错文件进行属性转换,生成可编辑文件;读取可编辑文件中的多个关键词,形成关键词组,并根据关键词组确定可编辑文件的目标文件类型;根据可编辑文件的文件类型与纠错库的预设映射关系,确定与目标文件类型对应的目标纠错库,并调用所述目标纠错库对可编辑文件纠错。本方案对只读文件和非只读文件均可进行识别纠错,当待纠错文件为只读文件时,先将其转换为可编辑文件,根据可编辑文件中关键词组确定其文件类型,而调用与其文件类型对应的目标纠错库进行纠错。因不同文件类型属于不同行业具有特定的词组,从而根据不同文件类型设定不同纠错库,使用与文件类型对应的目标纠错库进行纠错,可使纠错更为准确,同时避免人工纠错,提高纠错效率。
附图说明
图1是本发明的文字识别纠错方法第一实施例的流程示意图;
图2是本发明的文字识别纠错方法第二实施例的流程示意图;
图3是本发明的文字识别纠错装置第一实施例的功能模块示意图;
图4是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文字识别纠错方法。
请参照图1,图1为本发明文字识别纠错方法第一实施例的流程示意图。在本实施例中,所述文字识别纠错方法包括:
步骤S10,当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;
本发明的文字识别纠错方法应用于***服务器,适用于对电子文件中的错别字进行识别纠正。电子文件可以是诸如PDF、图片此类的只读文件,也可以是word、EXCEL之类的可编辑文件,将此类需要进行纠错的电子文件作为待纠错文件。因只读文件和可编辑文件之间所具有的不能进行修改和可以进行修改的差异性,在对两者其中的错别字进行识别纠错时,需要根据两者的差异性进行。不同类型的文件具有不用的扩展名,当接收到待纠错文件时,读取待纠错文件的扩展名,根据读取的扩展名确定待纠错文件的属性。此待纠错文件的属性即表征待纠错文件属于只读文件还是属于可编辑文件,为了根据扩展名确定属性,预先设置有只读扩展名库和可编辑扩展名库。其中只读扩展名库包括各种只读类型文件所具有的扩展名,如只读扩展名库{pdf、jpg、png、bmp};可编辑扩展名库包括各种可编辑类型文件所具有的扩展名,如可编辑扩展名库{doc、txt、xls、ppt}。在读取待纠错文件的扩展名后,判断此扩展名存在于只读扩展名库还是存在于可编辑扩展名库中。若存在于只读扩展名库中,则可确定待纠错文件的属性为只读文件,而若存在于可编辑扩展名库中,则可确定待纠错文件的属性为可编辑文件。
步骤S20,判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;
进一步地,因只读文件具有不可编辑的特性,对于识别的错别字不能进行纠正,需要先对其进行转换,将其转换为可编辑文件。从而在确定待纠错文件的属性之后,判断待纠错文件的属性是否为只读文件,若待纠错文件的属性为只读文件,则对待纠错文件进行属性转换,将只读的待纠错文件转换为可编辑的待纠错文件。转换时对待纠错文件中的文字进行识别,并从文字库中获得识别的文字,将此识别的文字传输到文字编辑器中,生成可编辑文件。而对于判断出待纠错文件的属性不是只读文件,即其本身为可编辑文件时,则不需要对其进行属性转换,直接对可编辑文件进行错别字识别纠正。
步骤S30,读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;
可理解地,不同行业领域的文件具有其特性词组,如法律领域中的“起诉”、“上诉”、“被告”、“原告”等词组,金融行业中的“债券”、“融资”、“储蓄”、“贷款”等词组;在错别字识别时,将此各种类型的词组、句子形成纠错库,通过纠错库进行识别。如果对所有行业的不同类型文件均采用同一纠错库进行错别字识别纠正,同一纠错库中包括大量的词组、句子,对所识别的文件带来很多噪音,降低了识别效率。为了对不同行业领域的文件进行针对性的识别,本实施例按照行业领域对文件类型进行分类,且针对不同类型的文件设置对应的纠错库,使用某一行业领域的纠错库对此行业类型的文件进行纠错,提高了纠错效率。在生成可编辑文件后,为了使用其对应的纠错库进行纠错,需要确定其所属的文件类型。因文件类型根据行业领域区分,对于属于某一行业领域的文件,其携带有与此行业领域相关的关键词,如上述法律领域中的“起诉”、“上诉”、“被告”、“原告”等。从而可通过读取文件中所携带的多个关键词,形成关键词组,通过此包含多个关键词的关键词组确定文件所属的行业领域,进而确定可编辑文件所属的目标文件类型。
步骤S40,根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。
更进一步地,因不同类型的可编辑文件设置有对应的纠错库,即可编辑文件的文件类型与纠错库之间预先设置有映射关系,一种文件类型与一个纠错库对应。预设映射关系可以为key_value键值对,将文件类型作为键key,纠错库作为值value。在确定可编辑文件的目标文件类型后,根据此预设映射关系可确定与目标文件类型对应的目标纠错库,通过作为key的目标文件类型查询作为value的目标纠错库,并调用目标纠错库实现对可编辑文件的纠错。具体地,纠错的步骤包括:
步骤S41,识别所述可编辑文件中的至少一个语句,并检测识别出的所述各语句中的连接词,按照所述连接词将所述各语句划分为多个待识别词组;
可理解地,可编辑文件中包括多条语句,在对可编辑文件进行纠错识别时,先识别可编辑文件中的至少一个语句,设定各种类型的标点符号作为识别标识符,检测可编辑文件中的识别标识符,并将两个识别标识符之间的内容作为可编辑文件中的一条语句。如设定识别标识符包括元素{,、。;“”:},当检测可编辑文件中的“,”时,继续检测,直到检测到识别标识符中的下一个任意元素,此元素与“,”之间的内容即为可编辑文件中的语句。在识别可编辑文件中的至少一个语句后,进一步对语句中的内容进行划分,设定划分连接词,检测识别出的各语句中的连接词,按照连接词将语句划分为多个待识别词组。其中连接词包括但不限于:和、跟、与、既、同、及、而、并、则、乃、就、而、的、地、便、于是、然后、至于、此外、像、如、一般、却、虽然、但是、然而、只是、不过、致、因为、由、以、或、亦、若、假如、除非等。当检测到所识别语句中包括任意一个连接词时,继续检测,直到检测到语句中的下一个任意连接词,此两个连接词之间的词组即为待识别词组。若继续检测没有检测到连接词,即语句中仅检测到一个连接词,则将此语句划分为两个待识别词组,以便后续对此划分的待识别词组进行识别。
步骤S42,逐一将所述待识别词组与所述目标纠错库中各预设词组对比,判断所述目标纠错库中是否存在与所述待识别词组一致的预设词组;
进一步地,目标纠错库中设置有多个与可编辑文件类型所属的行业领域对应的预设词组,在将可编辑文件划分为多个待识别词组后,将待识别词组与预设词组对比,判断目标纠错库中是否存在与待识别词组对应的预设词组。因预设词组表征的是此类文件所属行业领域中准确词汇,若存在与待识别词组对应的预设词组,则说明待识别词组是正确的,不需要进行纠错。
步骤S43,若所述目标纠错库中不存在与所述待识别词组一致的预设词组,则获取所述目标纠错库中与所述待识别词组相似度最高的目标预设词组,并将所述待识别词组替换为所述目标预设词组。
而若目标纠错库中不存在与待识别词组一致的预设词组,则说明待识别词组可能为错别词组,需要对其进行纠正。纠正时获取目标纠错库中与待识别词组相似度最高的目标预设词组,其中相似度包括字体形状相似和语义相似两个方面,形状相似表示待识别词组最可能所具有的词组形状,而语义相似则表示结合语义此待识别词组最有可能所具有的语义。当预设词组的字体形状和语义均和待识别词组的相似度最高,则说明此预设词组最可能为待识别词组的正确词组,从而可将待识别词组替换为目标预设词组。替换之前需要确定目标预设词组的语义匹配性,语义匹配才进行替换,具体的步骤包括:
步骤S431,获取与当前待识别词组相邻的待识别词组,并将所述相邻的待识别词组与所述目标预设词组形成待识别语句,根据所述待识别语句判断所述目标预设词组与所述可编辑文件的语义情景匹配性;
可理解地,对于同一类型文件,其表征的语义情景具有一致性,当前的待识别词组与其前后相邻的待识别词组所形成的语句与可编辑文件的语义情景一致。获取与当前待识别词组前后所相邻的待识别词组,因待识别词组在划分时,按照连接词进行划分,从而将目标预设词组放在前后相邻的待识别词组中后,添加划分的连接词形成待识别语句。根据所形成待识别语句与可编辑文件的语义情景的一致性,判断目标预设词组与可编辑文件的语义情景的匹配性。如对于语句“公司的合法权益受法侓保护”,在划分时识别出连接词“的”和“受”,而得到的待识别词组为“公司”、“合法权益”和“法侓保护”。当前的待识别词组“法侓保护”,不存在预设词组与其对应,从目标纠错库中获取其形状相似度最高的目标预设词组“法律保护”,在对此目标预设词组进行语义匹配时,获取其前后相邻的待识别词组“合法权益”,将当前待识别词组“法律保护”添加到相邻的待识别词组“合法权益”,结合划分的连接词“受”形成待识别语句“合法权益受法律保护”。根据此待识别语句与可编辑文件的语义情景的一致性,判断目标预设词组“法律保护”与可编辑文件的语义情景匹配性。
步骤S432,若所述目标预设词组与可所述编辑文件匹配,则将所述换待识别词组组替为目标预设词。
若待识别语句与可编辑文件的语义情景一致,则说明目标预设词组与可编辑文件匹配,而用目标预设词组对待识别词组进行替换,以对存在错别字的待识别词组进行纠错处理,将其纠正为目标预设词组。通过形状和语义两方面确定与待识别词组对应的目标预设词组,可确保所替换目标预设词组的正确性。
本实施例的文字识别纠错方法,当接收到待纠错文件时,读取待纠错文件的扩展名,并根据所述扩展名确定待纠错文件的属性;判断待纠错文件的属性是否为只读文件,若待纠错文件的属性是只读文件,对待纠错文件进行属性转换,生成可编辑文件;读取可编辑文件中的多个关键词,形成关键词组,并根据关键词组确定可编辑文件的目标文件类型;根据可编辑文件的文件类型与纠错库的预设映射关系,确定与目标文件类型对应的目标纠错库,并调用所述目标纠错库对可编辑文件纠错。本方案对只读文件和非只读文件均可进行识别纠错,当待纠错文件为只读文件时,先将其转换为可编辑文件,根据可编辑文件中关键词组确定其文件类型,而调用与其文件类型对应的目标纠错库进行纠错。因不同文件类型属于不同行业具有特定的词组,从而根据不同文件类型设定不同纠错库,使用与文件类型对应的目标纠错库进行纠错,可使纠错更为准确,同时避免人工纠错,提高纠错效率。
进一步地,在本发明的文字识别纠错方法的另一实施例中,所述根据关键词组确定所述可编辑文件的目标文件类型的步骤包括:
步骤S31,将所述关键词组和预设关键词组库对比,确定所述预设关键词组库中的目标关键词组,其中所述目标关键词组与所述关键词组的元素匹配率最高;
可理解地,不同行业领域的文件具有不同的关键词,为了根据关键词组确定可编辑文件的目标文件类型,本实施例设置有预设关键词组库,此预设关键词组库为预先设置包括多个行业领域的关键词组。如预设关键词组库[A、B、C],即预设关键词组库包括三项关键词组A、B、C,其中关键词组A包括关键词a1、a2、a3、b1和c1,关键词组B包括关键词a1、b1、b2、b3和c1,关键词组C包括关键词a1、b1、c1、c2和c3。在将多个关键词形成关键词组库之后,将关键词组和预设关键词组库对比,确定预设关键词组库中与关键词组对应的目标关键词组,此目标关键词组与关键词组的元素匹配率最高。其中元素匹配率最高的实际为两则之间的关键词匹配数量最多。将关键词组中的各关键词与预设关键词组库中各关键词组所具有的关键词对比,确定预设关键词组库中有最多数量的相同关键词的关键词组。如形成关键词组的多个关键词分别为a1、a2、b1和d1,因其与关键词组A所具有相同关键词的数量最多,从而将此关键词组A确定为目标关键词组,其与可编辑文件的关键词组的元素匹配率最高。
步骤S32,根据所述预设关键词组库中关键词组与文件类型的映射关系,确定与所述目标关键词组对应的目标文件类型,将所述对应的目标文件类型确定为所述可编辑文件的目标文件类型。
进一步地,预设关键词组库中设置有各关键词组与文件类型的映射关系,如上述包括三项关键词组A、B、C的预设关键词组库,三项关键词组分别映射文件类型a、b、c。从而在确定预设关键词组库中的目标关键词组后,根据预设关键词组库中的映射关系,即可确定与目标关键词组对应的目标文件类型。如上述在确定关键词组A为目标关键词组后,因目标关键词组A在预设关键词组库中与其映射的文件类型为a,从而将a确定为与目标关键词组对应的目标文件类型。此与目标关键词对应的目标文件类型即为可编辑文件的目标文件类型,从而实现根据关键词组确定可编辑文件的目标文件类型。
进一步地,在本发明的文字识别纠错方法的另一实施例中,所述对所述待纠错文件进行属性转换,生成可编辑文件的步骤包括:
步骤S21,对所述待纠错文件进行扫描,根据所述待纠错文件中各文字之间的大小关系以及间隔关系确定所述待纠错文件中的标题和段落;
进一步地,考虑到文件中通常包括标题和段落,且标题和段落之间的文字大小和文字间隔不一样,其中标题的文字大于段落的文字,标题和段落之间的文字间隔大于标题中和段落中的文字间隔。从而在对属性为只读文件的待纠错文件进行属性转换时,先对待纠错文件进行扫描,根据扫描所得到的待纠错文件中各文字之间的大小关系以及间隔关系确定其中的标题和段落。具体地,当扫描到文字变小,或者文字之间的间隔变大时,则判定此前所扫描的内容为标题;或者文字由小变大后再变小,而文字之间的间隔先有小变大,再变大变小,则判定扫描从段落到标题再到段落。实现通过所扫描文字的大小以及文字之间间隔的变化,对待纠错文件中的标题和段落进行区分。
步骤S22,逐一扫描所述标题和所述段落中的文字,根据预设文字库对所述扫描的文字进行识别,并对所述识别的标题文字添加标题标识符;
本实施例为了将只读的待纠错文件转换为可编辑文件,设置有预设文字库,预设文字库为预先设置,其中包括各种文字。在确定待纠错文件中的标题和段落后,逐个对标题和段落中的文字进行扫描,并将扫描所得的文字和预设文字库中的各文字进行对比,以对所扫描的文字进行识别。其中对于识别的标题文字添加标题标识符,以进行标题文字和段落文字的区分。
步骤S23,将所述识别的标题文字和段落文字传输到预设编辑器中,生成所述可编辑文件。
进一步地,在根据预设文字库对扫描的标题文字和段落文字进行识别后,将识别的标题文字和段落文字传输到预设编辑器中,此预设编辑器为预先设置为进行文字编辑的工具,如word文档、wps文档等,将识别的文字传输到预设编辑器中进行编辑,即可生成可编辑文件。
进一步地,在本发明的文字识别纠错方法的另一实施例中,所述读取可编辑文件中的多个关键词,形成关键词组的步骤包括:
步骤S33,读取所述可编辑文件中的词组,并统计所述各词组出现的频次,将所述频次大于预设值的词组作为所述关键词;
进一步地,为了使由多个关键词所形成的关键词组能够体现可编辑文件所属的行业领域类型,所读取的关键词应该为可编辑文件中所出现次数较多的词组,由此出现次数较多的词组所属的行业领域来确定可编辑文件的类型。从而读取可编辑文件中的词组,并统计个词组所出现的频次,频次越多越能反应可编辑文件的类型。此外考虑到连接词具有普适性,在任何行业领域都通用,而不能体现可编辑文件的类型,从而在统计时将连接词排除。为了更准确的体现可编辑文件的类型,设置预设值,只有当个词组所出现的频次大于预设值时,才将此词组作为关键词,以通过此出现频次多的词组所属行业领域反应可编辑文件的类型。
步骤S34,根据所述标题标识符获取所述标题中的词组,将所述标题中的词组与所述关键词一并形成关键词组。
可理解地,考虑到文件中的标题内容或者标题类型可反应文件类型,如标题内容为“劳动合同”可反应出文件类型为法律行业的文件;而标题类型包括“权利要求书”“说明书”之类的则可反应出文件类型为专利行业的文件。从而将可编辑文件中频次大于预设值的词组作为关键词后,还获取标题中的词组。因对标题文字添加有标题标识符,根据标题标识符可确定标题文字,而获取其中的词组。将标题中的词组和关键词一并形成关键词组,以更准确的反应可编辑文件的类型。
进一步地,请参照图2,在本发明文字识别纠错方法第一实施例的基础上,提出本发明文字识别纠错方法第二实施例,在第二实施例中,所述调用所述目标纠错库对所述可编辑文件纠错的步骤之后包括:
步骤S50,将经纠错的所述可编辑文件输出,并在接收到对所述输出的可编辑文件的修正操作时,将与修正操作对应的修正词传输到所述目标纠错库中,以对所述目标纠错库更新。
进一步地,在调用目标纠错库对可编辑文件中的错别字进行纠错之后,将此经过纠错的可编辑文件输出,输出到与***服务器连接的终端所具有的界面显示。对可编辑文件的纠错结果进行监控的监控人员对此显示界面显示的可编辑文件进行检测,查看其纠错结果的正确性,若经检测纠错结果正确,则说明目标纠错库中的纠错功能适用于当前的可编辑文件;而当检测出纠错结果不正确,则说明目标纠错库中的纠错功能不适用于当前的可编辑文件,需要对目标纠错库进行更新。对于纠错结果不正确的部分,监控人员会进行修正操作,输入正确的修正词对可编辑文件中不正确的部分进行修正。从而在接收到此对输出的可编辑文件的修正操作时,将此与修正操作对应的修正词传输到目标纠错库中,对目标纠错库进行更新。后续再通过目标纠错库进行可编辑文件的纠错时,则调用此经更新的目标纠错库,即包含有正确修正词的目标纠错库进行纠错,通过反复修正过程,提高纠错的正确性。
此外,请参照图3,本发明提供一种文字识别纠错装置,在本发明文字识别纠错装置第一实施例中,所述文字识别纠错装置包括:
读取模块10,用于当接收到待纠错文件时,读取所述待纠错文件的扩展名,并根据所述扩展名确定所述待纠错文件的属性;
判断模块20,用于判断所述待纠错文件的属性是否为只读文件,若所述待纠错文件的属性是只读文件,则对所述待纠错文件进行属性转换,生成可编辑文件;
确定模块30,用于读取所述可编辑文件中的多个关键词,形成关键词组,并根据所述关键词组确定所述可编辑文件的目标文件类型;
纠错模块40,用于根据可编辑文件的文件类型与纠错库的预设映射关系,确定与所述目标文件类型对应的目标纠错库,并调用所述目标纠错库对所述可编辑文件纠错。
本实施例的文字识别纠错装置,当接收到待纠错文件时,读取模块10读取待纠错文件的扩展名,并根据所述扩展名确定待纠错文件的属性;判断模块20判断待纠错文件的属性是否为只读文件,若待纠错文件的属性是只读文件,对待纠错文件进行属性转换,生成可编辑文件;确定模块30读取可编辑文件中的多个关键词,形成关键词组,并根据关键词组确定可编辑文件的目标文件类型;纠错模块40根据可编辑文件的文件类型与纠错库的预设映射关系,确定与目标文件类型对应的目标纠错库,并调用所述目标纠错库对可编辑文件纠错。本方案对只读文件和非只读文件均可进行识别纠错,当待纠错文件为只读文件时,先将其转换为可编辑文件,根据可编辑文件中关键词组确定其文件类型,而调用与其文件类型对应的目标纠错库进行纠错。因不同文件类型属于不同行业具有特定的词组,从而根据不同文件类型设定不同纠错库,使用与文件类型对应的目标纠错库进行纠错,可使纠错更为准确,同时避免人工纠错,提高纠错效率。
其中,上文字识别纠错装置的各虚拟功能模块存储于图4所示文字识别纠错设备的存储器1005中,处理器1001执行文字识别纠错程序时,实现图3所示实施例中各个模块的功能。
参照图4,图4是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明实施例文字识别纠错设备可以是PC(personal computer,个人计算机),也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。
如图4所示,该文字识别纠错设备可以包括:处理器1001,例如CPU(CentralProcessing Unit,中央处理器),存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM(random accessmemory,随机存取存储器),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该文字识别纠错设备还可以包括用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi(Wireless Fidelity,无线宽带)模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图4中示出的文字识别纠错设备结构并不构成对文字识别纠错设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及文字识别纠错程序。操作***是管理和控制文字识别纠错设备硬件和软件资源的程序,支持文字识别纠错程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与文字识别纠错设备中其它硬件和软件之间通信。
在图4所示的文字识别纠错设备中,处理器1001用于执行存储器1005中存储的文字识别纠错程序,实现上述文字识别纠错方法各实施例中的步骤。
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述文字识别纠错方法各实施例中的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (8)

1.一种文字识别纠错方法,其特征在于,所述文字识别纠错方法包括以下步骤:
当接收到待纠错文件时,读取待纠错文件的扩展名,并根据所述扩展名确定待纠错文件的属性;
判断待纠错文件的属性是否为只读文件,若待纠错文件的属性是只读文件,对待纠错文件进行属性转换,生成可编辑文件;
读取可编辑文件中的多个关键词,形成关键词组,并根据关键词组确定可编辑文件的目标文件类型;
根据各可编辑文件类型与纠错库的预设映射关系,确定与目标文件类型对应的目标纠错库,并调用所述目标纠错库对可编辑文件纠错;
所述对待纠错文件进行属性转换,生成可编辑文件的步骤包括:
对待纠错文件进行扫描,根据待纠错文件中各文字之间的大小关系以及间隔关系确定待纠错文件中的标题和段落;
逐一扫描标题和段落中的文字,根据预设文字库对所扫描的文字进行识别,并对识别的标题文字添加标题标识符;
将所识别的标题文字和段落文字传输到预设编辑器中,生成可编辑文件;
所述读取可编辑文件中的多个关键词,形成关键词组的步骤包括:
读取可编辑文件中的词组,并统计各词组所出现的频次,将频次大于预设值的词组作为关键词;
根据标题标识符获取标题中的词组,将标题中的词组与关键词一并形成关键词组,其中,文件中的标题内容或者标题类型反映文件类型。
2.如权利要求1所述的文字识别纠错方法,其特征在于,调用目标纠错库对可编辑文件纠错的步骤包括:
识别可编辑文件中的语句,并检测各语句中的连接词,按照连接词将语句划分为多个待识别词组;
逐一将待识别词组与目标纠错库中各预设词组对比,判断目标纠错库中是否存在与待识别词组一致的预设词组;
若目标纠错库中不存在与待识别词组一致的预设词组,获取目标纠错库中与待识别词组相似度最高的目标预设词组,并用所述目标预设词组替换待识别词组。
3.如权利要求2所述的文字识别纠错方法,其特征在于,所述用所述目标预设词组替换待识别词组的步骤包括:
获取与当前待识别词组相邻的待识别词组,并将相邻的待识别词组与目标预设词组形成待识别语句,根据待识别语句判断目标预设词组与可编辑文件的语义情景匹配性;
若目标预设词组与可编辑文件匹配,则用目标预设词组替换待识别词组。
4.如权利要求1所述的文字识别纠错方法,其特征在于,所述根据关键词组确定可编辑文件的目标文件类型的步骤包括:
将关键词组和预设关键词组库对比,确定预设关键词组库中的目标关键词组,其中目标关键词组与关键词组的元素匹配率最高;
根据预设关键词组库中关键词组与文件类型的映射关系,确定与目标关键词组对应的目标文件类型,将所述对应的目标文件类型确定为可编辑文件的目标文件类型。
5.如权利要求1-4任一项所述的文字识别纠错方法,其特征在于,所述调用所述目标纠错库对可编辑文件纠错的步骤之后包括:
将经纠错的可编辑文件输出,并在接收到对输出的可编辑文件的修正操作时,将与修正操作对应的修正词传输到目标纠错库中,以对目标纠错库更新。
6.一种文字识别纠错装置,其特征在于,所述文字识别纠错装置包括:
读取模块,用于当接收到待纠错文件时,读取待纠错文件的扩展名,并根据所述扩展名确定待纠错文件的属性;
判断模块,用于判断待纠错文件的属性是否为只读文件,若待纠错文件的属性是只读文件,对待纠错文件进行属性转换,生成可编辑文件;
确定模块,用于读取可编辑文件中的多个关键词,形成关键词组,并根据关键词组确定可编辑文件的目标文件类型;
纠错模块,用于根据各可编辑文件类型与纠错库的预设映射关系,确定与目标文件类型对应的目标纠错库,并调用所述目标纠错库对可编辑文件纠错;
所述判断模块用于实现:对待纠错文件进行扫描,根据待纠错文件中各文字之间的大小关系以及间隔关系确定待纠错文件中的标题和段落;逐一扫描标题和段落中的文字,根据预设文字库对所扫描的文字进行识别,并对识别的标题文字添加标题标识符;将所识别的标题文字和段落文字传输到预设编辑器中,生成可编辑文件;
所述判断模块还用于实现:读取可编辑文件中的词组,并统计各词组所出现的频次,将频次大于预设值的词组作为关键词;根据标题标识符获取标题中的词组,将标题中的词组与关键词一并形成关键词组,其中,文件中的标题内容或者标题类型反映文件类型。
7.一种文字识别纠错设备,其特征在于,所述文字识别纠错设备包括:存储器、处理器、通信总线以及存储在所述存储器上的文字识别纠错程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述文字识别纠错程序,以实现如权利要求1-5中任一项所述的文字识别纠错方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文字识别纠错程序,所述文字识别纠错程序被处理器执行时实现如权利要求1-5中任一项所述的文字识别纠错方法的步骤。
CN201810430989.8A 2018-05-07 2018-05-07 文字识别纠错方法、装置、设备及计算机可读存储介质 Active CN108664471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810430989.8A CN108664471B (zh) 2018-05-07 2018-05-07 文字识别纠错方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810430989.8A CN108664471B (zh) 2018-05-07 2018-05-07 文字识别纠错方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108664471A CN108664471A (zh) 2018-10-16
CN108664471B true CN108664471B (zh) 2024-01-23

Family

ID=63778807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810430989.8A Active CN108664471B (zh) 2018-05-07 2018-05-07 文字识别纠错方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108664471B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147791A (zh) * 2019-05-20 2019-08-20 上海联影医疗科技有限公司 文字识别方法、装置、设备及存储介质
CN111079417A (zh) * 2019-12-17 2020-04-28 米哈游科技(上海)有限公司 一种错别字检查方法、装置、服务器及存储介质
CN111310473A (zh) * 2020-02-04 2020-06-19 四川无声信息技术有限公司 文本纠错方法及其模型训练的方法、装置
CN111639566A (zh) * 2020-05-19 2020-09-08 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN106991416A (zh) * 2017-03-14 2017-07-28 浙江大学 一种基于手动拍照的化验单识别方法
CN107633250A (zh) * 2017-09-11 2018-01-26 畅捷通信息技术股份有限公司 一种文字识别纠错方法、纠错***及计算机装置
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN107818289A (zh) * 2016-09-13 2018-03-20 北京搜狗科技发展有限公司 一种药方识别方法和装置、一种用于药方识别的装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN107818289A (zh) * 2016-09-13 2018-03-20 北京搜狗科技发展有限公司 一种药方识别方法和装置、一种用于药方识别的装置
CN106991416A (zh) * 2017-03-14 2017-07-28 浙江大学 一种基于手动拍照的化验单识别方法
CN107633250A (zh) * 2017-09-11 2018-01-26 畅捷通信息技术股份有限公司 一种文字识别纠错方法、纠错***及计算机装置
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Also Published As

Publication number Publication date
CN108664471A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN108563768B (zh) 不同数据模型的数据转换方法、装置、设备及存储介质
CN110990010A (zh) 一种软件界面代码的生成方法及装置
CN113627168A (zh) 一种元器件封装冲突的检查方法、装置、介质及设备
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
CN113657088A (zh) 接口文档解析方法、装置、电子设备以及存储介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN109189372B (zh) 保险产品的开发脚本生成方法及终端设备
CN113283231B (zh) 获取签章位的方法、设置***、签章***及存储介质
CN111126058A (zh) 文本信息自动抽取方法、装置、可读存储介质和电子设备
CN113342954A (zh) 一种应用于问答***的图像信息处理方法、装置及电子设备
CN112464927B (zh) 一种信息提取方法、装置及***
CN111492364B (zh) 数据标注方法、装置及存储介质
US11475068B2 (en) Automatic question answering method and apparatus, storage medium and server
CN117033309A (zh) 一种数据转换方法、装置、电子设备及可读存储介质
CN115858776B (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
CN114743012B (zh) 一种文本识别方法及装置
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN114818716A (zh) 一种风险主体的识别方法、装置、存储介质及设备
CN113886748A (zh) 网页内容的编辑信息生成、信息输出方法、装置及设备
CN114238689A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113220949A (zh) 一种隐私数据识别***的构建方法及装置
CN111695031A (zh) 基于标签的搜索方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231229

Address after: Room 1104, 11th Floor, Building 16, No. 6 Wenhuayuan West Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing, 100000

Applicant after: Beijing Yiyin Technology Co.,Ltd.

Address before: 518000 Room 202, block B, aerospace micromotor building, No.7, Langshan No.2 Road, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen LIAN intellectual property service center

Effective date of registration: 20231229

Address after: 518000 Room 202, block B, aerospace micromotor building, No.7, Langshan No.2 Road, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen LIAN intellectual property service center

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: PING AN PUHUI ENTERPRISE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant