CN113343678A - 一种文本纠错的方法、装置、电子设备及存储介质 - Google Patents

一种文本纠错的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113343678A
CN113343678A CN202110711749.7A CN202110711749A CN113343678A CN 113343678 A CN113343678 A CN 113343678A CN 202110711749 A CN202110711749 A CN 202110711749A CN 113343678 A CN113343678 A CN 113343678A
Authority
CN
China
Prior art keywords
text
corrected
error correction
content
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110711749.7A
Other languages
English (en)
Inventor
詹明捷
梁鼎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202110711749.7A priority Critical patent/CN113343678A/zh
Publication of CN113343678A publication Critical patent/CN113343678A/zh
Priority to PCT/CN2021/134638 priority patent/WO2022267353A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种文本纠错的方法、装置、电子设备及存储介质,其中,该方法包括:获取待纠错文本内容;基于训练的文本纠错网络对待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;其中,文本纠错网络为基于生成的错误语句样本训练得到的,错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。本公开中的文本纠错网络可以学习到错误语句与正确语句之间的转换关系,进而可以指导待纠错文本内容的快速纠错,纠错效率较高。

Description

一种文本纠错的方法、装置、电子设备及存储介质
技术领域
本公开涉及信息处理技术领域,具体而言,涉及一种文本纠错的方法、装置、电子设备及存储介质。
背景技术
随着科技的不断发展,文字识别技术,尤其是光学字符识别(Optical CharacterRecognition,OCR)技术,得到了越来越广泛的应用。OCR识别技术可以从图像中识别出文本内容。然而,由于受到诸如书写字体、外界环境等各方面的影响,导致识别出来的文本内容会出现错字。
文本纠错即是对文本中的错字进行修正的过程。相关技术中可采用人工方式进行修正,这将耗费相关人员的大量时间,纠错效率较低。
发明内容
本公开实施例至少提供一种文本纠错的方法、装置、电子设备及存储介质,以提高纠错效率。
第一方面,本公开实施例提供了一种文本纠错的方法,所述方法包括:
获取待纠错文本内容;
基于训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;
其中,所述文本纠错网络为基于生成的错误语句样本训练得到的,所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
采用上述文本纠错的方法,在获取到待纠错文本内容的情况下,可以基于训练的文本纠错网络对待纠错文本内容进行多维度文本纠错,以得到纠错后的文本内容。由于这里的文本纠错网络是基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的错误语句样本训练得到的,这样,该文本纠错网络可以学习到错误语句与正确语句之间的转换关系,进而可以指导待纠错文本内容的快速纠错,且纠错效率较高。
在一种可能的实施方式中,按照如下步骤训练所述文本纠错网络:
获取正确语句样本以及对所述正确语句样本进行文本破坏得到的错误语句样本;所述错误语句样本与所述正确语句样本之间至少存在一个不同的字符;
将所述错误语句样本作为待训练的文本纠错网络的输入数据,得到输出结果,并将所述错误语句样本对应的正确语句样本作为所述错误语句样本的标签,对所述待训练的文本纠错网络进行至少一轮训练,得到训练好的文本纠错网络。
这里,通过标签与输出结果之间的比对结果实现文本纠错网络的训练,直至输出结果指向的是正确语句样本的情况下,说明达到训练目的,也即,训练得到了错误语句与正确语句之间的转换关系,训练得到的文本纠错网络的纠错准确度也较高。
在一种可能的实施方式中,按照如下步骤获取所述错误语句样本:
获取预设的候选字符表;所述候选字符表包括有多个候选字符、以及与每个所述候选字符对应的字音相似字符和字形相似字符;
基于获取的所述候选字符表对所述正确语句样本进行文本破坏,得到所述错误语句样本。
这里,可以基于候选字符对应的字音相似字符以及字形相似字符实现对正确语句样本的文本破坏,从而能够在文本纠错阶段可以就字音维度以及字形维度等多个维度进行纠错,提升纠错的准确度。
在一种可能的实施方式中,所述基于获取的所述候选字符表对所述正确语句样本进行文本破坏,得到所述错误语句样本,包括:
对所述正确语句样本进行切分处理,得到多个分词;
针对所述多个分词中的第一分词,从所述候选字符表中查找与所述第一分词匹配的候选字符,并利用查找到的所述候选字符对应的字音相似字符或字形相似字符对所述第一分词进行替换,得到替换结果;
基于所述替换结果,确定针对所述正确语句样本进行文本破坏得到的所述错误语句样本。
这里,可以在切分处理的基础之上,基于字音相似字符或字形相似字符的替换操作实现文本破坏,这样所破坏得到的错误语句样本与正确语句样本存在一定程度上的相似性,基于这种相似性所训练出来的文本纠错网络可以很好的进行纠错。
在一种可能的实施方式中,所述获取待纠错文本内容,包括:
接收客户端上传的待核验内容,所述待核验内容的类型包括文本和图像中的至少一项,所述待核验内容包括待纠错文本内容。
在一种可能的实施方式中,
在所述待核验内容包括文本的情况下,所述待纠错文本内容包括所述文本中的字符或字符串;和/或,
在所述待核验内容包括图像的情况下,所述待纠错文本内容包括利用文字识别方式从所述图像中识别出的文本中的字符或字符串。
在一种可能的实施方式中,在所述得到纠错后的文本内容之后,所述方法还包括:
向所述客户端返回纠错提示信息;所述纠错提示信息用于指示所述待核验内容中所述待纠错文本内容对应的待纠错位置。
这里,在确定纠错后的文本内容的情况下,可以基于纠错提示信息的呈现,向用户提示待纠错位置,便于用户了解具体的纠错位置,以便及时修正。
在一种可能的实施方式中,所述纠错提示信息还用于提供与所述待纠错文本内容中错误文本内容对应的参考文本内容,所述方法还包括:
响应针对所述待纠错位置的触发指令,展示纠错后的参考文本内容。
这里,可以进行相关纠错后的参考文本内容的展示,用户则可以基于展示内容选取想要的纠错文本内容,无需用户手动输入,省时省力。
在一种可能的实施方式中,所述展示纠错后的参考文本内容,包括:
在所述待纠错位置对应的纠错后位置处,以预设显示特效展示所述纠错后的参考文本内容;
或者,利用所述纠错后的参考文本内容替换所述待纠错文本内容,并在所述待纠错位置处展示所述纠错后的参考文本内容;
或者,分屏展示所述待纠错文本内容和所述纠错后的参考文本内容。
在一种可能的实施方式中,所述文本包括多篇文章;所述方法还包括:
基于预设时间段内,针对所述多篇文章中每篇文章产生的纠错提示信息,确定所述客户端的纠错历史信息;所述纠错历史信息包括单篇文章中的纠错次数、多篇文章中的纠错总次数、产生同一错误的不同文章所对应的待纠错文本内容及所述待纠错文本内容所属文本类型中的至少一种;
根据所述纠错历史信息,确定针对所述客户端的绩效考核结果。
第二方面,本公开实施例还提供了一种文本纠错的装置,所述装置包括:
获取模块,用于获取待纠错文本内容;
纠错模块,用于基于训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;
其中,所述文本纠错网络为基于生成的错误语句样本训练得到的,所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
第三方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的文本纠错的方法的步骤。
第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的文本纠错的方法的步骤。
关于上述文本纠错的装置、电子设备、及计算机可读存储介质的效果描述参见上述文本纠错的方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种文本纠错的方法的流程图;
图2示出了本公开实施例所提供的一种文本纠错的装置的示意图;
图3示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,文本纠错即是对文本中的错字进行修正的过程。相关技术中可采用人工方式进行修正,这将耗费相关人员的大量时间,纠错效率较低。
基于上述研究,本公开提供了一种文本纠错的方法、装置、电子设备及存储介质,以提高纠错效率。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种文本纠错的方法进行详细介绍,本公开实施例所提供的文本纠错的方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该文本纠错的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的文本纠错的方法的流程图,方法包括步骤S101~S102,其中:
S101:获取待纠错文本内容;
S102:基于训练的文本纠错网络对待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;其中,文本纠错网络为基于生成的错误语句样本训练得到的,错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
为了便于理解本公开实施例提供的文本纠错的方法,接下来首先对该方法的应用场景进行简单介绍。上述文本纠错的方法可以应用于语音识别领域、光学字符识别(Optical Character Recognition,OCR)领域、新媒体领域、问答领域等各种需要进行文本纠错的领域中。考虑到OCR识别的广泛应用,接下来多以OCR识别中的文字纠错进行示例说明。
相关技术中的人工修正方式无法确保纠错的效率,这很大程度上会影响文字纠错技术在各个技术领域中的广泛应用。为了提升纠错效率,本公开实施例提供了一种利用训练好的文字纠错网络进行多维度文本纠错的方案,由于文字纠错网络可以是预先训练的,这显著提升了纠错效率,与此同时,上述文字纠错网络可以是从包括字音维度以及字形维度在内的多个维度进行纠错,这进一步提升了纠错的准确度。
其中,基于不同的应用场景,本公开实施例获取的待纠错文本内容也可以不同。例如,在纯文本识别领域,这里的待纠错文本内容可以是基础文章上的内容,也可以是文学作品上的内容,例如,可以是小说上的某一个段落内容,具体可以是以字符或字符串的形式来呈现;再如,在OCR识别领域,这里的待纠错文本内容可以是将图像中的文字内容智能识别成为可编辑的文本内容,具体也可以是以字符或字符串的形式来呈现。
在具体应用中,上述待纠错文本内容可以从接收的客户端上传的待核验内容中获取的。这里的待核验内容可以包括文本,也可以包括图像,与文本对应的待纠错内容可以是文本的内容,例如,可以是文章、小说之类的内容,与图像对应的待纠错内容可以是利用文字识别方式从图像中识别出的文本内容,例如,可以是通过文字检测和文字识别的手段从海报等具备文本信息的图像中所确定的文本内容。
在获取到待纠错文本内容的情况下,可以基于训练的文本纠错网络实现多维度文本纠错,进而可以直接得出纠错后的文本内容。
其中,本公开实施例中的文本纠错网络训练的可以是错误语句样本与正确语句样本之间的转换关系,这里的错误语句样本可以是基于字音相似字符和字形相似字符对正确语句样本进行破坏得到的,这样,在学习到上述转换关系的情况下,即可以对待纠错文本内容进行纠错。
需要说明的是,由于这里的文本破坏是基于字音相似字符以及字形相似字符两个层面的破坏,进而可以对待纠错文本内容实现字音维度和字形维度等至少两个维度的纠错,也即,不管待纠错文本内容中是存在字音错误还是字形错误,本公开实施例均可以进行高效且准确的纠错。
这里仍以OCR识别领域为例。例如,在待纠错文本内容为“眼睛蛇”的情况下,可知这里存在有字音错误,这里,可以就“睛”和“镜”之间的字音相似来实现纠错;再如,在待纠错文本内容为“缺铁性盆血”的情况下,可知这里存在有字形错误,这里,可以就“盆”和“贫”之间的字形相似来实现纠错。
接下来对文本纠错网络的具体训练过程进行详细描述,主要包括如下步骤:
步骤一、获取正确语句样本以及对正确语句样本进行文本破坏得到的错误语句样本;错误语句样本与正确语句样本之间至少存在一个不同的字符;
步骤二、将错误语句样本作为待训练的文本纠错网络的输入数据,得到输出结果,并将错误语句样本对应的正确语句样本作为错误语句样本的标签,对文本纠错网络进行至少一轮训练,得到训练好的文本纠错网络。
这里需要预先获取正确语句样本以及错误语句样本,进而可以将错误语句样本和对应的正确语句样本分别作为待训练的文本纠错网络的输入项和输出比对项实现文本纠错网络的训练,其中,正确语句样本作为输出比对项,可以作为对应的错误语句样本的监督信息来监督网络训练。
在训练文本纠错网络的过程中,可以将错误语句样本输入到待训练的文本纠错网络,而后将网络输出得到的输出结果与这一错误语句样本对应的正确语句样本(训练标签)进行比对,若对比结果不一致,则可以调整文本纠错网络的网络参数值,并可以基于调整后的文本纠错网络进行下一轮训练,直至对比结果高度匹配的情况下,得到训练好的文本纠错网络。
其中,上述错误语句样本可以基于对正确语句样本的文本破坏操作得到的,具体可以通过如下步骤来实现:
步骤一、获取预设的候选字符表;候选字符表包括有多个候选字符、以及与每个候选字符对应的字音相似字符和字形相似字符;
步骤二、基于获取的候选字符表对正确语句样本进行文本破坏,得到错误语句样本。
这里的候选字符表可以是预先设置的。候选字符表作为先验知识,可以存储有候选字符以及与该候选字符对应的字音相似字符和字形相似字符。这样,针对待破坏的正确语句样本而言,可以基于上述先验知识确定对应的错误语句样本。
上述候选字符表是以候选字符为基本存储单位进行存储的。候选字符可以是从已有字符集中获取的,也可以是基于不同的应用场景收集的高频字符、常用字符、易错易混淆字符等,例如,针对语音识别领域,这里的候选字符可以包括出、发、地等字符,针对驾驶领域,这里的候选字符可以是车、辆等字符,在此不再赘述。
本公开实施例可以针对候选字符表中的候选字符确定哪些字的字形与该候选字符容易混淆(对应字形相似字符),哪些字的字音与该候选字符相同或相近(对应字音相似字符),进而建立这些字音相似字符和字形相似字符与对应候选字符之间的对应关系。这样,在需要对正确语句样本进行文本破坏的情况下,即可以基于这一对应关系进行破坏。
为了满足对于待纠错文本内容的纠错,这里的正确语句样本可以是具有上下文的一个短句,通常情况下,这一短句会包含多个字符。本公开实施例中在基于上述候选字符表中的候选字符进行文本破坏的情况下,可以先进行切分,再进行替换,以实现针对性的文本破坏操作,具体通过如下步骤来实现:
步骤一、对正确语句样本进行切分处理,得到多个分词;
步骤二、针对多个分词中的第一分词,从候选字符表中查找与第一分词匹配的候选字符,并利用查找到的候选字符对应的字音相似字符或字形相似字符对第一分词进行替换,得到替换结果;
步骤三、基于替换结果,确定针对正确语句样本进行文本破坏得到的错误语句样本。
这里的第一分词可以是任选的一个或多个分词,或者是特定的一个或多个分词。替换结果则可以对应的一个或多个分词中每个分词所对应的替换结果,从而使得所得到的错误语句样本更具多样性,以便于后续文本纠错网络进行纠错学习。
需要说明的是,对于第一分词选取特定的分词进行文本破坏的情况而言,可以基于哪些是易混淆易错的字符这样的出发点进行特定分词的选取,这样所生成的错误语句样本可以更具有针对性,从而可以更好的适应于某一特定场景。
本公开实施例中的切分处理可以是基于词典、统计、神经网络等方法实现的。例如,这里可以采用greedy匹配实现基于词典的切分,在实际应用中,可以从句子开头的第一个字开始查字典,找出字典中以该字开头的最长的单词,然后就得到了第一个切分好的词;再如,这里可以采用全局出发实现基于统计的切分,在实际应用中,可以在各种切词组合中找出那个最合理的组合,这个过程就可以看作在切分词图中找出一条概率最大的路径;再如,这里可以基于长短期记忆网络(Long Short-Term Memory,LSTM)这一时间循环神经网络实现切分,具体方法在此不再赘述。
不管是基于上述哪种方式实现的切分处理,在进行文本破坏的过程中,对于一个由多个字符所构成的第一分词而言,往往不会破坏整个分词,而是可以选取其中的一个字符来进行破坏,以更好的适应纠错需求。
除此之外,为了更好的适应纠错需求,在实际应用中也可以对多个第一分词进行文本破坏。考虑到若是连续几个分词都进行破坏,将会增加后续进行纠错的难度,纠错的准确性也会降低,为了减少上述问题所可能带来的不良影响,这里可以将多个第一分词间隔设置。多个第一分词之间的间隔可以相同或是不同,在此不予限定。这样就不会出现连续几个分词都出错的情况,既能满足错误样本的多样性,也能确保后续纠错的准确性。
本公开实施例提供的文本纠错的方法可以应用到待发表内容的审核,例如,可以是编辑管理者对编辑工作者已编辑好的文章进行管理审核;或是应用到需要对相关内容的对错进行检查时来使用,例如,可以是在作者上传自己文章的过程中,对文章中的文本进行校对审核,除此之外,还可以应用到各种需要进行文本纠错的环节中,在此不做具体的限制。
这里,在得到纠错后的文本内容之后,可以向客户端返回纠错提示信息以指示待核验内容中待纠错文本内容对应的待纠错位置。用户基于这一提示的待纠错位置可以确认发生了文本错误,除此之外,还可以通过针对待纠错位置的触发指令,展示纠错后的参考文本内容这一方式实现候选的纠错后文本内容的选择,这样,用户可以参考纠错后文本内容进行主动性修改。
其中,有关纠错后的参考文本内容的展示是多种多样的,这里可以结合特效来进行展示。
具体的,可以是在待纠错位置对应的纠错后位置处,以预设显示特效展示纠错后的参考文本内容,例如,可以是对于原有错误文本(即待纠错文本内容)增加删除线,在附近显示正确文本(即纠错后的参考文本内容),再如通过弹窗、气泡框等特效方式显示正确文本;还可以是利用纠错后的参考文本内容替换待纠错文本内容,并在待纠错位置处展示纠错后的参考文本内容,例如,可以高亮显示替换了原有错误文本的正确文本等;还可以是分屏展示原始的错误文本和纠错后完整文本,除此之外,本公开实施例还可以采用其它展示方式,在此不做具体的限制。
本公开实施例提供的文本纠错的方法在帮助用户纠正的同时,还可以基于单次/单篇的错误情况,进行错误统计以实现绩效考核。
这里所得到的纠错历史信息可以是包括单篇文章中的纠错次数,还可以是多篇文章中的纠错总次数,还可以是产生同一错误的不同文章所对应的待纠错文本内容及其文本类型,还可以是其它统计信息,例如,可以结合时间段实现纠错平均次数的统计,以便于对相关人员进行定量化的考核。
例如,对于编辑工作者,其编辑的单篇文章中出现的纠错次数越多,一定程度上说明该工作者存在马虎的情况,其编辑的多文章中出现的纠错次数越多,一定程度上说明该工作者存在工作态度不端正的情况,其产生同一错误的不同文章所对应的待纠错文本内容的文本类型为同一类型,一定程度上说明该工作者对这一文章所对应领域存在了解不充分的问题。在及时了解到这些统计信息的情况下,可以针对编辑工作者给予更针对性的管理对策。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与文本纠错的方法对应的文本纠错的装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述文本纠错的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图2所示,为本公开实施例提供的一种文本纠错的装置的示意图,装置包括:获取模块201、纠错模块202;其中,
获取模块201,用于获取待纠错文本内容;
纠错模块202,用于基于训练的文本纠错网络对待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;
其中,文本纠错网络为基于生成的错误语句样本训练得到的,错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
采用上述文本纠错的装置,在获取到待纠错文本内容的情况下,可以基于训练的文本纠错网络对待纠错文本内容进行多维度文本纠错,以得到纠错后的文本内容。由于这里的文本纠错网络是基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的错误语句样本训练得到的,这样,该文本纠错网络可以学习到错误语句与正确语句之间的转换关系,进而可以指导待纠错文本内容的快速纠错,且纠错效率较高。
在一种可能的实施方式中,上述装置包括训练模块203;
训练模块203,用于按照如下步骤训练文本纠错网络:
获取正确语句样本以及对正确语句样本进行文本破坏得到的错误语句样本;错误语句样本与正确语句样本之间至少存在一个不同的字符;
将错误语句样本作为待训练的文本纠错网络的输入数据,得到输出结果,并将错误语句样本对应的正确语句样本作为错误语句样本的标签,对待训练的文本纠错网络进行至少一轮训练,得到训练好的文本纠错网络。
在一种可能的实施方式中,训练模块203,用于按照如下步骤获取错误语句样本:
获取预设的候选字符表;候选字符表包括有多个候选字符、以及与每个候选字符对应的字音相似字符和字形相似字符;
基于获取的候选字符表对正确语句样本进行文本破坏,得到错误语句样本。
在一种可能的实施方式中,训练模块203,用于按照以下步骤基于获取的候选字符表对正确语句样本进行文本破坏,得到错误语句样本:
对正确语句样本进行切分处理,得到多个分词;
针对多个分词中的第一分词,从候选字符表中查找与第一分词匹配的候选字符,并利用查找到的候选字符对应的字音相似字符或字形相似字符对第一分词进行替换,得到替换结果;
基于替换结果,确定针对正确语句样本进行文本破坏得到的错误语句样本。
在一种可能的实施方式中,获取模块201,用于按照以下步骤获取待纠错文本内容:
接收客户端上传的待核验内容,待核验内容的类型包括文本和图像中的至少一项,待核验内容包括待纠错文本内容。
在一种可能的实施方式中,在待核验内容包括文本的情况下,待纠错文本内容包括文本中的字符或字符串;和/或;
在待核验内容包括图像的情况下,待纠错文本内容包括利用文字识别方式从图像中识别出的文本中的字符或字符串。
在一种可能的实施方式中,上述装置还包括:
提示模块204,用于在得到纠错后的文本内容之后,向客户端返回纠错提示信息;纠错提示信息用于指示待核验内容中待纠错文本内容对应的待纠错位置。
在一种可能的实施方式中,纠错提示信息还用于提供与待纠错文本内容中错误文本内容对应的参考文本内容,上述装置还包括:
展示模块205,用于响应针对待纠错位置的触发指令,展示纠错后的参考文本内容。
在一种可能的实施方式中,展示模块205,用于按照以下步骤展示纠错后的参考文本内容:
在待纠错位置对应的纠错后位置处,以预设显示特效展示纠错后的参考文本内容;
或者,利用纠错后的参考文本内容替换待纠错文本内容,并在待纠错位置处展示纠错后的参考文本内容;
或者,分屏展示待纠错文本内容和纠错后的参考文本内容。
在一种可能的实施方式中,文本包括多篇文章;上述装置还包括:
考核模块206,用于基于预设时间段内,针对多篇文章中每篇文章产生的纠错提示信息,确定客户端的纠错历史信息;纠错历史信息包括单篇文章中的纠错次数、多篇文章中的纠错总次数、产生同一错误的不同文章所对应的待纠错文本内容及待纠错文本内容所属文本类型中的至少一种;根据纠错历史信息,确定针对客户端的绩效考核结果。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例还提供了一种电子设备,如图3所示,为本公开实施例提供的电子设备结构示意图,包括:处理器301、存储器302、和总线303。存储器302存储有处理器301可执行的机器可读指令(比如,图2中的装置中获取模块201、纠错模块202对应的执行指令等),当电子设备运行时,处理器301与存储器302之间通过总线303通信,机器可读指令被处理器301执行时执行如下处理:
获取待纠错文本内容;
基于训练的文本纠错网络对待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;
其中,文本纠错网络为基于生成的错误语句样本训练得到的,错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本纠错的方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的文本纠错的方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (13)

1.一种文本纠错的方法,其特征在于,所述方法包括:
获取待纠错文本内容;
基于训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;
其中,所述文本纠错网络为基于生成的错误语句样本训练得到的,所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
2.根据权利要求1所述的方法,其特征在于,按照如下步骤训练所述文本纠错网络:
获取正确语句样本以及对所述正确语句样本进行文本破坏得到的错误语句样本;所述错误语句样本与所述正确语句样本之间至少存在一个不同的字符;
将所述错误语句样本作为待训练的文本纠错网络的输入数据,得到输出结果,并将所述错误语句样本对应的正确语句样本作为所述错误语句样本的标签,对所述待训练的文本纠错网络进行至少一轮训练,得到训练好的文本纠错网络。
3.根据权利要求1或2所述的方法,其特征在于,按照如下步骤获取所述错误语句样本:
获取预设的候选字符表;所述候选字符表包括有多个候选字符、以及与每个所述候选字符对应的字音相似字符和字形相似字符;
基于获取的所述候选字符表对所述正确语句样本进行文本破坏,得到所述错误语句样本。
4.根据权利要求3所述的方法,其特征在于,所述基于获取的所述候选字符表对所述正确语句样本进行文本破坏,得到所述错误语句样本,包括:
对所述正确语句样本进行切分处理,得到多个分词;
针对所述多个分词中的第一分词,从所述候选字符表中查找与所述第一分词匹配的候选字符,并利用查找到的所述候选字符对应的字音相似字符或字形相似字符对所述第一分词进行替换,得到替换结果;
基于所述替换结果,确定针对所述正确语句样本进行文本破坏得到的所述错误语句样本。
5.根据权利要求1-4任一所述的方法,其特征在于,所述获取待纠错文本内容,包括:
接收客户端上传的待核验内容,所述待核验内容的类型包括文本和图像中的至少一项,所述待核验内容包括待纠错文本内容。
6.根据权利要求5所述的方法,其特征在于,
在所述待核验内容包括文本的情况下,所述待纠错文本内容包括所述文本中的字符或字符串;和/或,
在所述待核验内容包括图像的情况下,所述待纠错文本内容包括利用文字识别方式从所述图像中识别出的文本中的字符或字符串。
7.根据权利要求5或6所述的方法,其特征在于,在所述得到纠错后的文本内容之后,所述方法还包括:
向所述客户端返回纠错提示信息;所述纠错提示信息用于指示所述待核验内容中所述待纠错文本内容对应的待纠错位置。
8.根据权利要求7所述的方法,其特征在于,所述纠错提示信息还用于提供与所述待纠错文本内容中错误文本内容对应的参考文本内容,所述方法还包括:
响应针对所述待纠错位置的触发指令,展示纠错后的参考文本内容。
9.根据权利要求8所述的方法,其特征在于,所述展示纠错后的参考文本内容,包括:
在所述待纠错位置对应的纠错后位置处,以预设显示特效展示所述纠错后的参考文本内容;
或者,利用所述纠错后的参考文本内容替换所述待纠错文本内容,并在所述待纠错位置处展示所述纠错后的参考文本内容;
或者,分屏展示所述待纠错文本内容和所述纠错后的参考文本内容。
10.根据权利要求7-9任一所述的方法,其特征在于,所述文本包括多篇文章;所述方法还包括:
基于预设时间段内,针对所述多篇文章中每篇文章产生的纠错提示信息,确定所述客户端的纠错历史信息;所述纠错历史信息包括单篇文章中的纠错次数、多篇文章中的纠错总次数、产生同一错误的不同文章所对应的待纠错文本内容及所述待纠错文本内容所属文本类型中的至少一种;
根据所述纠错历史信息,确定针对所述客户端的绩效考核结果。
11.一种文本纠错的装置,其特征在于,所述装置包括:
获取模块,用于获取待纠错文本内容;
纠错模块,用于基于训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;
其中,所述文本纠错网络为基于生成的错误语句样本训练得到的,所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
12.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的文本纠错的方法的步骤。
13.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至10任一所述的文本纠错的方法的步骤。
CN202110711749.7A 2021-06-25 2021-06-25 一种文本纠错的方法、装置、电子设备及存储介质 Pending CN113343678A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110711749.7A CN113343678A (zh) 2021-06-25 2021-06-25 一种文本纠错的方法、装置、电子设备及存储介质
PCT/CN2021/134638 WO2022267353A1 (zh) 2021-06-25 2021-11-30 文本纠错的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110711749.7A CN113343678A (zh) 2021-06-25 2021-06-25 一种文本纠错的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113343678A true CN113343678A (zh) 2021-09-03

Family

ID=77478919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110711749.7A Pending CN113343678A (zh) 2021-06-25 2021-06-25 一种文本纠错的方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN113343678A (zh)
WO (1) WO2022267353A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022267353A1 (zh) * 2021-06-25 2022-12-29 北京市商汤科技开发有限公司 文本纠错的方法、装置、电子设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306598B (zh) * 2023-05-22 2023-09-08 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、***、设备及介质
CN116719424B (zh) * 2023-08-09 2024-03-22 腾讯科技(深圳)有限公司 一种类型识别模型的确定方法及相关装置
CN117094311B (zh) * 2023-10-19 2024-01-26 山东齐鲁壹点传媒有限公司 一种关于中文语法纠错的误纠过滤器的建立方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100063798A1 (en) * 2008-09-09 2010-03-11 Tsun Ku Error-detecting apparatus and methods for a chinese article
US20200192983A1 (en) * 2018-12-17 2020-06-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for correcting error in text
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质
CN112597753A (zh) * 2020-12-22 2021-04-02 北京百度网讯科技有限公司 文本纠错处理方法、装置、电子设备和存储介质
CN112784582A (zh) * 2021-02-09 2021-05-11 中国工商银行股份有限公司 纠错方法、装置和计算设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
CN111611791B (zh) * 2020-04-27 2023-08-25 鼎富智能科技有限公司 一种文本处理的方法及相关装置
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、***、设备及可读存储介质
CN112560450B (zh) * 2020-12-11 2024-02-13 科大讯飞股份有限公司 一种文本纠错方法及装置
CN112926306B (zh) * 2021-03-08 2024-01-23 北京百度网讯科技有限公司 文本纠错方法、装置、设备以及存储介质
CN113343678A (zh) * 2021-06-25 2021-09-03 北京市商汤科技开发有限公司 一种文本纠错的方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100063798A1 (en) * 2008-09-09 2010-03-11 Tsun Ku Error-detecting apparatus and methods for a chinese article
US20200192983A1 (en) * 2018-12-17 2020-06-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for correcting error in text
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质
CN112597753A (zh) * 2020-12-22 2021-04-02 北京百度网讯科技有限公司 文本纠错处理方法、装置、电子设备和存储介质
CN112784582A (zh) * 2021-02-09 2021-05-11 中国工商银行股份有限公司 纠错方法、装置和计算设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘勤等: "智能财务研究蓝皮书(第一辑)", vol. 1, 立信会计出版社, pages: 1 - 4 *
郝亚男等: "面向OCR文本识别词错误自动校对方法研究", 《计算机仿真》, no. 09, 15 September 2020 (2020-09-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022267353A1 (zh) * 2021-06-25 2022-12-29 北京市商汤科技开发有限公司 文本纠错的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2022267353A1 (zh) 2022-12-29

Similar Documents

Publication Publication Date Title
CN113343678A (zh) 一种文本纠错的方法、装置、电子设备及存储介质
US10853576B2 (en) Efficient and accurate named entity recognition method and apparatus
CN107748784B (zh) 一种通过自然语言实现结构化数据搜索的方法
US20080294982A1 (en) Providing relevant text auto-completions
US10963717B1 (en) Auto-correction of pattern defined strings
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
JP5502814B2 (ja) アラビア語テキストに発音区別符号を付与するための方法およびシステム
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN112926300A (zh) 图像搜索方法、图像搜索装置及终端设备
CN112860845A (zh) 一种试题检索方法、装置、电子设备及存储介质
CN112149680A (zh) 错字检测识别方法、装置、电子设备及存储介质
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN117077679B (zh) 命名实体识别方法和装置
CN107783958B (zh) 一种目标语句识别方法及装置
CN112347267A (zh) 一种文本处理方法、装置、计算机设备及存储介质
CN113591857A (zh) 字符图像处理方法、装置及古代汉籍图像的识别方法
CN112836498A (zh) 数据处理方法、识别方法、装置及计算设备
CN112784780B (zh) 一种审阅方法、装置、计算机设备及存储介质
CN110674640B (zh) 中文姓名获取方法、中文姓名提取模型的训练方法及装置
US11935425B2 (en) Electronic device, pronunciation learning method, server apparatus, pronunciation learning processing system, and storage medium
CN114118052A (zh) 一种文本标记方法、装置、计算机设备及存储介质
CN114187594A (zh) 文本识别模型的训练方法、文本识别方法、电子设备、存储介质
CN112347790A (zh) 一种文本处理方法、装置、计算机设备及存储介质
CN114254627A (zh) 一种文本纠错的方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40049357

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20210903