CN113779970B - 一种文本纠错方法、装置、设备和计算机可读存储介质 - Google Patents

一种文本纠错方法、装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN113779970B
CN113779970B CN202111122968.8A CN202111122968A CN113779970B CN 113779970 B CN113779970 B CN 113779970B CN 202111122968 A CN202111122968 A CN 202111122968A CN 113779970 B CN113779970 B CN 113779970B
Authority
CN
China
Prior art keywords
result
error correction
text
correction
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111122968.8A
Other languages
English (en)
Other versions
CN113779970A (zh
Inventor
李�浩
龚笠
杨晶生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202111122968.8A priority Critical patent/CN113779970B/zh
Publication of CN113779970A publication Critical patent/CN113779970A/zh
Priority to PCT/CN2022/119636 priority patent/WO2023045868A1/zh
Application granted granted Critical
Publication of CN113779970B publication Critical patent/CN113779970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本纠错方法及其相关设备,该方法包括:在获取到待处理文本之后,先确定该待处理文本的错误纠正结果和该待处理文本的校正参考信息;再利用该校正参考信息,对该错误纠正结果进行预设校正处理,得到待使用纠错结果,以使该待使用纠错结果中修改建议更准确;最后,根据该待使用纠错结果,确定该待处理文本的文本纠错信息,以使该文本纠错信息能够更准确地表示出该待处理文本中至少一个错误字符的修改建议,从而使得在利用该文本纠错信息对该待处理文本进行修改时能够尽可能地降低误纠错发生概率,如此能够提高文本纠错效果,从而能够提高用户文本输入体验。

Description

一种文本纠错方法、装置、设备和计算机可读存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本纠错方法及其相关设备。
背景技术
在一些文本输入场景(例如,文档编辑、搜索引擎等)中,易出现文本输入错误(例如,拼写错误、发音相似字符的选择错误、字形相似字符的输入错误等),故为了提高用户体验,需要针对这些文本输入错误进行纠正(如图1所示的修改建议),以免这些文本输入错误对后续文本处理过程(例如,搜索推荐过程等)造成不良影响。
然而,因文本纠错技术存在缺陷,使得该文本纠错技术的文本纠错效果比较差,如此导致用户文本输入体验也比较差。
发明内容
为了解决上述技术问题,本申请提供了一种文本纠错方法及其相关设备,能够提高文本纠错效果,从而能够提高用户文本输入体验。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种文本纠错方法,所述方法包括:在获取到待处理文本之后,确定所述待处理文本的错误纠正结果和所述待处理文本的校正参考信息;利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果;根据所述待使用纠错结果,确定所述待处理文本的文本纠错信息。
在一种可能的实施方式中,所述校正参考信息包括错误检测结果和/或保护字符识别结果;其中,所述错误纠正结果用于表示所述待处理文本中至少一个错误字符在所述待处理文本中所处位置;所述保护字符识别结果用于表示所述待处理文本中至少一个被保护字符在所述待处理文本中所处位置。
在一种可能的实施方式中,所述校正参考信息包括错误检测结果;所述利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果,包括:利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到所述待使用纠错结果。
在一种可能的实施方式中,所述校正参考信息包括保护字符识别结果;所述利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果,包括:利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到所述待使用纠错结果。
在一种可能的实施方式中,所述校正参考信息包括错误纠正结果和保护字符识别结果;所述待使用纠错结果的确定过程,包括:利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到第一纠错结果;利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述第一纠错结果进行第二校正处理,得到所述待使用纠错结果。
在一种可能的实施方式中,所述校正参考信息包括错误纠正结果和保护字符识别结果;所述待使用纠错结果的确定过程,包括:利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到第一纠错结果;利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到第二纠错结果;根据所述第一纠错结果与所述第二纠错结果,确定所述待使用纠错结果。
在一种可能的实施方式中,所述校正参考信息包括错误纠正结果和保护字符识别结果;所述待使用纠错结果的确定过程,包括:利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到第二纠错结果;利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述第二纠错结果进行第一校正处理,得到所述待使用纠错结果。
在一种可能的实施方式中,所述错误检测结果的个数为N,第一待校正对象的个数为M;其中,N为正整数;M为正整数;所述第一校正处理包括:利用N个错误检测结果、以及M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象,对所述第m个第一待校正对象中第k个修改建议进行投票处理,得到所述第k个修改建议的保留投票结果;其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数,Km表示所述第m个第一待校正对象中修改建议个数;若确定所述第k个修改建议的保留投票结果不满足第一条件,则从所述第m个第一待校正对象中删除所述第k个修改建议;其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数。
在一种可能的实施方式中,所述保护字符识别结果的个数为Q;其中,Q为正整数;所述第二校正处理包括:利用Q个保护字符识别结果,对第二待校正对象中第r个修改建议进行投票处理,得到所述第r个修改建议的删除投票结果;其中,r为正整数,r≤R,R为正整数,R表示所述第二待校正对象中修改建议个数;若所述第r个修改建议的删除投票结果满足第二条件,则从所述第二待校正对象中删除所述第r个修改建议。
在一种可能的实施方式中,所述方法还包括:若所述第r个修改建议的删除投票结果满足第二条件,则根据所述第r个修改建议,确定待使用筛选条件;从所述第二待校正对象中查找满足所述待使用筛选条件的目标修改建议,得到查找结果;若所述查找结果表示所述第二待校正中存在至少一个目标修改建议,则从所述第二待校正对象中删除所述至少一个目标修改建议。
在一种可能的实施方式中,所述第r个修改建议包括将第一字符信息修改为第二字符信息;所述待使用筛选条件是根据所述第一字符信息进行确定的。
在一种可能的实施方式中,所述错误检测结果的确定过程,包括:利用至少一个预先构建的错误检测模型和/或至少一个错误检测规则,对所述待处理文本进行错误检测处理,得到所述待处理文本的至少一个所述错误检测结果;所述保护字符识别结果的确定过程,包括:利用至少一个预先构建的保护字符识别模型和/或至少一个保护字符识别规则,对所述待处理文本进行保护字符识别处理,得到所述待处理文本的至少一个所述保护字符识别结果。
在一种可能的实施方式中,所述错误纠正结果的确定过程,包括:利用至少一个预先构建的错误纠正模型和/或至少一个错误纠正规则,对所述待处理文本进行错误纠正处理,得到所述待处理文本的至少一个所述错误纠正结果。
在一种可能的实施方式中,所述根据所述待使用纠错结果,确定所述待处理文本的文本纠错信息,包括:对所述待使用纠错结果进行预设建议筛选处理,得到第三纠错结果;根据所述第三纠错结果,确定所述待处理文本的文本纠错信息。
在一种可能的实施方式中,所述第三纠错结果的确定过程,包括:确定所述待使用纠错结果中各个修改建议的重写概率;判断所述待使用纠错结果中各个修改建议的重写概率是否满足第三条件,得到所述各个修改建议的判断结果;依据所述各个修改建议的判断结果,对所述待使用纠错结果进行重写建议删除处理,得到所述第三纠错结果。
在一种可能的实施方式中,所述待使用纠错结果包括待使用建议,且所述待使用建议包括:将第三字符信息修改为第四字符信息;所述待使用建议的重写概率的确定过程,包括:根据所述第三字符信息的字符特征信息和所述第四字符信息的字符特征信息,确定所述第三字符信息与所述第四字符信息之间的特征差异度;根据所述第三字符信息与所述第四字符信息之间的特征差异度,确定所述待使用建议的重写概率。
在一种可能的实施方式中,所述字符特征信息包括:输入操作信息、发音表征信息、以及字符形状信息中的至少一个。
在一种可能的实施方式中,所述待处理文本的文本纠错信息的确定过程,包括:利用第t个待处理纠错结果,对所述待处理文本进行文本修改处理,得到第t个候选纠错文本;其中,t为正整数,t≤T,T为正整数,T表示所述待处理纠错结果的个数;确定所述第t个候选纠错文本的通顺评分;其中,t为正整数,t≤T,T为正整数;根据T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第四条件的所述纠错后文本;根据所述纠错后文本对应的待处理纠错结果,确定所述待处理文本的文本纠错信息。
在一种可能的实施方式中,所述根据T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第四条件的所述纠错后文本,包括:根据所述T个候选纠错文本的通顺评分,确定通顺评分最大值;若确定所述通顺评分最大值与所述待处理文本的通顺评分之间满足第五条件,则将具有所述通顺评分最大值的候选纠错文本,确定为所述纠错后文本。
在一种可能的实施方式中,所述根据T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第四条件的所述纠错后文本,包括:根据所述T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第六条件的至少一个目标纠错文本;从所述至少一个目标纠错文本中筛选出满足第七条件的所述纠错后文本。
本申请实施例还提供了一种文本纠错装置,包括:结果确定单元,用于在获取到待处理文本之后,确定所述待处理文本的错误纠正结果和所述待处理文本的校正参考信息;结果校正单元,用于利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果;信息确定单元,用于根据所述待使用纠错结果,确定所述待处理文本的文本纠错信息。
本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:所述存储器用于存储计算机程序;所述处理器用于根据所述计算机程序执行权利要求1-17中任一项所述的方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的文本纠错方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的文本纠错方法的任一实施方式。
与现有技术相比,本申请实施例至少具有以下优点:
本申请实施例提供的技术方案中,在获取到待处理文本之后,先确定该待处理文本的错误纠正结果和该待处理文本的校正参考信息;再利用该校正参考信息,对该错误纠正结果进行预设校正处理,得到待使用纠错结果,以使该待使用纠错结果中修改建议更准确;最后,根据该待使用纠错结果,确定该待处理文本的文本纠错信息,以使该文本纠错信息能够更准确地表示出该待处理文本中至少一个错误字符的修改建议,从而使得在利用该文本纠错信息对该待处理文本进行修改时能够尽可能地降低误纠错发生概率,如此能够提高文本纠错效果,从而能够提高用户文本输入体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种修改建议的示意图;
图2为本申请实施例提供的一种文本纠错方法的流程图;
图3为本申请实施例提供的一种文本纠错过程的示意图;
图4为本申请实施例提供的一种第一校正处理的示意图;
图5为本申请实施例提供的一种文本纠错装置的结构示意图。
具体实施方式
发明人在针对文本纠错技术的研究中发现,一些文本纠错技术存在缺陷,使得基于这些文本纠错技术确定的修改建议易发生错误,例如,易发生建议将一些正确字符(例如,姓名、地点名称、组织名称、物体名称等实体名称中正确字符、日期中正确字符等)进行修改等错误,从而使得这些文本纠错技术的文本纠错效果较差,如此导致用户文本输入体验比较差。
基于上述发现,为了克服背景技术部分所示的技术问题,本申请实施例提供了一种文本纠错方法,该方法包括:在获取到待处理文本之后,先确定该待处理文本的错误纠正结果和该待处理文本的校正参考信息;再利用该校正参考信息,对该错误纠正结果进行预设校正处理,得到待使用纠错结果,以使该待使用纠错结果中修改建议更准确;最后,根据该待使用纠错结果,确定该待处理文本的文本纠错信息,以使该文本纠错信息能够更准确地表示出该待处理文本中至少一个错误字符的修改建议,从而使得在利用该文本纠错信息对该待处理文本进行修改时能够尽可能地降低误纠错发生概率,如此能够提高文本纠错效果,从而能够提高用户文本输入体验。
另外,本申请实施例不限定文本纠错方法的执行主体,例如,本申请实施例提供的文本纠错方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为语音处理终端、智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请,下面结合附图对本申请实施例提供的文本纠错方法进行说明。
参见图2,该图为本申请实施例提供的一种文本纠错方法的流程图。
本申请实施例提供的文本纠错方法,包括S1-S3:
S1:在获取到待处理文本之后,确定该待处理文本的错误纠正结果和该待处理文本的校正参考信息。
其中,待处理文本是指需要进行文本纠错处理的文本数据;而且本申请实施例不限定该待处理文本的获取方式,例如,可以借助任一字符输入设备(例如,键盘、触控笔、手写触控板等)进行实施。又如,可以先借助任一多媒体输入设备(例如,拾音器、摄像头等)采集多媒体数据(例如,语音数据、图像数据、视频数据等);再对该多媒体数据进行文字识别处理,得到待处理文本,以使该待处理文本用于表示该多媒体数据携带的字符信息。
上述“待处理文本的错误纠正结果”用于表示针对该待处理文本中至少一个错误字符的修改建议;而且本申请实施例不限定该“待处理文本的错误纠正结果”,例如,其可以包括至少一条修改建议。
另外,本申请实施例不限定该“待处理文本的错误纠正结果”的确定过程,例如,可以采用现有的或者未来出现的任一种能够针对一个文本数据进行错误纠正处理的方法进行实施。又如,为了进一步提高文本纠错效果,也可以采用下文所示的错误纠正结果的确定过程的任一实施方式进行实施。
上述“待处理文本的校正参考信息”用于表示在对“待处理文本的错误纠正结果”进行预设校正处理时所需依据的参考信息(例如,该待处理文本中错误字符在该待处理文本中所处位置信息、和/或该待处理文本中被保护字符在该待处理文本中所处位置信息等);而且本申请实施例不限定该“待处理文本的校正参考信息”的确定过程,例如,可以借助预先构建的校正参考信息识别模型进行实施。其中,“校正参考信息识别模型”用于针对该校正参考信息识别模型的输入数据进行校正参考信息识别处理。
需要说明的是,上述“校正参考信息识别模型”可以根据第一样本文本和该第一样本文本的实际校正参考信息进行构建。其中,“第一样本文本的实际校正参考信息”用于表示在对“待处理文本的错误纠正结果”进行预设校正处理时实际所需依据的参考信息;而且本申请实施例不限定该“第一样本文本的实际校正参考信息”的获取方式,例如,可以采用人工标注的方式进行实施。另外,本申请实施例也不限定上述“校正参考信息识别模型”的构建过程,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
基于上述S1的相关内容可知,在获取到待处理文本之后,针对该待处理文本进行文本纠错处理,得到该待处理文本的错误纠正结果,以使该错误纠正结果能够表示出针对该待处理文本中至少一个错误字符的修改建议;并且还要针对该待处理文本进行校正参考信息识别处理,得到该待处理文本的校正参考信息,以使该校正参考信息能够表示出针对上述“待处理文本的错误纠正结果”进行预设校正处理时所需依据的参考信息,以便后续能够基于该校正参考信息,对上述“待处理文本的错误纠正结果”进行预设校正处理,如此能够尽可能地从上述“待处理文本的错误纠正结果”中剔除那些发生错误的修改建议。
S2:利用待处理文本的校正参考信息,对该待处理文本的错误纠正结果进行预设校正处理,得到待使用纠错结果。
其中,预设校正处理用于针对文本纠错结果进行校正处理。
另外,本申请实施例不限定该预设校正处理,例如,其具体可以包括:利用待处理文本的校正参考信息,对该待处理文本的错误纠正结果按照预先设定的纠错校正规则进行校正处理,得到待使用纠错结果。其中,“纠错校正规则”是指根据应用场景设定的针对文本纠错结果进行校正处理时所需依据的规则。
上述“待使用纠错结果”是指在对上述“待处理文本的错误纠正结果”进行预设校正处理之后得到的校正后的文本纠错结果,以使该“待使用纠错结果”中发生错误的修改建议远远少于上述“待处理文本的错误纠正结果”中发生错误的修改建议(甚至,使得该“待使用纠错结果”中几乎不存在发生错误的修改建议)。
基于上述S2的相关内容可知,在获取到待处理文本的错误纠正结果以及校正参考信息之后,可以依据该校正参考信息对该错误纠正结果进行预设校正处理,得到待使用纠错结果,以使该待使用纠错结果中所记录的错误修改建议远远少于上述“待处理文本的错误纠正结果”中发生错误的修改建议远远少于该错误纠正结果中发生错误的修改建议(甚至,使得该待使用纠错结果中几乎不存在发生错误的修改建议),从而使得该待使用纠错结果能够更准确地表示出针对待处理文本中至少一个错误字符的修改建议。
S3:根据待使用纠错结果,确定待处理文本的文本纠错信息。
其中,“待处理文本的文本纠错信息”用于表示针对待处理文本中至少一个错误字符的修改建议。
另外,本申请实施例不限定S3的实施方式,例如,其具体可以包括:将待使用纠错结果,确定为待处理文本的文本纠错信息。又如,为了进一步提高文本纠错效果,其可以采用下文所示的S3的任一实施方式进行实施。
基于上述S1至S3的相关内容可知,对于本申请实施例提供的文本纠错方法来说,在获取到待处理文本之后,先确定该待处理文本的错误纠正结果和该待处理文本的校正参考信息;再利用该校正参考信息,对该错误纠正结果进行预设校正处理,得到待使用纠错结果,以使该待使用纠错结果中修改建议更准确;最后,根据该待使用纠错结果,确定该待处理文本的文本纠错信息,以使该文本纠错信息能够更准确地表示出该待处理文本中至少一个错误字符的修改建议,从而使得在利用该文本纠错信息对该待处理文本进行修改时能够尽可能地降低误纠错发生概率,如此能够提高文本纠错效果,从而能够提高用户文本输入体验。
为了进一步提高文本纠错效果,本申请实施例还提供了确定上述“错误纠正结果”的一种可能的实施方式,其具体可以包括:利用至少一个预先构建的错误纠正模型和/或至少一个错误纠正规则,对待处理文本进行错误纠正处理,得到该待处理文本的至少一个错误纠正结果。
上述“错误纠正模型”用于针对该错误纠正模型的输入数据进行错误纠正处理;而且本申请实施例不限定该“错误纠正模型”,例如,其可以采用任一机器学习模型(例如,语言模型)进行实施。另外,本申请实施例不限定该“错误纠正模型”的构建过程,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
需要说明的是,上述“至少一个预先构建的错误纠正模型”中不同“错误纠正模型”的网络结构可以不同,和/或,不同“错误纠正模型”的构建过程也可以不同,以使不同“错误纠正模型”之间在错误纠正处理性能也存在差异。
上述“错误纠正规则”是指在对一个文本数据进行错误纠正处理(例如,进行正则匹配)时所需依据的规则;而且本申请实施例不限定该“错误纠正规则”的获取方式,例如,可以应用场景预先设定。
为了便于理解上述“至少一个错误纠正结果”的确定过程,下面结合图3进行说明。
作为示例,如图3所示,上述“至少一个错误纠正结果”的确定过程可以包括:利用纠错模块d,对待处理文本进行错误纠正处理,得到该待处理文本的第d个错误纠正结果。其中,“纠错模块d”用于针对一个文本数据进行错误纠正处理;而且本申请实施例不限定该“纠错模块d”的工作原理,例如,其可以利用一个预先构建的错误检测模型进行错误检测处理,或者也可以利用一个错误检测规则进行错误检测处理。d为正整数,d≤D,D为正整数,D表示图3中纠错模块的个数(也就是,上述“至少一个错误纠正结果”中错误纠正结果的个数)。
基于上述“错误纠正结果”的确定过程相关内容可知,可以借助多个预先构建的错误纠正模型和/或多个错误纠正规则,分别对待处理文本进行错误纠正处理,得到该待处理文本的多个错误纠正结果,以使这些错误纠正结果能够更好地表示出针对待处理文本中至少一个错误字符的修改建议,如此有利于提高文本纠错效果。
实际上,为了提高文本纠错效果,可以参考一个文本数据中错误字符所处位置,确定该文本数据的校正参考信息。基于此可知,在一种可能的实施方式中,上述“待处理文本的校正参考信息”可以包括该待处理文本的错误检测结果。
上述“待处理文本的错误检测结果”用于表示该待处理文本中至少一个错误字符在该待处理文本中所处位置;而且本申请实施例不限定该“待处理文本的错误检测结果”,例如,其可以包括至少一个错误字符位置。
另外,本申请实施例不限定该“待处理文本的错误检测结果”的确定过程,例如,可以采用现有的或者未来出现的任一种能够针对一个文本数据进行错误检测处理的方法进行实施。
此外,为了提高错误检测结果的准确性,本申请实施例还提供了确定“错误检测结果”的另一种可能的实施方式,其具体可以包括:利用至少一个预先构建的错误检测模型和/或至少一个错误检测规则,对待处理文本进行错误检测处理,得到该待处理文本的至少一个错误检测结果。
上述“错误检测模型”用于针对该错误检测模型的输入数据进行错误检测处理;而且本申请实施例不限定该“错误检测模型”,例如,其可以采用任一机器学习模型(例如,语言模型)进行实施。另外,本申请实施例不限定该“错误检测模型”的构建过程,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
需要说明的是,上述“利用至少一个预先构建的错误检测模型”中不同“错误检测模型”的网络结构可以不同(例如,上述“至少一个预先构建的错误检测模型”的网络结构可以包括双向编码模型(Bidirectional Encoder Representation from Transformers,BERT)、神经网络机器翻译(Neural Machine Translation,NMT)等等),和/或,不同“错误检测模型”的构建过程也可以不同,以使不同“错误检测模型”之间在错误检测处理性能也存在差异。
上述“错误检测规则”是指在对一个文本数据进行错误检测处理(例如,进行正则匹配处理)时所需依据的规则;而且本申请实施例不限定该“错误检测规则”的获取方式,例如,可以应用场景预先设定。
为了便于理解上述“至少一个错误检测结果”的确定过程,下面结合图3进行说明。
作为示例,如图3所示,上述“至少一个错误检测结果”的确定过程可以包括:利用检错模块n,对待处理文本进行错误检测处理,得到该待处理文本的第n个错误检测结果。其中,“检错模块n”用于针对一个文本数据进行错误检测处理;而且本申请实施例不限定该“检错模块n”的工作原理,例如,其可以利用一个预先构建的错误检测模型进行错误检测处理,或者也可以利用一个错误检测规则进行错误检测处理。n为正整数,n≤N,N为正整数,N表示图3中检错模块的个数(也就是,上述“至少一个错误检测结果”中错误检测结果的个数)。
基于上述“错误检测结果”的确定过程相关内容可知,可以借助多个预先构建的错误检测模型和/或多个错误检测规则,分别对待处理文本进行错误检测处理,得到该待处理文本的多个错误检测结果,以使这些错误检测结果能够更好地表示出该待处理文本中至少一个错误字符在该待处理文本中所处位置,如此有利于提高校正参考信息的准确性,从而有利于提高文本纠错效果。
实际上,为了提高文本纠错效果,可以根据一个文本数据中被保护字符所处位置,确定该文本数据的校正参考信息。基于此可知,在一种可能的实施方式中,上述“待处理文本的校正参考信息”可以包括该待处理文本的保护字符识别结果。
上述“待处理文本的保护字符识别结果”用于表示该待处理文本中至少一个被保护字符在该待处理文本中所处位置;而且本申请实施例不限定该“待处理文本的保护字符识别结果”,例如,其可以包括至少一个被保护字符位置。
另外,本申请实施例不限定该“待处理文本的保护字符识别结果”的确定过程,例如,可以采用现有的或者未来出现的任一种能够针对一个文本数据进行被保护字符识别处理的方法进行实施。
此外,为了提高错误检测结果的准确性,本申请实施例还提供了确定该“保护字符识别结果”的另一种可能的实施方式,其具体可以包括:利用至少一个预先构建的保护字符识别模型和/或至少一个保护字符识别规则,对待处理文本进行保护字符识别处理,得到该待处理文本的至少一个保护字符识别结果。
上述“保护字符识别模型”用于针对该保护字符识别模型的输入数据进行被保护字符识别处理(例如,可以针对该保护字符识别模型的输入数据中姓名、地点名称、组织名称等命名实体进行定位并识别);而且本申请实施例不限定该“保护字符识别模型”,例如,其可以采用任一机器学习模型(例如,基于命名实体识别的语言模型)进行实施。另外,本申请实施例不限定该“保护字符识别模型”的构建过程,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
需要说明的是,上述“至少一个预先构建的保护字符识别模型”中不同“保护字符识别模型”的网络结构可以不同,和/或,不同“保护字符识别模型”的构建过程也可以不同,以使不同“保护字符识别模型”之间在被保护字符识别处理性能也存在差异。
上述“保护字符识别规则”是指在对一个文本数据进行被保护字符识别处理(例如,进行正则匹配处理)时所需依据的规则,以使该“保护字符识别规则”能够针对一些特殊字符信息(例如,日期、注释内容、用户自定义特殊字符信息等)进行保护;而且本申请实施例不限定该“保护字符识别规则”的获取方式,例如,可以应用场景预先设定。
为了便于理解上述“至少一个保护字符识别结果”的确定过程,下面结合图3进行说明。
作为示例,如图3所示,上述“至少一个保护字符识别结果”的确定过程可以包括:利用保护模块q,对待处理文本进行保护字符识别处理,得到该待处理文本的第q个保护字符识别结果。其中,“保护模块q”用于针对一个文本数据进行被保护字符识别处理;而且本申请实施例不限定该“保护模块q”的工作原理,例如,其可以利用一个预先构建的保护字符识别模型进行被保护字符识别处理,或者也可以利用一个保护字符识别规则进行被保护字符识别处理。q为正整数,q≤Q,Q为正整数,Q表示图3中保护模块的个数(也就是,上述“至少一个保护字符识别结果”中保护字符识别结果的个数)。
基于上述“保护字符识别结果”的确定过程相关内容可知,可以借助多个预先构建的保护字符识别模型和/或多个保护字符识别规则,分别对待处理文本进行被保护字符识别处理,得到该待处理文本的多个保护字符识别结果,以使这些保护字符识别结果能够更好地表示出该待处理文本中至少一个被保护字符在该待处理文本中所处位置,如此有利于提高校正参考信息的准确性,从而有利于提高文本纠错效果。
实际上,为了更好地提高文本纠错效果,可以综合一个文本数据中错误字符所处位置以及被保护字符所处位置,确定该文本数据的校正参考信息。基于此可知,在一种可能的实施方式中,上述“待处理文本的校正参考信息”可以包括该待处理文本的错误检测结果和该待处理文本的保护字符识别结果。
需要说明的是,上述“错误检测结果”的相关内容请参见上文“错误检测结果”的相关内容;而且上述“保护字符识别结果”的相关内容请参见上文“保护字符识别结果”的相关内容。
可见,在一些情况下,可以同时参考一个文本数据的错误字符所处位置以及被保护字符所处位置,确定该文本数据的校正参考信息,以使该校正参考信息能够更准确地描述出在对“待处理文本的错误纠正结果”进行预设校正处理时所需依据的参考信息,如此有利于提高该预设校正处理的校正效果,从而有利于提高文本纠错效果。
实际上,为了进一步提高文本纠错效果,可以在利用不同校正参考信息校正错误纠正结果时可以采用不同校正处理过程。基于此,本申请实施例还提供了S2的五种可能的实施方式,下面分别进行介绍。
在第一种可能的实施方式下,当上述“待处理文本的校正参考信息”包括该待处理文本的错误检测结果时,S2具体可以包括:利用该错误检测结果和该错误检测结果对应的第一校正规则,对该错误纠正结果进行第一校正处理,得到待使用纠错结果。
其中,“第一校正规则”是指在利用一个文本数据的错误检测结果对该文本数据的错误纠正结果进行校正处理时(也就是,在执行第一校正处理时)所需依据的校正规则;而且本申请不限定该“第一校正规则”,例如,可以根据应用场景预先设定。
上述“第一校正处理”用于按照上述“第一校正规则”对一个文本数据的错误纠正结果进行校正处理。
另外,本申请实施例不限定该“第一校正处理”的工作原理,为了便于理解,下面以第一待校正对象的校正过程为例进行说明。其中,“第一待校正对象”是指上述“第一校正处理”所涉及的被校正对象,以使该“第一待校正对象”用于表示一个需要进行第一校正处理的文本纠错结果;而且本申请实施例不限定该“第一待校正对象”,例如,其可以是上文“错误纠正结果”,也可以是下文步骤72所示的“第二纠错结果”。
作为示例,当上述“待处理文本的错误检测结果”的个数为N,且第一待校正对象的个数为M时,上述“第一校正处理”具体可以包括步骤11-步骤13:
步骤11:利用N个错误检测结果、以及M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象,对该第m个第一待校正对象中第k个修改建议进行投票处理,得到该第k个修改建议的保留投票结果。其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数,Km表示第m个第一待校正对象中修改建议个数,N为正整数;M为正整数。
其中,“N个错误检测结果”包括:待处理文本的第1个错误检测结果、该待处理文本的第2个错误检测结果、……、以及该待处理文本的第N个错误检测结果。
上述“M个第一待校正对象”是指需要进行第一校正处理的M个文本纠错结果;而且本申请实施例不限定该“M个第一待校正对象”,例如,若步骤11至步骤13用于针对图3所示的D个错误纠正结果进行第一校正处理,则该“M个第一待校正对象”可以包括待处理文本的第1个错误纠正结果、该待处理文本的第2个错误纠正结果、……、以及该待处理文本的第D个错误纠正结果。
另外,本申请实施例不限定上述“M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象”,例如,其具体可以包括:M个第一待校正对象中除了第m个第一待校正对象以外的其他所有第一待校正对象。
上述“第k个修改建议的保留投票结果”用于表示第m个第一待校正对象中第k个修改建议被保留的可能性;而且若“第k个修改建议的保留投票结果”的数值越大,则表示该第k个修改建议被保留的可能性越大;若“第k个修改建议的保留投票结果”的数值越小,则表示该第k个修改建议被删除的可能性越大。
另外,本申请实施例不限定上述“第k个修改建议的保留投票结果”的确定过程,例如,当上述“M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象”包括F个参考对象时,该“第k个修改建议的保留投票结果”的确定过程具体可以包括步骤21-步骤23:
步骤21:根据第n个错误检测结果中至少一个错误字符位置与第k个修改建议中至少一个被修改字符位置之间的交集,确定该第n个错误检测结果对该第k个修改建议的投票个数。其中,n为正整数,n≤N,N为正整数。
作为示例,当上述“第n个错误检测结果”为图4所示的“错误检测结果1”,上述“第m个第一待校正对象”为图4所示的“第一待校正对象1”,且上述“第m个第一待校正对象中第k个修改建议”包括将“C5”修改为“C10”时,因图4所示的“错误检测结果1”中错误字符位置包括字符“C5”所处位置,使得上述“第n个错误检测结果”中至少一个错误字符位置与第k个修改建议中至少一个被修改字符位置之间的交集中存在一个元素,故可以确定该第n个错误检测结果对该第k个修改建议的投票个数为1。
需要说明的是,图4中“Cx”用于表示一个字符信息;而且本申请实施例不限定该Cx,例如,该Cx可以是某一语言下的最小语义单元(例如,中文的汉字或者英文的单词)。其中,x为正整数。另外,图4中C1至C8中任意两个字符信息可以是相同,也可以不同;C9与C4不同;C10与C5不同;C11与C8不同。此外,本申请实施例不限定图4中C1至C11,例如,C1为“这”,C2为“是”,C3为“一”,C4为“个”,C5为“辗”,C6为“示”,C7为“样”,C8为“历”,C9为“张”,C10为“展”,C11为“例”。
基于上述步骤21的相关内容可知,在利用第n个错误检测结果对第k个修改建议进行投票时,可以根据第n个错误检测结果中至少一个错误字符位置与第k个修改建议中至少一个被修改字符位置之间的交集,确定该第n个错误检测结果对该第k个修改建议的投票个数(例如,可以直接将第n个错误检测结果中至少一个错误字符位置与第k个修改建议中至少一个被修改字符位置之间的交集中元素个数,确定为该第n个错误检测结果对该第k个修改建议的投票个数),以使该“第n个错误检测结果对该第k个修改建议的投票个数”能够表示该第n个错误检测结果对该第k个修改建议的认可程度。其中,n为正整数,n≤N,N为正整数。
步骤22:根据第f个参考对象中至少一个被修改字符位置与第k个修改建议中至少一个被修改字符位置之间的交集,确定该第f个参考对象对该第k个修改建议的投票个数。其中,f为正整数,f≤F,F为正整数。
其中,“参考对象”用于表示M个第一待校正对象中除了第m个第一待校正对象以外的其他任意一个第一待校正对象。
为了便于理解步骤22,下面结合示例进行说明。
作为示例,当上述“第f个参考对象”为图4所示的“第一待校正对象2”,上述“第m个第一待校正对象”为图4所示的“第一待校正对象1”,且上述“第m个第一待校正对象中第k个修改建议”包括将“C5”修改为“C10”时,因图4所示的“第一待校正对象2”中被修改字符位置不包括字符“C5”所处位置,使得上述“第f个参考对象”中至少一个被修改字符位置与第k个修改建议中至少一个被修改字符位置之间的交集为空集,故可以确定该第f个参考对象对该第k个修改建议的投票个数为0。
基于上述步骤22的相关内容可知,在利用第f个参考对象对第k个修改建议进行投票时,可以根据该第f个参考对象中至少一个被修改字符位置与第k个修改建议中至少一个被修改字符位置之间的交集,确定该第f个参考对象对该第k个修改建议的投票个数(例如,可以直接将第f个参考对象中至少一个被修改字符位置与第k个修改建议中至少一个被修改字符位置之间的交集中元素个数,确定为该第f个参考对象对该第k个修改建议的投票个数),以使该“第f个参考对象对该第k个修改建议的投票个数”能够表示出该第f个参考对象对该第k个修改建议的认可程度。其中,f为正整数,f≤F,F为正整数。
步骤23:将N个错误检测结果对第k个修改建议的投票个数、以及F个参考对象对该第k个修改建议的投票个数进行第一统计分析处理,得到该第k个修改建议的保留投票结果。
其中,“第一统计分析处理”可以预先设定;而且本申请实施例不限定该“第一统计分析处理”,例如,其可以为加和处理。又如,其还可以为取平均值处理、取最大值处理等。
基于上述步骤11的相关内容可知,在本申请实施例中,可以利用各个错误检测结果中错误字符位置、以及M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象中被修改字符位置,对该第m个第一待校正对象中第k个修改建议中被修改字符位置进行投票处理,得到该第k个修改建议的保留投票结果,以使该“第k个修改建议的保留投票结果”能够表示出上述“N个错误检测结果”以及上述“M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象”对该第k个修改建议的认可程度,从而使得该“第k个修改建议的保留投票结果”能够更准确地表示出该第k个修改建议被保留的可能性。其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数,Km表示第m个第一待校正对象中修改建议个数,N为正整数;M为正整数。
步骤12:若确定第m个第一待校正对象中第k个修改建议的保留投票结果不满足第一条件,则从该第m个第一待校正对象中删除第k个修改建议;其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数。
其中,“第一条件”可以预先设定;而且本申请实施例不限定该“第一条件”,例如,其具体可以为:达到保留投票个数阈值(例如,图4所使用的保留投票个数阈值为1)。
上述“保留投票个数阈值”可以预先设定。另外,为了提高该“保留投票个数阈值”的灵活性,本申请实施例还提供了确定“保留投票个数阈值”的另一种可能的实施方式,其具体可以包括:先将错误检测结果的个数(例如,N)与上述“M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象”中第一待校正对象的个数(例如,M-1)进行加和,得到个数和值;再根据该个数和值与第一系数之间的乘积值,确定保留投票个数阈值(例如,可以直接将该个数和值与第一系数之间的乘积值,确定为保留投票个数阈值)。其中,“第一系数”可以预先设定(例如,“第一系数”可以为0.5)。
基于上述步骤12的相关内容可知,在获取到第m个第一待校正对象中第k个修改建议的保留投票结果之后,可以先判断该第k个修改建议的保留投票结果是否达到保留投票个数阈值,若未达到,则可以确定该第k个修改建议的保留投票结果不满足第一条件,故可以直接从该第m个第一待校正对象中删除第k个修改建议,以使该第m个第一待校正对象中不再存在该第k个修改建议(例如,在图4的“第一待校正对象1”中所记录的将“个”修改为“张”的修改建议)。其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数,Km表示第m个第一待校正对象中修改建议个数,N为正整数;M为正整数。
步骤13:若确定第m个第一待校正对象中第k个修改建议的保留投票结果满足第一条件,则保留该第m个第一待校正对象中第k个修改建议;其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数。
本申请实施例中,在获取到第m个第一待校正对象中第k个修改建议的保留投票结果之后,可以先判断该第k个修改建议的保留投票结果是否达到保留投票个数阈值,若达到,则可以确定该第k个修改建议的保留投票结果满足第一条件,故可以直接保留该第m个第一待校正对象中第k个修改建议,以使该第m个第一待校正对象中继续存在该第k个修改建议(例如,在图4的“第一待校正对象1”中所记录的将“C5”修改为“C10”的修改建议)。其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数,Km表示第m个第一待校正对象中修改建议个数,N为正整数;M为正整数。
基于上述步骤11至步骤13的相关内容可知,对于第一校正处理来说,可以先综合各个错误检测结果对该第m个第一待校正对象中第k个修改建议的投票结果、以及M个第一待校正对象中除了第m个第一待校正对象以外的其他各个第一待校正对象对该第m个第一待校正对象中第k个修改建议的投票结果,确定该第k个修改建议的保留投票结果,以使该“第k个修改建议的保留投票结果”能够表示出该第k个修改建议被保留的可能性;再根据该“第k个修改建议的保留投票结果”与保留投票个数阈值之间的相对大小,判断是否保留该第m个第一待校正对象中第k个修改建议,得到该第k个修改建议的保留判断结果;最后,根据该第m个第一待校正对象中所有修改建议的保留判断结果,确定校正后的第m个第一待校正对象,以使该“第m个第一待校正对象”中各个修改建议的保留投票结果均达到保留投票个数阈值。其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数,Km表示第m个第一待校正对象中修改建议个数,N为正整数;M为正整数。
需要说明的是,S2的第一种可能的实施方式可以采用上述步骤11至步骤13所示的第一校正处理进行实施,只需将上述步骤11至步骤13所示的第一校正处理中“第一待校正对象”替换为“错误纠正结果”、“m”替换为“d”、以及“M”替换为“D”即可。
基于上述S2的第一种可能的实施方式的相关内容可知,当上述“待处理文本的校正参考信息”包括该待处理文本的错误检测结果时,可以利用该错误检测结果和该错误检测结果对应的第一校正规则,对该错误纠正结果进行第一校正处理,得到校正后的错误纠正结果,并将该校正后的错误纠正结果,确定为待使用纠错结果,以使该待使用纠错结果能够更准确地表示出待处理文本中至少一个错误字符的修改建议。
在第二种可能的实施方式下,当上述“待处理文本的校正参考信息”包括该待处理文本的保护字符识别结果时,S2具体可以包括:利用该保护字符识别结果和该保护字符识别结果对应的第二校正规则,对该错误纠正结果进行第二校正处理,得到待使用纠错结果。
其中,“第二校正规则”是指在利用一个文本数据的保护字符识别结果对该文本数据的错误纠正结果进行校正处理时(也就是,在执行第二校正处理时)所需依据的校正规则;而且本申请不限定该“第二校正规则”,例如,可以根据应用场景预先设定。
上述“第二校正处理”用于按照上述“第二校正规则”对一个文本数据的错误纠正结果进行校正处理。
另外,本申请实施例不限定该“第二校正处理”的工作原理,为了便于理解,下面以第二待校正对象的校正过程为例进行说明。其中,“第二待校正对象”是指上述“第二校正处理”所涉及的被校正对象,以使该“第二待校正对象”用于表示一个需要进行第二校正处理的文本纠错结果;而且本申请实施例不限定该“第二待校正对象”,例如,其可以是上文“错误纠正结果”,也可以是下文步骤52所示的“第一纠错结果”。
作为示例,当上述“待处理文本的保护字符识别结果”的个数为Q时,上述“第二校正处理”具体可以包括步骤31-步骤33:
步骤31:利用Q个保护字符识别结果,对第二待校正对象中第r个修改建议进行投票处理,得到该第r个修改建议的删除投票结果。其中,r为正整数,r≤R,R为正整数,R表示第二待校正对象中修改建议个数。
其中,“Q个保护字符识别结果”包括:待处理文本的第1个保护字符识别结果、待处理文本的第2个保护字符识别结果、……、以及待处理文本的第Q个保护字符识别结果。
上述“第r个修改建议的删除投票结果”用于表示第二待校正对象中第r个修改建议被删除的可能性;而且若“第r个修改建议的删除投票结果”的数值越大,则表示该第r个修改建议被删除的可能性越大;若“第r个修改建议的删除投票结果”的数值越小,则表示该第r个修改建议被保留的可能性越大。
另外,本申请实施例不限定上述“第r个修改建议的删除投票结果”的确定过程,例如,其具体可以包括步骤41-步骤42:
步骤41:根据第q个保护字符识别结果中至少一个被保护字符位置与第r个修改建议中至少一个被修改字符位置之间的交集,确定该第q个保护字符识别结果对该第r个修改建议的投票个数。其中,q为正整数,q≤Q,Q为正整数。
本申请实施例中,在利用第q个保护字符识别结果对第r个修改建议进行投票处理时,可以根据第q个保护字符识别结果中至少一个被保护字符位置与第r个修改建议中至少一个被修改字符位置之间的交集,确定该第q个保护字符识别结果对该第r个修改建议的投票个数(例如,可以直接将第q个保护字符识别结果中至少一个被保护字符位置与第r个修改建议中至少一个被修改字符位置之间的交集中元素个数,确定为该第q个保护字符识别结果对该第r个修改建议的投票个数),以使该“第q个保护字符识别结果对该第r个修改建议的投票个数”能够表示出该第q个保护字符识别结果对该第r个修改建议的反对程度。其中,q为正整数,q≤Q,Q为正整数。
步骤42:将Q个保护字符识别结果对第r个修改建议的投票个数进行第二统计分析处理,得到该第r个修改建议的删除投票结果。
其中,“第二统计分析处理”可以预先设定;而且本申请实施例不限定该“第二统计分析处理”,例如,其可以为加和处理。又如,其还可以为取平均值处理、取最大值处理等。
基于上述步骤41至步骤42的相关内容可知,在本申请实施例中,可以参考各个保护字符识别结果中被保护字符位置与第r个修改建议中被修改字符位置之间的交集,确定该第r个修改建议的删除投票结果,以使该“第r个修改建议的删除投票结果”能够表示出上述“Q个保护字符识别结果”对该第r个修改建议的反对程度,从而使得该“第r个修改建议的删除投票结果”能够表示出该第r个修改建议被删除的可能性。
基于上述步骤31的相关内容可知,若上述“第二待校正对象”的个数为J,则对于第j个第二待校正对象来说,可以利用Q个保护字符识别结果,对该第j个第二待校正对象中第r个修改建议进行投票处理,得到该第r个修改建议的删除投票结果。其中,r为正整数,r≤Rj,Rj为正整数,Rj表示第j个第二待校正对象中修改建议个数;j为正整数,j≤J,J为正整数。
需要说明的是,若步骤31-步骤33用于针对图3所示的D个错误纠正结果进行第二校正处理,则J个第二待校正对象可以包括待处理文本的第1个错误纠正结果、该待处理文本的第2个错误纠正结果、……、以及该待处理文本的第D个错误纠正结果。
步骤32:若第二待校正对象中第r个修改建议的删除投票结果满足第二条件,则从该第二待校正对象中删除第r个修改建议。其中,r为正整数,r≤R,R为正整数,R表示第二待校正对象中修改建议个数。
其中,“第二条件”可以预先设定;而且本申请实施例不限定该“第二条件”,例如,其具体可以为:达到预先设定的删除投票个数阈值(例如,1)。
基于上述步骤32的相关内容可知,若上述“第二待校正对象”的个数为J,则对于第j个第二待校正对象来说,在获取到第j个第二待校正对象中第r个修改建议的删除投票结果之后,可以先判断该第r个修改建议的删除投票结果是否达到预先设定的删除投票个数阈值;若达到,则可以确定该第r个修改建议的删除投票结果满足第二条件,从而可以确定该第r个修改建议中被修改位置应该被保护,故可以直接从该第j个第二待校正对象中删除该第r个修改建议,以使该第j个第二待校正对象中不再存在该第r个修改建议,如此能够实现针对该第r个修改建议所涉及的被修改字符信息进行保护的目的。其中,r为正整数,r≤Rj,Rj为正整数,Rj表示第j个第二待校正对象中修改建议个数;j为正整数,j≤J,J为正整数。
需要说明的是,本申请实施例不限定上述“字符信息”,其可以是一个字、一个词、一个符号等。
步骤33:若第二待校正对象中第r个修改建议的删除投票结果不满足第二条件,则保留该第二待校正对象中第r个修改建议。其中,r为正整数,r≤R,R为正整数,R表示第二待校正对象中修改建议个数。
本申请实施例中,若上述“第二待校正对象”的个数为J,则对于第j个第二待校正对象来说,在获取到第j个第二待校正对象中第r个修改建议的删除投票结果之后,可以先判断该第r个修改建议的删除投票结果是否达到预先设定的删除投票个数阈值;若未达到,则可以确定该第r个修改建议的删除投票结果不满足第二条件,从而可以确定该第r个修改建议中被修改位置无需被保护,故可以继续保留该第j个第二待校正对象中第r个修改建议,以使该第j个第二待校正对象中继续存在该第r个修改建议。其中,r为正整数,r≤Rj,Rj为正整数,Rj表示第j个第二待校正对象中修改建议个数;j为正整数,j≤J,J为正整数。
基于上述步骤31至步骤33的相关内容可知,若上述“第二待校正对象”的个数为J,则对于第二校正处理来说,可以先综合各个保护字符识别结果对第j个第二待校正对象中第r个修改建议的投票结果,确定该第r个修改建议的删除投票结果,以使该“第r个修改建议的删除投票结果”能够表示出该第r个修改建议被删除的可能性;再根据该“第r个修改建议的删除投票结果”与预先设定的删除投票个数阈值之间的相对大小,确定是否从该第j个第二待校正对象中删除第r个修改建议,得到该第r个修改建议的删除判断结果;最后,根据该第j个第二待校正对象中所有修改建议的删除判断结果,确定校正后的第j个第二待校正对象,以使该“校正后的第j个第二待校正对象”中各个修改建议的删除投票结果均低于删除投票个数阈值。其中,r为正整数,r≤Rj,Rj为正整数,Rj表示第j个第二待校正对象中修改建议个数;j为正整数,j≤J,J为正整数。
实际上,当确定一个修改建议中某个修改字符(如,“辗”)需要被保护时,则其他修改建议中包括该修改字符的字词(如,“辗转”等)也需要被保护。基于此,为了提高第二校正处理的校正效果(例如,校正效率以及校正准确性),本申请实施例还提供了上述“第二校正处理”的另一种可能的实施方式,在该实施方式中,该“第二校正处理”除了包括上述步骤31-步骤33以外,可以还包括步骤34-步骤36:
步骤34:若第二待校正对象中第r个修改建议的删除投票结果满足第二条件,则根据该第r个修改建议,确定待使用筛选条件。
其中,“待使用筛选条件”用于筛选与上述“第r个修改建议”中被修改字符信息相关的被修改字符信息。
另外,本申请实施例不限定上述“待使用筛选条件”的确定过程,例如,当第r个修改建议包括将第一字符信息修改为第二字符信息时,可以根据该第一字符信息,确定该“待使用筛选条件”,以使该“待使用筛选条件”能够用于筛选与该第一字符信息相关的被修改字符信息,从而使得后续能够基于该“待使用筛选条件”,实现针对除了上述“第r个修改建议”以外的其他任一修改建议中与该第一字符信息相关的被修改字符信息进行保护。
步骤35:从第二待校正对象中查找满足待使用筛选条件的目标修改建议,得到查找结果。
其中,“目标修改建议”是指第二待校正对象中满足待使用筛选条件的修改建议;而且,本申请实施例不限定上述“目标修改建议”的查找范围,例如,可以只从包括上述“第r个修改建议”的第二待校正对象中进行查找,也可以从所有第二待校正对象(例如,上文“J个第二待校正对象”)中进行查找。
步骤36:若查找结果表示第二待校正中存在至少一个目标修改建议,则从第二待校正对象中删除至少一个目标修改建议。
本申请实施例中,在获取到查找结果之后,可以先判断该查找结果是否表示第二待校正中存在至少一个目标修改建议,以便在确定该查找结果表示第二待校正中存在至少一个目标修改建议之后,可以确定这些目标修改建议所涉及的被修改字符信息均与上述“第r个修改建议”中被修改字符相关,从而可以确定这些目标修改建议所涉及的被修改字符信息也需要被保护,故可以直接从第二待校正对象中删除这些目标修改建议,以使该第二待校正对象中不再存在这些目标修改建议,如此能够实现针对这些目标修改建议所涉及的被修改字符信息进行保护的目的。
基于上述步骤34至步骤36的相关内容可知,对于第二校正处理来说,在确定出一个修改建议所涉及的被修改字符信息需要被保护时,可以先基于该被修改字符信息,确定待使用筛选条件,以使该待使用筛选条件用于筛选与该被修改字符信息相关的被修改字符信息;再利用该待使用筛选条件,对涉及“与该被修改字符信息相关的被修改字符信息”的其他修改建议也进行保护,如此有利于提高第二校正处理的校正效果。
需要说明的是,S2的第二种可能的实施方式可以采用上述步骤31至步骤33所示的第二校正处理(或者,上述步骤31至步骤36所示的第二校正处理)进行实施,只需将上述步骤31至步骤33所示的第二校正处理(或者,上述步骤31至步骤36所示的第二校正处理)中“第二待校正对象”替换为“错误纠正结果”即可。
基于上述S2的第二种可能的实施方式的相关内容可知,当上述“待处理文本的校正参考信息”包括该待处理文本的保护字符识别结果时,可以利用该保护字符识别结果和该保护字符识别结果对应的第二校正规则,对该错误纠正结果进行第二校正处理,得到校正后的错误纠正结果,并将该校正后的错误纠正结果,确定为待使用纠错结果,以使该待使用纠错结果能够更准确地表示出待处理文本中至少一个错误字符的修改建议。
在第三种可能的实施方式下,当上述“待处理文本的校正参考信息”包括该待处理文本的错误检测结果和该待处理文本的保护字符识别结果时,S2具体可以包括步骤51-步骤52:
步骤51:利用待处理文本的错误检测结果和该错误检测结果对应的第一校正规则,对该待处理文本的错误纠正结果进行第一校正处理,得到第一纠错结果。
其中,“第一纠错结果”是指针对一个上述“错误纠正结果”进行第一校正处理所得的校正后的文本纠错结果。
需要说明的是,步骤51可以采用上文S2的第一种可能的实施方式所示的任一实施方式进行实施,只需将上文S2的第一种可能的实施方式所示的任一实施方式中“待使用纠错结果”替换为“第一纠错结果”即可。例如,步骤51可以采用上述步骤11至步骤13所示的第一校正处理进行实施,只需将上述步骤11至步骤13所示的第一校正处理中“第一待校正对象”替换为“错误纠正结果”、“m”替换为“d”、以及“M”替换为“D”即可。
步骤52:利用待处理文本的保护字符识别结果和该保护字符识别结果对应的第二校正规则,对第一纠错结果进行第二校正处理,得到待使用纠错结果。
需要说明的是,步骤52可以采用上文S2的第二种可能的实施方式所示的任一实施方式进行实施,只需将上文S2的第二种可能的实施方式所示的任一实施方式中“错误纠正结果”替换为“第一纠错结果”即可。例如,步骤52可以采用上文步骤31至步骤33所示的第二校正处理(或者,上述步骤31至步骤36所示的第二校正处理)进行实施,只需将上述步骤31至步骤33所示的第二校正处理(或者,上述步骤31至步骤36所示的第二校正处理)中“第二待校正对象”替换为“第一纠错结果”即可。
基于上述步骤51至步骤52的相关内容可知,如图3所示,当上述“错误纠正结果”的个数为D、上述“错误检测结果”的个数为N,且上述“保护字符识别结果”的个数为Q时,可以先综合N个错误检测结果以及D个错误纠正结果,对该D个错误纠正结果进行第一校正处理,得到B个第一纠错结果,以使该B个第一纠错结果中修改建议只是该D个错误纠正结果中部分修改建议,从而使得该B个第一纠错结果中发生错误的修改建议个数少于该D个错误纠正结果中发生错误的修改建议个数;再参考Q个保护字符识别结果,对各个第一纠错结果进行第二校正处理,得到至少一个待使用纠错结果,以使这些待使用纠错结果中修改建议只是该B个第一纠错结果中部分修改建议,从而使得这些待使用纠错结果中发生错误的修改建议个数少于该B个第一纠错结果中发生错误的修改建议个数,如此能够有效地降低这些待使用纠错结果中存在错误修改建议的可能性,如此有利于提高文本纠错效果。其中,B为正整数,且B≤D。
在第四种可能的实施方式下,当上述“待处理文本的校正参考信息”包括该待处理文本的错误检测结果和该待处理文本的保护字符识别结果时,S2具体可以包括步骤61-步骤63:
步骤61:利用待处理文本的错误检测结果和该错误检测结果对应的第一校正规则,对该待处理文本的错误纠正结果进行第一校正处理,得到第一纠错结果。
需要说明的是,步骤61的相关内容请参见上文步骤51的相关内容。
步骤62:利用待处理文本的保护字符识别结果和该保护字符识别结果对应的第二校正规则,对该待处理文本的错误纠正结果进行第二校正处理,得到第二纠错结果。
其中,“第二纠错结果”是指针对一个上述“错误纠正结果”进行第二校正处理所得的校正后的文本纠错结果。
需要说明的是,步骤62可以采用上文S2的第二种可能的实施方式所示的任一实施方式进行实施,只需将上文S2的第二种可能的实施方式所示的任一实施方式中“待使用纠错结果”替换为“第二纠错结果”即可。例如,步骤62可以采用上文步骤31至步骤33所示的第二校正处理(或者,上述步骤31至步骤36所示的第二校正处理)进行实施,只需将上述步骤31至步骤33所示的第二校正处理(或者,上述步骤31至步骤36所示的第二校正处理)中“第二待校正对象”替换为“错误纠正结果”即可。
步骤63:根据第一纠错结果与第二纠错结果,确定待使用纠错结果。
作为示例,当第d个第一纠错结果是通过对第d个错误纠正结果进行第一校正处理得到的,且第d个第二纠错结果是通过对第d个错误纠正结果进行第二校正处理得到的时,则可以将第d个第一纠错结果与第d个第二纠错结果之间的交集,确定为第d个待使用纠错结果。其中,d为正整数,d≤D,D为正整数,D表示错误纠正结果的个数。
基于上述步骤61至步骤62的相关内容可知,当上述“错误纠正结果”的个数为D、上述“错误检测结果”的个数为N,且上述“保护字符识别结果”的个数为Q时,首先,可以综合N个错误检测结果以及D个错误纠正结果,对该D个错误纠正结果进行第一校正处理,得到B个第一纠错结果,以使该B个第一纠错结果中修改建议只是该D个错误纠正结果中部分修改建议,从而使得该B个第一纠错结果中发生错误的修改建议个数少于该D个错误纠正结果中发生错误的修改建议个数;并且,还可以参考Q个保护字符识别结果,对各个错误纠正结果进行第二校正处理,得到E个第二纠错结果,以使该E个第二纠错结果中修改建议只是该D个错误纠正结果中部分修改建议,从而使得该E个第二纠错结果中发生错误的修改建议个数少于该D个错误纠正结果中发生错误的修改建议个数。然后,根据B个第一纠错结果与E个第二纠错结果,确定至少一个待使用纠错结果,以使这些待使用纠错结果中修改建议只是该B个第一纠错结果(以及者该E个第二纠错结果)中部分修改建议,从而使得这些待使用纠错结果中发生错误的修改建议个数少于该B个第一纠错结果(以及者该E个第二纠错结果)中发生错误的修改建议个数,如此能够有效地降低这些待使用纠错结果中存在错误修改建议的可能性,如此有利于提高文本纠错效果。其中,E为正整数,且E≤D;B为正整数,且B≤D。
在第五种可能的实施方式下,当上述“待处理文本的校正参考信息”包括该待处理文本的错误检测结果和该待处理文本的保护字符识别结果时,S2具体可以包括步骤71-步骤72:
步骤71:利用待处理文本的保护字符识别结果和该保护字符识别结果对应的第二校正规则,对该待处理文本的错误纠正结果进行第二校正处理,得到第二纠错结果。
需要说明的是,步骤71的相关内容请参见上文步骤62的相关内容。
步骤72:利用待处理文本的错误检测结果和该错误检测结果对应的第一校正规则,对第二纠错结果进行第一校正处理,得到待使用纠错结果。
需要说明的是,步骤72可以采用上文S2的第一种可能的实施方式所示的任一实施方式进行实施,只需将上文S2的第一种可能的实施方式所示的任一实施方式中“错误纠正结果”替换为“第二纠错结果”即可。例如,当上述“第二纠错结果”的个数为E时,步骤72可以采用上述步骤11至步骤13所示的第一校正处理进行实施,只需将上述步骤11至步骤13所示的第一校正处理中“第一待校正对象”替换为“第二纠错结果”、“m”替换为“e”、以及“M”替换为“E”即可。其中,E为正整数,且E≤D。
基于上述步骤71至步骤72的相关内容可知,如图3所示,当上述“错误纠正结果”的个数为D、上述“错误检测结果”的个数为N,且上述“保护字符识别结果”的个数为Q时,可以先参考Q个保护字符识别结果,对各个错误纠正结果进行第二校正处理,得到E个第二纠错结果,以使该E个第二纠错结果中修改建议只是该D个错误纠正结果中部分修改建议,从而使得该E个第二纠错结果中发生错误的修改建议个数少于该D个错误纠正结果中发生错误的修改建议个数;再综合N个错误检测结果以及该E个第二纠错结果,对该E个第二纠错结果进行第一校正处理,得到至少一个待使用纠错结果,以使这些待使用纠错结果中修改建议只是该E个第二纠错结果中部分修改建议,从而使得这些待使用纠错结果中发生错误的修改建议个数少于该E个第二纠错结果中发生错误的修改建议个数,如此能够有效地降低这些待使用纠错结果中存在错误修改建议的可能性,如此有利于提高文本纠错效果。其中,E为正整数,且E≤D。
实际上,为了进一步提高文本纠错效果,可以针对待使用纠错结果中修改建议进行筛选处理。基于此,本申请实施例还提供了S3的另一种可能的实施方式,其具体可以包括S31-S32:
S31:对待使用纠错结果进行预设建议筛选处理,得到第三纠错结果。
其中,“预设建议筛选处理”可以预先设定。
上述“第三纠错结果”是指针对一个待使用纠错结果进行预设建议筛选处理所得的筛选结果。
另外,本申请实施例不限定上述“第三纠错结果”的确定过程,例如,其具体可以包括步骤81-步骤83:
步骤81:确定待使用纠错结果中各个修改建议的重写概率。
其中,待使用纠错结果中第g个修改建议的重写概率用于表示在利用该第g个修改建议对待处理文本进行修改之后导致修改后的待处理文本的语义发生变化的可能性。其中,g为正整数,g≤G,G为正整数,G表示上述“待使用纠错结果”中修改建议个数。
另外,本申请实施例不限定上述“重写概率”的确定过程,下面结合示例进行说明。
作为示例,当上述“待使用纠错结果”包括待使用建议,且该待使用建议包括:将第三字符信息修改为第四字符信息时,该待使用建议的重写概率的确定过程,具体可以包括步骤91-步骤92:
步骤91:根据第三字符信息的字符特征信息和第四字符信息的字符特征信息,确定第三字符信息与第四字符信息之间的特征差异度。
其中,“字符特征信息”用于表示一个字符信息所具有的特点;而且本申请实施例不限定该“字符特征信息”,例如,其可以包括:输入操作信息、发音表征信息、以及字符形状信息中的至少一个。
上述“输入操作信息”用于描述在借助输入设备输入一个字符信息时该字符信息所具有的输入特点(例如,键盘按键位置、触控笔移动轨迹、手写板滑动轨迹等)。
上述“发音表征信息”用于表示一个字符信息的发音特点;而且本申请实施例不限定该“发音表征信息”,例如,对于一个中文字符信息(例如,汉字、词语等)来说,该“发音表征信息”可以包括该中文字符信息的拼音信息。又如,对于一个英文字符信息(例如,英文单词、英文词组等)来说,该“发音表征信息”可以包括该英文字符信息的音标信息。
上述“字符形状信息”用于表示一个字符信息的轮廓特点;而且本申请实施例不限定该“字符形状信息”,例如,其可以根据该字符信息中字符形状进行确定。
上述“第三字符信息与第四字符信息之间的特征差异度”用于表示上述“第三字符信息的字符特征信息”与上述“第四字符信息的字符特征信息”之间的差异性(也就是,不相似程度);而且本申请实施例不限定该“第三字符信息与第四字符信息之间的特征差异度”的确定过程,例如,可以借助预先构建的字符差异模型进行实施。其中,“字符差异模型”用于针对该字符差异模型的输入数据进行特征差异度衡量处理。
步骤92:根据第三字符信息与第四字符信息之间的特征差异度,确定待使用建议的重写概率。
需要说明的是,本申请实施例不限定步骤92的实施方式;例如,其具体可以包括:将第三字符信息与第四字符信息之间的特征差异度,确定为待使用建议的重写概率。又如,步骤92也可以包括:对第三字符信息与第四字符信息之间的特征差异度进行预设正相关处理,得到待使用建议的重写概率,以使该“待使用建议的重写概率”与上述“第三字符信息与第四字符信息之间的特征差异度”之间呈正相关。其中,“预设正相关处理”可以预先设定,而且本申请实施例不限定该“预设正相关处理”,可以采用现有的或者未来出现的任一种能够针对一个数值数据进行正相关处理的方法进行实施。
基于上述步骤91至步骤92的相关内容可知,对于一条修改建议来说,可以根据该修改建议中被修改字符信息与修改后字符信息之间在字符特征信息上所呈现的差异性,确定该修改建议的重写概率,以使该重写概率能够表示出在利用该修改建议对待处理文本进行修改之后导致修改后的待处理文本的语义发生变化的可能性。
需要说明的是,上述“待使用纠错结果中第g个修改建议的重写概率”的确定过程,可以采用上述步骤91-步骤92所示的重写概率确定过程进行实施,只需将上述步骤91-步骤92所示的重写概率确定过程中“待使用建议”替换为“第g个修改建议”即可。其中,g为正整数,g≤G,G为正整数,G表示上述“待使用纠错结果”中修改建议个数。
步骤82:判断待使用纠错结果中各个修改建议的重写概率是否满足第三条件,得到各个修改建议的判断结果。
其中,“第三条件”可以预先设定;而且本申请实施例不限定该“第三条件”,例如,其具体可以包括:达到预设重写阈值(例如,0.9)。
基于上述步骤82的相关内容可知,在获取到待使用纠错结果中第g个修改建议的重写概率之后,可以判断该第g个修改建议的重写概率是否满足第三条件,得到该第g个修改建议的判断结果,以使该第g个修改建议的判断结果能够表示出该第g个修改建议的重写概率是否满足第三条件(例如,第g个修改建议的重写概率是否达到预设重写阈值)。其中,g为正整数,g≤G,G为正整数,G表示上述“待使用纠错结果”中修改建议个数。
步骤83:依据待使用纠错结果中各个修改建议的判断结果,对待使用纠错结果进行重写建议删除处理,得到第三纠错结果。
其中,“重写建议删除处理”用于对一个待使用纠错结果中至少一个重写建议进行删除处理。
上述“重写建议”是指重写概率满足第三条件的修改建议;而且本申请实施例不限定“重写建议”的确定过程,例如,其具体可以包括:若上述“待使用纠错结果中第g个修改建议的判断结果”表示该第g个修改建议的重写概率满足第三条件(例如,达到预设重写阈值),则可以确定在利用该第g个修改建议对待处理文本进行修改之后,很有可能导致修改后的待处理文本的语义发生变化,故可以将该第g个修改建议确定为重写建议;然而,若上述“待使用纠错结果中第g个修改建议的判断结果”表示该第g个修改建议的重写概率不满足第三条件(例如,低于预设重写阈值),则可以确定在利用该第g个修改建议对待处理文本进行修改之后,修改后的待处理文本的语义基本没有发生变化,故可以确定该第g个修改建议不是非重写建议。
基于上述步骤83的相关内容可知,对于一个待使用纠错结果来说,在获取到该待使用纠错结果中各个修改建议的判断结果之后,可以先根据该待使用纠错结果中各个修改建议的判断结果,从该待使用纠错结果中确定出至少一个重写建议;再将从该待使用纠错结果中删除这些重写建议,得到第三纠错结果,以使该第三纠错结果中各个修改建议的重写概率均不满足第三条件,从而使得该第三纠错结果中发生错误的修改建议个数少于该待使用纠错结果中发生错误的修改建议个数。
基于上述S31的相关内容可知,在获取到第y个待使用纠错结果之后,可以针对该第y个待使用纠错结果进行预设建议筛选处理,得到该第y个待使用纠错结果对应的第三纠错结果,以使该第三纠错结果中修改建议只是该第y个待使用纠错结果中部分修改建议,从而使得该第三纠错结果中发生错误的修改建议个数少于该第y个待使用纠错结果中发生错误的修改建议个数个数。其中,y为正整数,y≤Y,Y为正整数,Y表示待使用纠错结果的个数,Y≤D。
S32:根据第三纠错结果,确定待处理文本的文本纠错信息。
需要说明的是,本申请实施例不限定S32的实施方式,例如,当上述“第三纠错结果”的个数为Y时,S32具体可以为:先对Y个“第三纠错结果”中所有修改建议进行集合处理,得到修改建议集合;再对该修改建议集合中所有修改建议进行去冗余处理,得到该待处理文本的文本纠错信息。
基于上述S31至S32的相关内容可知,在获取到至少一个待使用纠错结果之后,可以先针对各个待使用纠错结果进行预设建议筛选处理,得到各个第三纠错结果;再从这些第三纠错结果中提炼出待处理文本的文本纠错信息,以使该文本纠错信息能够更准确地表示出待处理文本中至少一个错误字符的修改建议,如此有利于提高文本纠错效果。
实际上,为了进一步提高文本纠错效果,可以参考在利用一个纠错结果对待处理文本进行修改得到的纠错后文本的语义通顺程度,确定出是否利用该纠错结果参与上述“文本纠错信息”的提炼过程。基于此,本申请实施例提供了确定“待处理文本的文本纠错信息”的一种可能的实施方式,其具体可以包括步骤101-步骤104:
步骤101:利用第t个待处理纠错结果,对待处理文本进行文本修改处理,得到第t个候选纠错文本。其中,t为正整数,t≤T,T为正整数,T表示待处理纠错结果的个数。
其中,“待处理纠错结果”是指在对上述“待处理文本的文本纠错信息”进行提炼时所需使用的纠错结果;而且本申请实施例不限定该“待处理纠错结果”,例如,当利用步骤101-步骤104实现上述S3时,该“待处理纠错结果”用于表示上述“待使用纠错结果”。又如,当利用步骤101-步骤104实现上述S32时,该“待处理纠错结果”用于表示上述“第三纠错结果”。
上述“文本修改处理”是指按照一个文本纠错结果对一个文本数据进行字符修改处理,以使修改后文本数据中不存在该文本纠错结果所涉及的被修改字符信息(例如,图4所示的“C5”),但使得该修改后文本数据中存在该文本纠错结果所涉及的修改后字符信息(例如,图4所示的“C10”)。
上述“第t个候选纠错文本”是指按照第t个待处理纠错结果对待处理文本进行字符修改处理得到的修改后文本数据。
步骤102:确定第t个候选纠错文本的通顺评分;其中,t为正整数,t≤T,T为正整数。
其中,“第t个候选纠错文本的通顺评分”用于表示该第t个候选纠错文本的语义通顺程度;而且本申请实施例不限定该“第t个候选纠错文本的通顺评分”的确定过程,例如,可以采用现有的或者未来出现的任一种能够针对一个文本数据进行语义通顺程度衡量处理的方法(例如,N-gram语言模型)进行实施。
步骤103:根据T个候选纠错文本的通顺评分,从T个候选纠错文本中筛选出满足第四条件的纠错后文本。
其中,“第四条件”可以预先设定;而且本申请实施例不限定该“第四条件”,例如,其具体可以为:具有最大通顺评分的候选纠错文本。又如,其具体可以为:通顺评分达到预设评分阈值的候选纠错文本。还如,其具体可以为:具有最大通顺评分且通顺评分达到预设评分阈值的候选纠错文本。
需要说明的是,上述“预设评分阈值”可以预先设定,也可以根据待处理文本的通顺评分进行确定(例如,可以将待处理文本的通顺评分与第二系数进行相乘,得到该预设评分阈值)。其中,“第二系数”可以预先设定,例如,其具体可以为110%。
上述“纠错后文本”用于表示满足第四条件的候选纠错文本。
另外,本申请实施例不限定步骤103的实施方式,为了便于理解,下面结合两个示例进行说明。
示例1,步骤103具体可以包括:先根据T个候选纠错文本的通顺评分,确定通顺评分最大值,以使该“通顺评分最大值”用于表示该T个候选纠错文本的通顺评分中最大值;再在确定该通顺评分最大值与待处理文本的通顺评分之间满足第五条件时,将具有该通顺评分最大值的候选纠错文本,确定为纠错后文本。
其中,“第五条件”可以预先设定;而且本申请实施例不限定该“第五条件”,例如,其具体可以为:通顺评分最大值比待处理文本的通顺评分高10%(也就是,该通顺评分最大值是待处理文本的通顺评分的110%倍)。
示例2,步骤103具体可以包括步骤111-步骤112:
步骤111:根据T个候选纠错文本的通顺评分,从该T个候选纠错文本中筛选出满足第六条件的至少一个目标纠错文本。
其中,“第六条件”可以预先设定;而且本申请实施例不限定该“第六条件”,例如,其具体可以为:通顺评分比待处理文本的通顺评分高10%的候选纠错文本。
上述“目标纠错文本”用于表示满足第六条件的候选纠错文本。
步骤112:从至少一个目标纠错文本中筛选出满足第七条件的纠错后文本。
其中,“第七条件”可以预先设定;而且本申请实施例不限定该“第七条件”,例如,其具体可以为:通顺评分最大的P个目标纠错文本。P为正整数。
基于上述步骤103的相关内容可知,在获取到T个候选纠错文本的通顺评分之后,可以参考这些候选纠错文本的通顺评分,从这些候选纠错文本中筛选出满足第四条件的纠错后文本,以使该纠错后文本具有较好的语义通顺程度,以便后续能够该纠错后文本,确定待处理文本的文本纠错信息。
步骤104:根据纠错后文本对应的待处理纠错结果,确定待处理文本的文本纠错信息。
其中,“纠错后文本对应的待处理纠错结果”是指在生成该纠错后文本时所使用的待处理纠错结果。例如,若上述“纠错后文本”是利用第t个待处理纠错结果对待处理文本进行字符修改处理得到的,则该“纠错后文本”对应的待处理纠错结果就是该第t个待处理纠错结果。
另外,本申请实施例不限定步骤104的实施方式,例如,其具体可以包括:将纠错后文本对应的待处理纠错结果,确定为待处理文本的文本纠错信息。
基于上述步骤101至步骤104的相关内容可知,在获取到T个待处理纠错结果之后,可以先利用各个待处理纠错结果对待处理文本进行文本修改处理,得到各个候选纠错文本;再根据这些候选纠错文本的语义通顺程度,确定出具有较高语义通顺程度的纠错后文本;最后,根据该纠错后文本对应的待处理纠错结果,确定待处理文本的文本纠错信息,以使该文本纠错信息能够更准确地表示出待处理文本中至少一个错误字符的修改建议,如此有利于提高文本纠错效果。
需要说明的是,上文S3可以采用上述步骤101至步骤104进行实施,只需将上述步骤101至步骤104中“待处理纠错结果”替换为“待使用纠错结果”即可。另外,上述S32也可以采用上述步骤101至步骤104进行实施,只需将上述步骤101至步骤104中“待处理纠错结果”替换为“第三纠错结果”即可。
基于上述方法实施例提供的文本纠错方法,本申请实施例还提供了一种文本纠错装置,下面结合附图进行解释和说明。
参见图5,该图为本申请实施例提供的一种文本纠错装置的结构示意图。
本申请实施例提供的文本纠错装置500,包括:
结果确定单元501,用于在获取到待处理文本之后,确定所述待处理文本的错误纠正结果和所述待处理文本的校正参考信息;
结果校正单元502,用于利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果;
信息确定单元503,用于根据所述待使用纠错结果,确定所述待处理文本的文本纠错信息。
在一种可能的实施方式中,所述校正参考信息包括错误检测结果和/或保护字符识别结果;其中,所述错误纠正结果用于表示所述待处理文本中至少一个错误字符在所述待处理文本中所处位置;所述保护字符识别结果用于表示所述待处理文本中至少一个被保护字符在所述待处理文本中所处位置。
在一种可能的实施方式中,所述校正参考信息包括错误检测结果;所述结果校正单元502,具体用于:利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到所述待使用纠错结果。
在一种可能的实施方式中,所述校正参考信息包括保护字符识别结果;所述结果校正单元502,具体用于:利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到所述待使用纠错结果。
在一种可能的实施方式中,所述校正参考信息包括错误纠正结果和保护字符识别结果;所述结果校正单元502,具体用于:利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到第一纠错结果;利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述第一纠错结果进行第二校正处理,得到所述待使用纠错结果。
在一种可能的实施方式中,所述校正参考信息包括错误纠正结果和保护字符识别结果;所述结果校正单元502,具体用于:利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到第一纠错结果;利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到第二纠错结果;根据所述第一纠错结果与所述第二纠错结果,确定所述待使用纠错结果。
在一种可能的实施方式中,所述校正参考信息包括错误纠正结果和保护字符识别结果;所述结果校正单元502,具体用于:利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到第二纠错结果;利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述第二纠错结果进行第一校正处理,得到所述待使用纠错结果。
在一种可能的实施方式中,所述错误检测结果的个数为N,第一待校正对象的个数为M;其中,N为正整数;M为正整数;
所述第一校正处理包括:利用N个错误检测结果、以及M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象,对所述第m个第一待校正对象中第k个修改建议进行投票处理,得到所述第k个修改建议的保留投票结果;其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数,Km表示所述第m个第一待校正对象中修改建议个数;若确定所述第k个修改建议的保留投票结果不满足第一条件,则从所述第m个第一待校正对象中删除所述第k个修改建议;其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数。
在一种可能的实施方式中,所述保护字符识别结果的个数为Q;其中,Q为正整数;
所述第二校正处理包括:利用Q个保护字符识别结果,对第二待校正对象中第r个修改建议进行投票处理,得到所述第r个修改建议的删除投票结果;其中,r为正整数,r≤R,R为正整数,R表示所述第二待校正对象中修改建议个数;若所述第r个修改建议的删除投票结果满足第二条件,则从所述第二待校正对象中删除所述第r个修改建议。
在一种可能的实施方式中,所述第二校正处理还包括:若所述第r个修改建议的删除投票结果满足第二条件,则根据所述第r个修改建议,确定待使用筛选条件;从所述第二待校正对象中查找满足所述待使用筛选条件的目标修改建议,得到查找结果;若所述查找结果表示所述第二待校正中存在至少一个目标修改建议,则从所述第二待校正对象中删除所述至少一个目标修改建议。
在一种可能的实施方式中,所述第r个修改建议包括将第一字符信息修改为第二字符信息;所述待使用筛选条件是根据所述第一字符信息进行确定的。
在一种可能的实施方式中,所述结果确定单元501,包括:
错误检测子单元,用于利用至少一个预先构建的错误检测模型和/或至少一个错误检测规则,对所述待处理文本进行错误检测处理,得到所述待处理文本的至少一个所述错误检测结果;
保护识别子单元,用于利用至少一个预先构建的保护字符识别模型和/或至少一个保护字符识别规则,对所述待处理文本进行保护字符识别处理,得到所述待处理文本的至少一个所述保护字符识别结果。
在一种可能的实施方式中,所述结果确定单元501,包括:
错误纠正子单元,用于利用至少一个预先构建的错误纠正模型和/或至少一个错误纠正规则,对所述待处理文本进行错误纠正处理,得到所述待处理文本的至少一个所述错误纠正结果。
在一种可能的实施方式中,所述信息确定单元503,包括:
建议筛选子单元,用于对所述待使用纠错结果进行预设建议筛选处理,得到第三纠错结果;
信息确定子单元,用于根据所述第三纠错结果,确定所述待处理文本的文本纠错信息。
在一种可能的实施方式中,所述建议筛选子单元,具体用于:确定所述待使用纠错结果中各个修改建议的重写概率;判断所述待使用纠错结果中各个修改建议的重写概率是否满足第三条件,得到所述各个修改建议的判断结果;依据所述各个修改建议的判断结果,对所述待使用纠错结果进行重写建议删除处理,得到所述第三纠错结果。
在一种可能的实施方式中,所述待使用纠错结果包括待使用建议,且所述待使用建议包括:将第三字符信息修改为第四字符信息;
所述待使用建议的重写概率的确定过程,包括:根据所述第三字符信息的字符特征信息和所述第四字符信息的字符特征信息,确定所述第三字符信息与所述第四字符信息之间的特征差异度;根据所述第三字符信息与所述第四字符信息之间的特征差异度,确定所述待使用建议的重写概率。
在一种可能的实施方式中,所述字符特征信息包括:输入操作信息、发音表征信息、以及字符形状信息中的至少一个。
在一种可能的实施方式中,所述信息确定单元503,包括:
文本修改子单元,用于利用第t个待处理纠错结果,对所述待处理文本进行文本修改处理,得到第t个候选纠错文本;其中,t为正整数,t≤T,T为正整数,T表示所述待处理纠错结果的个数;
通顺评分子单元,用于确定所述第t个候选纠错文本的通顺评分;其中,t为正整数,t≤T,T为正整数;
文本筛选子单元,用于根据T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第四条件的所述纠错后文本;
纠错确定子单元,用于根据所述纠错后文本对应的待处理纠错结果,确定所述待处理文本的文本纠错信息。
在一种可能的实施方式中,所述文本筛选子单元,具体用于:根据所述T个候选纠错文本的通顺评分,确定通顺评分最大值;若确定所述通顺评分最大值与所述待处理文本的通顺评分之间满足第五条件,则将具有所述通顺评分最大值的候选纠错文本,确定为所述纠错后文本。
在一种可能的实施方式中,所述文本筛选子单元,具体用于:根据所述T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第六条件的至少一个目标纠错文本;从所述至少一个目标纠错文本中筛选出满足第七条件的所述纠错后文本。
基于上述文本纠错装置500的相关内容可知,对于文本纠错装置500来说,在获取到待处理文本之后,先确定该待处理文本的错误纠正结果和该待处理文本的校正参考信息;再利用该校正参考信息,对该错误纠正结果进行预设校正处理,得到待使用纠错结果,以使该待使用纠错结果中修改建议更准确;最后,根据该待使用纠错结果,确定该待处理文本的文本纠错信息,以使该文本纠错信息能够更准确地表示出该待处理文本中至少一个错误字符的修改建议,从而使得在利用该文本纠错信息对该待处理文本进行修改时能够尽可能地降低误纠错发生概率,如此能够提高文本纠错效果,从而能够提高用户文本输入体验。
进一步地,本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的文本纠错方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的文本纠错方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的文本纠错方法的任一实施方式。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (19)

1.一种文本纠错方法,其特征在于,所述方法包括:
在获取到待处理文本之后,确定所述待处理文本的错误纠正结果和所述待处理文本的校正参考信息;
利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果;
根据所述待使用纠错结果,确定所述待处理文本的文本纠错信息;
所述校正参考信息包括错误检测结果和/或保护字符识别结果;其中,所述错误检测结果用于表示所述待处理文本中至少一个错误字符在所述待处理文本中所处位置;所述保护字符识别结果用于表示所述待处理文本中至少一个被保护字符在所述待处理文本中所处位置。
2.根据权利要求1所述的方法,其特征在于,所述校正参考信息包括错误检测结果;
所述利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果,包括:
利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到所述待使用纠错结果。
3.根据权利要求1所述的方法,其特征在于,所述校正参考信息包括保护字符识别结果;
所述利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果,包括:
利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到所述待使用纠错结果。
4.根据权利要求1所述的方法,其特征在于,所述校正参考信息包括错误检测结果和保护字符识别结果;
所述待使用纠错结果的确定过程,包括:
利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到第一纠错结果;利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述第一纠错结果进行第二校正处理,得到所述待使用纠错结果;
或者,
所述待使用纠错结果的确定过程,包括:
利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述错误纠正结果进行第一校正处理,得到第一纠错结果;利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到第二纠错结果;根据所述第一纠错结果与所述第二纠错结果,确定所述待使用纠错结果;
或者,
所述待使用纠错结果的确定过程,包括:
利用所述保护字符识别结果和所述保护字符识别结果对应的第二校正规则,对所述错误纠正结果进行第二校正处理,得到第二纠错结果;利用所述错误检测结果和所述错误检测结果对应的第一校正规则,对所述第二纠错结果进行第一校正处理,得到所述待使用纠错结果。
5.根据权利要求2或4所述的方法,其特征在于,所述错误检测结果的个数为N,第一待校正对象的个数为M;其中,N为正整数;M为正整数;
所述第一校正处理包括:
利用N个错误检测结果、以及M个第一待校正对象中除了第m个第一待校正对象以外的其他至少一个第一待校正对象,对所述第m个第一待校正对象中第k个修改建议进行投票处理,得到所述第k个修改建议的保留投票结果;其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数,Km表示所述第m个第一待校正对象中修改建议个数;
若确定所述第k个修改建议的保留投票结果不满足第一条件,则从所述第m个第一待校正对象中删除所述第k个修改建议;其中,m为正整数,m≤M,k为正整数,k≤Km,Km为正整数。
6.根据权利要求3或4所述的方法,其特征在于,所述保护字符识别结果的个数为Q;其中,Q为正整数;
所述第二校正处理包括:
利用Q个保护字符识别结果,对第二待校正对象中第r个修改建议进行投票处理,得到所述第r个修改建议的删除投票结果;其中,r为正整数,r≤R,R为正整数,R表示所述第二待校正对象中修改建议个数;
若所述第r个修改建议的删除投票结果满足第二条件,则从所述第二待校正对象中删除所述第r个修改建议。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述第r个修改建议的删除投票结果满足第二条件,则根据所述第r个修改建议,确定待使用筛选条件;
从所述第二待校正对象中查找满足所述待使用筛选条件的目标修改建议,得到查找结果;
若所述查找结果表示所述第二待校正中存在至少一个目标修改建议,则从所述第二待校正对象中删除所述至少一个目标修改建议。
8.根据权利要求7所述的方法,其特征在于,所述第r个修改建议包括将第一字符信息修改为第二字符信息;所述待使用筛选条件是根据所述第一字符信息进行确定的。
9.根据权利要求1所述的方法,其特征在于,所述错误检测结果的确定过程,包括:
利用至少一个预先构建的错误检测模型和/或至少一个错误检测规则,对所述待处理文本进行错误检测处理,得到所述待处理文本的至少一个所述错误检测结果;
所述保护字符识别结果的确定过程,包括:
利用至少一个预先构建的保护字符识别模型和/或至少一个保护字符识别规则,对所述待处理文本进行保护字符识别处理,得到所述待处理文本的至少一个所述保护字符识别结果。
10.根据权利要求1所述的方法,其特征在于,所述错误纠正结果的确定过程,包括:
利用至少一个预先构建的错误纠正模型和/或至少一个错误纠正规则,对所述待处理文本进行错误纠正处理,得到所述待处理文本的至少一个所述错误纠正结果。
11.根据权利要求1所述的方法,其特征在于,所述根据所述待使用纠错结果,确定所述待处理文本的文本纠错信息,包括:
对所述待使用纠错结果进行预设建议筛选处理,得到第三纠错结果;
根据所述第三纠错结果,确定所述待处理文本的文本纠错信息。
12.根据权利要求11所述的方法,其特征在于,所述第三纠错结果的确定过程,包括:
确定所述待使用纠错结果中各个修改建议的重写概率;
判断所述待使用纠错结果中各个修改建议的重写概率是否满足第三条件,得到所述各个修改建议的判断结果;
依据所述各个修改建议的判断结果,对所述待使用纠错结果进行重写建议删除处理,得到所述第三纠错结果。
13.根据权利要求12所述的方法,其特征在于,所述待使用纠错结果包括待使用建议,且所述待使用建议包括:将第三字符信息修改为第四字符信息;
所述待使用建议的重写概率的确定过程,包括:
根据所述第三字符信息的字符特征信息和所述第四字符信息的字符特征信息,确定所述第三字符信息与所述第四字符信息之间的特征差异度;
根据所述第三字符信息与所述第四字符信息之间的特征差异度,确定所述待使用建议的重写概率。
14.根据权利要求13所述的方法,其特征在于,所述字符特征信息包括:输入操作信息、发音表征信息、以及字符形状信息中的至少一个。
15.根据权利要求1或11所述的方法,其特征在于,所述待处理文本的文本纠错信息的确定过程,包括:
利用第t个待处理纠错结果,对所述待处理文本进行文本修改处理,得到第t个候选纠错文本;其中,t为正整数,t≤T,T为正整数,T表示所述待处理纠错结果的个数;
确定所述第t个候选纠错文本的通顺评分;其中,t为正整数,t≤T,T为正整数;
根据T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第四条件的所述纠错后文本;
根据所述纠错后文本对应的待处理纠错结果,确定所述待处理文本的文本纠错信息。
16.根据权利要求15所述的方法,其特征在于,所述根据T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第四条件的所述纠错后文本,包括:
根据所述T个候选纠错文本的通顺评分,确定通顺评分最大值;若确定所述通顺评分最大值与所述待处理文本的通顺评分之间满足第五条件,则将具有所述通顺评分最大值的候选纠错文本,确定为所述纠错后文本;
或者,
所述根据T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第四条件的所述纠错后文本,包括:
根据所述T个候选纠错文本的通顺评分,从所述T个候选纠错文本中筛选出满足第六条件的至少一个目标纠错文本;从所述至少一个目标纠错文本中筛选出满足第七条件的所述纠错后文本。
17.一种文本纠错装置,其特征在于,包括:
结果确定单元,用于在获取到待处理文本之后,确定所述待处理文本的错误纠正结果和所述待处理文本的校正参考信息;所述校正参考信息包括错误检测结果和/或保护字符识别结果;其中,所述错误检测结果用于表示所述待处理文本中至少一个错误字符在所述待处理文本中所处位置;所述保护字符识别结果用于表示所述待处理文本中至少一个被保护字符在所述待处理文本中所处位置;
结果校正单元,用于利用所述校正参考信息,对所述错误纠正结果进行预设校正处理,得到待使用纠错结果;
信息确定单元,用于根据所述待使用纠错结果,确定所述待处理文本的文本纠错信息。
18.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-16中任一项所述的方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-16中任一项所述的方法。
CN202111122968.8A 2021-09-24 2021-09-24 一种文本纠错方法、装置、设备和计算机可读存储介质 Active CN113779970B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111122968.8A CN113779970B (zh) 2021-09-24 2021-09-24 一种文本纠错方法、装置、设备和计算机可读存储介质
PCT/CN2022/119636 WO2023045868A1 (zh) 2021-09-24 2022-09-19 一种文本纠错方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111122968.8A CN113779970B (zh) 2021-09-24 2021-09-24 一种文本纠错方法、装置、设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113779970A CN113779970A (zh) 2021-12-10
CN113779970B true CN113779970B (zh) 2023-05-23

Family

ID=78853230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111122968.8A Active CN113779970B (zh) 2021-09-24 2021-09-24 一种文本纠错方法、装置、设备和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN113779970B (zh)
WO (1) WO2023045868A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779970B (zh) * 2021-09-24 2023-05-23 北京字跳网络技术有限公司 一种文本纠错方法、装置、设备和计算机可读存储介质
CN115713934B (zh) * 2022-11-30 2023-08-15 中移互联网有限公司 一种语音转文本的纠错方法、装置、设备及介质
CN115630635B (zh) * 2022-12-20 2023-04-25 苏州大学 一种基于检索和多阶段的中文文本校对方法、***及设备
CN117807990A (zh) * 2023-12-27 2024-04-02 北京海泰方圆科技股份有限公司 一种文本处理方法、装置、设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN107807915B (zh) * 2017-09-27 2021-03-09 北京百度网讯科技有限公司 基于纠错平台的纠错模型建立方法、装置、设备和介质
CN110457688B (zh) * 2019-07-23 2023-11-24 广州视源电子科技股份有限公司 纠错处理方法及装置、存储介质和处理器
CN110765996B (zh) * 2019-10-21 2022-07-29 北京百度网讯科技有限公司 文本信息处理方法及装置
WO2021129411A1 (zh) * 2019-12-23 2021-07-01 华为技术有限公司 文本处理方法及装置
CN111339758B (zh) * 2020-02-21 2023-06-30 苏宁云计算有限公司 基于深度学习模型的文本纠错方法及***
CN111639489A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 中文文本纠错***、方法、装置及计算机可读存储介质
CN111723791A (zh) * 2020-06-11 2020-09-29 腾讯科技(深圳)有限公司 文字纠错方法、装置、设备及存储介质
CN111950262A (zh) * 2020-07-17 2020-11-17 武汉联影医疗科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN112784581B (zh) * 2020-11-20 2024-02-13 网易(杭州)网络有限公司 文本纠错方法、装置、介质及电子设备
CN112560842B (zh) * 2020-12-07 2021-10-22 马上消费金融股份有限公司 一种信息识别方法、装置、设备和可读存储介质
CN112580324B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备以及存储介质
CN112861518B (zh) * 2020-12-29 2023-12-01 科大讯飞股份有限公司 文本纠错方法、装置和存储介质及电子装置
CN113239683A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 中文文本纠错方法、***及介质
CN113779970B (zh) * 2021-09-24 2023-05-23 北京字跳网络技术有限公司 一种文本纠错方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN113779970A (zh) 2021-12-10
WO2023045868A1 (zh) 2023-03-30

Similar Documents

Publication Publication Date Title
CN113779970B (zh) 一种文本纠错方法、装置、设备和计算机可读存储介质
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN107305541B (zh) 语音识别文本分段方法及装置
US6513005B1 (en) Method for correcting error characters in results of speech recognition and speech recognition system using the same
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN108021545B (zh) 一种司法文书的案由提取方法及装置
CN111797820B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
CN109033066B (zh) 一种摘要形成方法及装置
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN111737979B (zh) 语音文本的关键词修正方法、装置、修正设备及存储介质
CN111274785A (zh) 一种文本纠错方法、装置、设备及介质
CN112560450A (zh) 一种文本纠错方法及装置
CN112541095A (zh) 视频标题生成方法、装置、电子设备及存储介质
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及***
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
JP6146209B2 (ja) 情報処理装置、文字認識方法、及びプログラム
US11990131B2 (en) Method for processing a video file comprising audio content and visual content comprising text content
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
US20220292587A1 (en) Method and apparatus for displaying product review information, electronic device and storage medium
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
CN115687790B (zh) 基于大数据的广告推送方法、***及云平台
CN113272873A (zh) 用于增强现实的方法和设备
EP4089568A1 (en) Cascade pooling for natural language document processing
CN108882033B (zh) 一种基于视频语音的人物识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant