CN116306598A - 针对不同领域字词的定制化纠错方法、***、设备及介质 - Google Patents

针对不同领域字词的定制化纠错方法、***、设备及介质 Download PDF

Info

Publication number
CN116306598A
CN116306598A CN202310573154.9A CN202310573154A CN116306598A CN 116306598 A CN116306598 A CN 116306598A CN 202310573154 A CN202310573154 A CN 202310573154A CN 116306598 A CN116306598 A CN 116306598A
Authority
CN
China
Prior art keywords
words
word
error correction
extracted
correction reference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310573154.9A
Other languages
English (en)
Other versions
CN116306598B (zh
Inventor
季婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mido Technology Co ltd
Original Assignee
Shanghai Mdata Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mdata Information Technology Co ltd filed Critical Shanghai Mdata Information Technology Co ltd
Priority to CN202310573154.9A priority Critical patent/CN116306598B/zh
Publication of CN116306598A publication Critical patent/CN116306598A/zh
Application granted granted Critical
Publication of CN116306598B publication Critical patent/CN116306598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种针对不同领域字词的定制化纠错方法、***、设备及介质,所述方法包括:获取输入的待纠错文本;利用字词识别模型抽取所述待纠错文本中预设属性的字词;所述预设属性包括预设领域和预设长度;匹配出与所抽取字词相近的纠错参考字词;对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错。本申请可以针对特定领域的不同错误类型进行高效纠错。

Description

针对不同领域字词的定制化纠错方法、***、设备及介质
技术领域
本申请属于文本检测的技术领域,涉及一种纠错方法,特别是涉及一种针对不同领域字词的定制化纠错方法、***、设备及介质。
背景技术
随着自然语言处理技术的不断发展,文本纠错技术已经取得了巨大的进展。从最初的基于规则的纠错***到现在的基于机器学习的纠错***,技术的发展已经帮助人们解决了大量的文本纠错问题。
基于规则的纠错***是最早的文本纠错技术。它们通过预先定义的语法规则来检测文本中的错误。然而,这种方法存在一些缺陷,例如无法识别拼写错误和新词语。随着机器学习技术的发展,文本纠错技术也发生了重大变化。基于机器学习的纠错***通过分析大量的文本数据来学习语言模型,从而识别和纠正文本中的错误。然而,很多训练的语言模型需要构建与正确词汇对应的错误集,因此,训练数据以及所构建的模型都比较复杂,而且在词语匹配时匹配到的可能并不是一个词语,大量文本其实并不包含所需要检测的词语,进行大量词语匹配比较耗时。
发明内容
本申请的目的在于提供一种针对不同领域字词的定制化纠错方法、***、设备及介质,用于解决特定领域内字词出现各种错误类型纠错的问题。
本申请实施例第一方面提供一种针对不同领域字词的定制化纠错方法,所述方法包括:获取输入的待纠错文本;利用字词识别模型抽取所述待纠错文本中预设属性的字词;所述预设属性包括预设领域和预设长度;匹配出与所抽取字词相近的纠错参考字词;对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错。
在第一方面的一种实施方式中,所述字词识别模型的训练数据基于预设属性的正确字词进行构造。
在第一方面的一种实施方式中,所述训练数据的构造过程包括:设定不同错误类型的句子数量;所述错误类型包括错字、多字、少字和乱序;按照所设定的错字的句子数量,将所述正确字词中的某一个字随机替换为与之同音或同形的另一个字;按照所设定的多字的句子数量,在所述正确字词中随机***一个字;按照所设定的少字的句子数量,在所述正确字词中随机删除一个字;按照所设定的乱序的句子数量,随机调换所述正确字词中两个字词的位置;将包含所述正确字词的原始句子放入所述训练数据中;在参与构造的句子中标注已进行错误处理的或原始的正确字词的位置。
在第一方面的一种实施方式中,所述匹配出与所抽取字词相近的纠错参考字词的步骤,包括:利用相似度算法获取文本和拼音上都与所抽取字词相似的备选的正确词语;针对备选的正确词语再次进行相似度计算,确定最终的纠错参考字词。
在第一方面的一种实施方式中,所述对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错的步骤,包括:响应于所抽取字词与所述纠错参考字词之间存在差异,确定抽取字词与所述纠错参考字词的不同之处,分析不同之处的差异类型;根据所述差异类型确定纠错方式。
在第一方面的一种实施方式中,所述根据所述差异类型确定纠错方式的步骤,包括:针对不同的纠错参考字词,确定所抽取字词与每一个纠错参考字词相比错误的字数总和,选择出所抽取字词替换字数最少即可转变成的纠错参考词进行纠错;响应于所抽取字词与不同的纠错参考词之间相比错误字数相同,选取错误位置在句子后面的纠错参考词进行纠错;响应于所抽取字词与不同的纠错参考字词之间存在多种差异类型,根据拼音选择与所抽取字词最接近的纠错参考词进行纠错。
在第一方面的一种实施方式中,在所述根据所述差异程度进行纠错的步骤之后,所述方法还包括:结合已积累的所述预设领域的误报案例,确定后处理过滤规则;利用所述后处理过滤规则对纠错后的字词进行误报分析,排除误报情况。
本申请实施例第二方面提供一种针对不同领域字词的定制化纠错***,所述***包括:文本获取模块,被配置为获取输入的待纠错文本;字词抽取模块,被配置为利用字词识别模型抽取所述待纠错文本中预设属性的字词;所述预设属性包括预设领域和预设长度;字词匹配模块,被配置为匹配出与所抽取字词相近的纠错参考字词;对比纠错模块,被配置为对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错。
本申请实施例第三方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的方法。
如上所述,本申请所述的针对不同领域字词的定制化纠错方法、***、设备及介质,具有以下有益效果:
本申请通过字词识别模型抽取文本中的字词,进而匹配出与所抽取字词相近的多个纠错参考字词,通过对比所抽取字词与多个纠错参考字词的差异程度,确定所抽取字词存在的错误类型,然后进行纠错。本申请无需对正确词语本身进行多字、少字、错字替换,构建正确词汇对应的错误集,因此训练数据大大减少,通过抽取字词方式匹配最相近的参考词汇,使得所训练的字词识别模型更精简。
附图说明
图1显示为本申请实施例所述的针对不同领域字词的定制化纠错方法的应用场景示意图。
图2显示为本申请实施例所述的针对不同领域字词的定制化纠错方法的原理流程图。
图3显示为本申请实施例所述的针对不同领域字词的定制化纠错方法的匹配流程图。
图4显示为本申请实施例所述的针对不同领域字词的定制化纠错方法的对比纠错流程图。
图5显示为本申请实施例所述的针对不同领域字词的定制化纠错***的结构原理图。
图6显示为本申请实施例所述的电子设备的结构连接示意图。
元件标号说明
5——针对不同领域字词的定制化纠错***;51——文本获取模块;52——字词抽取模块;53——字词匹配模块;54——对比纠错模块;6——电子设备;61——处理器;62——存储器;63——通信接口;64——***总线;S21~S24——步骤;S231~S232——步骤;S241~S242——步骤。
实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本申请以下实施例提供了针对不同领域字词的定制化纠错方法、***、设备及介质,包括但不限于应用于各种包含处理器和存储器的电子设备,以下将以本申请的硬件应用场景为例进行描述。
如图1所示,本实施例提供一种针对不同领域字词的定制化纠错方法的应用场景,针对不同领域字词的定制化纠错方法应用于电子设备,例如手机终端。在一唐诗领域的文本中,某句话为“春眠不决晓”,在该长词或者长句中,“决”字为错别字,经本申请判别与纠错,依据正确的纠错参考字词最后得到“春眠不觉晓”。
所述电子设备例如可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF 电路、音频电路、扬声器、麦克风、输入/输出(I/O)子***、显示屏、其他输出或控制设备,以及外部端口等所有或部分组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述电子设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以是由分布的或集中的服务器集群构成的云服务器,本实施例不作限定。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细描述。
请参阅图2,显示为本申请实施例所述的针对不同领域字词的定制化纠错方法的原理流程图。如图2所示,本实施例提供的针对不同领域字词的定制化纠错方法,具体包括以下步骤:
S21,获取输入的待纠错文本。
于实际应用中,待纠错文本指的是特定领域的文本内容,例如法治领域的法规名称、国学古文领域中的古诗词的词句、医学领域的疾病名称、药物名称等不同领域的专有名词,优选地,本申请的字词指不同领域中专有的具有一定字数长度的长词。
S22,利用字词识别模型抽取所述待纠错文本中预设属性的字词;所述预设属性包括预设领域和预设长度。例如,预设领域为医学领域,预设长度为5个字以上。与预设属性相对应的,字词识别模型也是该特定领域所用的识别模型,由此实现定制化纠错。
具体地,字词识别模型是指NER模型,训练NER模型并使用NER模型对输入的待纠错文本进行长词抽取。由此,对于文本进行NER模型抽取,抽取得到可能存在的长词。
其中,NER(Named Entity Recognition,命名实体识别)是指从自由文本中识别出属于预定义类别的文本片段。NER任务最早由第六届语义理解会议(MessageUnderstanding Conference)提出,当时仅定义一些通用实体类别,如地点、机构、人物等。目前命名实体识别任务已经深入各种垂直领域,如医疗、金融等。NER常用的模型有:BERT+CRF, BERT+GlobalPointer等。
于另外的实施例中,NER模型可使用BERT+CRF等其他NER模型进行替换。
于一实施例中,所述字词识别模型的训练数据基于预设属性的正确字词进行构造。
具体地,所述训练数据的构造过程包括:
(1)设定不同错误类型的句子数量;所述错误类型包括错字、多字、少字和乱序。
具体地,由某一领域相关网站或其他文本数据收集渠道,收集该领域内所有专有字词的名称,组成正确的长词集合。设定错字、多字、少字的数量。先设定每条包含长词的文本都生成10条错句,其中包括5条错字句子、2条多字句子、2条少字句子、1条乱序句子。
(2)按照所设定的错字的句子数量,将所述正确字词中的某一个字随机替换为与之同音或同形的另一个字。
具体地,按照设定的5条错字句子,随机错一个字。构造方法为:随机替换一个字为另一个字,此处被替换的另一个字为同音或者同形。同音或同形各有50%几率。例如,根据国学领域中的一句唐诗“春眠不觉晓”构造错字句子“春眠不决晓”。
(3)按照所设定的多字的句子数量,在所述正确字词中随机***一个字。
具体地,按照设定的2条多字句子,随机增加一个字。构造方法为:在长词中随机***一个字。1/3是***一个随机的字、1/3***一个同头词的第二个字、1/3***一个同尾词的第一个字。例如,根据国学领域中的一句唐诗“春眠不觉晓”构造多字句子“春眠不或觉晓”。
(4)按照所设定的少字的句子数量,在所述正确字词中随机删除一个字。
具体地,按照设定的2条少字句子,随机减少一个字。构造方法为:在长词中随机删除一个字。例如,根据国学领域中的一句唐诗“春眠不觉晓”构造少字句子“春眠觉晓”。
(5)按照所设定的乱序的句子数量,随机调换所述正确字词中两个字词的位置。
具体地,按照设定的1条乱序句子,随机替换2个词语的位置。构造方法:50%替换相邻的2个字,50%替换相邻的2个词。例如,根据国学领域中的一句唐诗“春眠不觉晓”构造乱序句子“春眠不晓觉”。
(6)将包含所述正确字词的原始句子放入所述训练数据中。
具体地,将唐诗中正确词句“春眠不觉晓”放入所述训练数据中。
(7)在参与构造的句子中标注已进行错误处理的或原始的正确字词的位置。
具体地,针对每条构造后的语句,都标示出对应长词位置。使用构造后的数据进行模型训练并得到字词识别模型。于实际应用中,可以选择BERT+GlobalPointer模型。
S23,匹配出与所抽取字词相近的纠错参考字词。
具体地,使用BM25与文本相似度召回(匹配)与抽取长词相近的正确的词语,即纠错参考字词。
其中,BM25是目前信息索引领域最主流的计算用户输入与已有文档相似度得分的算法。BM25的公式主要由三个部分组成:(1)对Query进行语素解析,生成语素qi;(2)对于每个搜索结果D,计算每个语素qi与D的相关性得分;(3)将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。算法公式如下:
Figure SMS_1
其中,Q表示Query(查询),qi表示Q解析之后的一个语素,d表示一个搜索结果文档,Wi表示语速qi的权重,R(qi,d)表示语素qi与文档d的相关性得分。
于另外的实施例中,正确词语召回中使用的BM25算法也可使用其他的成熟搜索库进行替代,如:lucence。
请参阅图3,显示为本申请实施例所述的针对不同领域字词的定制化纠错方法的匹配流程图。如图3所示,步骤S23具体包括:
S231,利用相似度算法获取文本和拼音上都与所抽取字词相似的备选的正确词语。
具体地,使用BM25算法得到文本和拼音上都与抽取到的词汇最相似的前20个正确词语,共40个作为备选。
于实际应用中,所抽取字词为:浙江省生活垃圾分类管理条例。
使用文本召回的20个词语为:
'浙江省生活垃圾管理条例'、'晋城市生活垃圾分类管理条例'、'朝阳市生活垃圾分类管理条例'、'深圳市生活垃圾分类管理条例'、'安徽省生活垃圾分类管理条例'、'盘锦市生活垃圾分类管理条例'、'马鞍山市生活垃圾分类管理条例'、'茂名市生活垃圾分类管理条例'、'锦州市生活垃圾分类管理条例'、'西安市生活垃圾分类管理条例'、'辽阳市生活垃圾分类管理条例'、'福州市生活垃圾分类管理条例'、'抚顺市生活垃圾分类管理条例'、'苏州市生活垃圾分类管理条例'、'长治市生活垃圾分类管理条例'、'铜陵市生活垃圾分类管理条例'、'焦作市生活垃圾分类管理条例'、'桓仁满族自治县生活垃圾分类管理条例'、'汕头经济特区生活垃圾分类管理条例'、'葫芦岛市生活垃圾分类管理条例'。
使用拼音(zhejiangshengshenghuolajifenleiguanlitiaoli)召回的20个词语拼音为:
'zhejaingshengshenghuolajiguanlitiaoli'、'jinchengshishenghuolajifenleiguanlitiaoli'、'chaoyangshishenghuolajifenleiguanlitiaoli'、'shenzhenshishenghuolajifenleiguanlitiaoli'、'anhuishengshenghuolajifenleiguanlitiaoli'、'panjinshishenghuolajifenleiguanlitiaoli'、'maanshanshishenghuolajifenleiguanlitiaoli'、'maomingshishenghuolajifenleiguanlitiaoli'、'jinzhoushishenghuolajifenleiguanlitiaoli'、'xianshishenghuolajifenleiguanlitiaoli'、'liaoyangshishenghuolajifenleiguanlitiaoli'、'fuzhoushishenghuolajifenleiguanlitiaoli'、'fushunshishenghuolajifenleiguanlitiaoli'、'suzhoushishenghuolajifenleiguanlitiaoli'、'changzhishishenghuolajifenleiguanlitiaoli'、'tonglingshishenghuolajifenleiguanlitiaoli'、'jiaozuoshishenghuolajifenleiguanlitiaoli'、'huanrenmanzuzizhixianshenghuolajifenleiguanlitiaoli'、'shantoujngjitequshenghuolajifenleiguanlitiaoli'、'huludaoshishenghuolajifenleiguanlitiaoli'。
其中,在使用拼音召回时,召回词语可以通过召回词语的拼音一一对应得到。
S232,针对备选的正确词语再次进行相似度计算,确定最终的纠错参考字词。
具体地,对于文本和拼音召回的词语再次进行相似度对比,选取相似度最高的5个词进行具体对比。于实际应用中,使用相似度方法,再次计算40个备选词和所抽取字词对应的相似度,从中再次缩小到5个备选词,选择相似度大于0.6的、相似度最高的5个词。其中,相似度=2*两个字符串匹配到的公共字符串的总长度/两个对比的字符串的长度之和。
S24,对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错。
具体地,使用最终确定的相似度最高的5个词作为5个纠错参考字词,和所抽取长词进行对比,若判断有错,则报错,同时返回对应的正确词语。
请参阅图4,显示为本申请实施例所述的针对不同领域字词的定制化纠错方法的对比纠错流程图。如图4所示,步骤S24具体包括:
S241,响应于所抽取字词与所述纠错参考字词之间存在差异,确定抽取字词与所述纠错参考字词的不同之处,分析不同之处的差异类型。
具体地,使用difflib库得到所抽取字词与所述纠错参考字词这两个对比字符串的不同处,可得到错字、多字、少字等的对比结果。其中,difflib为python的标准库模块,作用是对比文本之间的差异。
S242,根据所述差异类型确定纠错方式。
于一实施例中,步骤S242包括:
(1)针对不同的纠错参考字词,确定所抽取字词与每一个纠错参考字词相比错误的字数总和,选择出所抽取字词替换字数最少即可转变成的纠错参考词进行纠错。
具体地,找所有错误的字数总和,选择出替换字数最少的。
例如,抽取到国学领域中的一句唐诗“春眠不决晓”,纠错参考字词1为“春眠不觉晓”,纠错参考字词2为“春来发几枝”。对比看到,所抽取的“春眠不决晓”相比于纠错参考字词1错了1个字,相比于纠错参考字词2错了4个字,因此,以错字较少的纠错参考字词1为最终的纠错参考词。
(2)响应于所抽取字词与不同的纠错参考词之间相比错误字数相同,选取错误位置在句子后面的纠错参考词进行纠错。
具体地,如果错误字数一样多的,以错在后面的为先。
例如,抽取到字词为:办公管理条例,可能匹配到的:广告管理条例、办公事务条例。
广告管理条例和办公事务条例与办公管理条例相比,都是错了2个字,但是广告管理条例中的“广告”与“办公”不同,其错词索引index是0~1;办公事务条例中的“事务”与“管理”不同,其错词索引index是2~3,因此,以后面错的办公事务条例优先,将办公事务条例作为最终的纠错参考词。
(3)响应于所抽取字词与不同的纠错参考字词之间存在多种差异类型,根据拼音选择与所抽取字词最接近的纠错参考词进行纠错。
具体地,如果出现多种可以报错的选择,根据拼音来选择最接近的。
于实际应用中,所抽取字词为:XXX反龙端法,可能匹配到:XXX反洗钱法和XXX反垄断法,但是由于垄断和龙端的拼音一致,所以选择XXX反垄断法作为最终的纠错参考词。
于一实施例中,在步骤S24之后,所述方法还包括:
结合已积累的所述预设领域的误报案例,确定后处理过滤规则;
利用所述后处理过滤规则对纠错后的字词进行误报分析,排除误报情况。
于实际应用中,冠状动脉粥样硬化性心脏病简称冠心病。例如在医学文本中出现冠状动脉粥样硬化性心脏病(以下简称“冠心病”)。此处的冠心病虽然少字,但不应该报错。
本申请实施例所述的针对不同领域字词的定制化纠错方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。
本申请实施例还提供一种针对不同领域字词的定制化纠错***,所述针对不同领域字词的定制化纠错***可以实现本申请所述的针对不同领域字词的定制化纠错方法,但本申请所述的针对不同领域字词的定制化纠错方法的实现装置包括但不限于本实施例列举的针对不同领域字词的定制化纠错***的结构,凡是根据本申请的原理所做的现有技术的结构变形和替换,都包括在本申请的保护范围内。
请参阅图5,显示为本申请实施例所述的针对不同领域字词的定制化纠错***的结构原理图。如图5所示,本实施例提供的针对不同领域字词的定制化纠错***5,包括:文本获取模块51、字词抽取模块52、字词匹配模块53和对比纠错模块54。
所述文本获取模块51被配置为获取输入的待纠错文本。
所述字词抽取模块52被配置为利用字词识别模型抽取所述待纠错文本中预设属性的字词;所述预设属性包括预设领域和预设长度。
于一实施例中,所述字词识别模型的训练数据基于预设属性的正确字词进行构造。
于一实施例中,所述训练数据的构造过程包括:设定不同错误类型的句子数量;所述错误类型包括错字、多字、少字和乱序;按照所设定的错字的句子数量,将所述正确字词中的某一个字随机替换为与之同音或同形的另一个字;按照所设定的多字的句子数量,在所述正确字词中随机***一个字;按照所设定的少字的句子数量,在所述正确字词中随机删除一个字;按照所设定的乱序的句子数量,随机调换所述正确字词中两个字词的位置;将包含所述正确字词的原始句子放入所述训练数据中;在参与构造的句子中标注已进行错误处理的或原始的正确字词的位置。
所述字词匹配模块53被配置为匹配出与所抽取字词相近的纠错参考字词。
于一实施例中,所述字词匹配模块53具体被配置为利用相似度算法获取文本和拼音上都与所抽取字词相似的备选的正确词语;针对备选的正确词语再次进行相似度计算,确定最终的纠错参考字词。
所述对比纠错模块54被配置为对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错。
于一实施例中,所述对比纠错模块54具体被配置为响应于所抽取字词与所述纠错参考字词之间存在差异,确定抽取字词与所述纠错参考字词的不同之处,分析不同之处的差异类型;根据所述差异类型确定纠错方式。
于一实施例中,所述对比纠错模块54更具体被配置为针对不同的纠错参考字词,确定所抽取字词与每一个纠错参考字词相比错误的字数总和,选择出所抽取字词替换字数最少即可转变成的纠错参考词进行纠错;响应于所抽取字词与不同的纠错参考词之间相比错误字数相同,选取错误位置在句子后面的纠错参考词进行纠错;响应于所抽取字词与不同的纠错参考字词之间存在多种差异类型,根据拼音选择与所抽取字词最接近的纠错参考词进行纠错。
于一实施例中,所述针对不同领域字词的定制化纠错***,还包括:误报分析模块,被配置为结合已积累的所述预设领域的误报案例,确定后处理过滤规则;利用所述后处理过滤规则对纠错后的字词进行误报分析,排除误报情况。
在本申请所提供的几个实施例中,应该理解到,所揭露的***或方法,可以通过其它的方式实现。例如,以上所描述的***实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如,在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
请参阅图6,显示为本申请实施例所述的电子设备的结构连接示意图。如图6所示,本申请的电子设备6包括:处理器61、存储器62、通信接口63或/和***总线64。存储器62和通信接口63通过***总线64与处理器61连接并完成相互间的通信,存储器62用于存储计算机程序,通信接口63用于和其他设备进行通信,处理器61用于运行计算机程序,使所述电子设备6执行针对不同领域字词的定制化纠错方法的各个步骤。
上述的处理器61可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述的存储器62可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述提到的***总线64可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该***总线64可以分为地址总线、数据总线、控制总线等。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的针对不同领域字词的定制化纠错方法。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetic tape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种针对不同领域字词的定制化纠错方法,其特征在于,所述方法包括:
获取输入的待纠错文本;
利用字词识别模型抽取所述待纠错文本中预设属性的字词;所述预设属性包括预设领域和预设长度;
匹配出与所抽取字词相近的纠错参考字词;
对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错。
2.根据权利要求1所述的方法,其特征在于:
所述字词识别模型的训练数据基于预设属性的正确字词进行构造。
3.根据权利要求2所述的方法,其特征在于,所述训练数据的构造过程包括:
设定不同错误类型的句子数量;所述错误类型包括错字、多字、少字和乱序;
按照所设定的错字的句子数量,将所述正确字词中的某一个字随机替换为与之同音或同形的另一个字;
按照所设定的多字的句子数量,在所述正确字词中随机***一个字;
按照所设定的少字的句子数量,在所述正确字词中随机删除一个字;
按照所设定的乱序的句子数量,随机调换所述正确字词中两个字词的位置;
将包含所述正确字词的原始句子放入所述训练数据中;
在参与构造的句子中标注已进行错误处理的或原始的正确字词的位置。
4.根据权利要求1所述的方法,其特征在于,所述匹配出与所抽取字词相近的纠错参考字词的步骤,包括:
利用相似度算法获取文本和拼音上都与所抽取字词相似的备选的正确词语;
针对备选的正确词语再次进行相似度计算,确定最终的纠错参考字词。
5.根据权利要求1所述的方法,其特征在于,所述对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错的步骤,包括:
响应于所抽取字词与所述纠错参考字词之间存在差异,确定抽取字词与所述纠错参考字词的不同之处,分析不同之处的差异类型;
根据所述差异类型确定纠错方式。
6.根据权利要求5所述的方法,其特征在于,所述根据所述差异类型确定纠错方式的步骤,包括:
针对不同的纠错参考字词,确定所抽取字词与每一个纠错参考字词相比错误的字数总和,选择出所抽取字词替换字数最少即可转变成的纠错参考词进行纠错;
响应于所抽取字词与不同的纠错参考词之间相比错误字数相同,选取错误位置在句子后面的纠错参考词进行纠错;
响应于所抽取字词与不同的纠错参考字词之间存在多种差异类型,根据拼音选择与所抽取字词最接近的纠错参考词进行纠错。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述差异程度进行纠错的步骤之后,所述方法还包括:
结合已积累的所述预设领域的误报案例,确定后处理过滤规则;
利用所述后处理过滤规则对纠错后的字词进行误报分析,排除误报情况。
8.一种针对不同领域字词的定制化纠错***,其特征在于,所述***包括:
文本获取模块,被配置为获取输入的待纠错文本;
字词抽取模块,被配置为利用字词识别模型抽取所述待纠错文本中预设属性的字词;所述预设属性包括预设领域和预设长度;
字词匹配模块,被配置为匹配出与所抽取字词相近的纠错参考字词;
对比纠错模块,被配置为对比所抽取字词与所述纠错参考字词之间的差异程度,根据所述差异程度进行纠错。
9.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
CN202310573154.9A 2023-05-22 2023-05-22 针对不同领域字词的定制化纠错方法、***、设备及介质 Active CN116306598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310573154.9A CN116306598B (zh) 2023-05-22 2023-05-22 针对不同领域字词的定制化纠错方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310573154.9A CN116306598B (zh) 2023-05-22 2023-05-22 针对不同领域字词的定制化纠错方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN116306598A true CN116306598A (zh) 2023-06-23
CN116306598B CN116306598B (zh) 2023-09-08

Family

ID=86785391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310573154.9A Active CN116306598B (zh) 2023-05-22 2023-05-22 针对不同领域字词的定制化纠错方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN116306598B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013219188A1 (en) * 2007-01-04 2013-09-12 Thinking Solutions Pty Ltd Linguistic Analysis
WO2014117549A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN112597753A (zh) * 2020-12-22 2021-04-02 北京百度网讯科技有限公司 文本纠错处理方法、装置、电子设备和存储介质
CN112949290A (zh) * 2021-02-03 2021-06-11 深圳市优必选科技股份有限公司 文本纠错方法、装置及通信设备
CN114238370A (zh) * 2021-12-08 2022-03-25 中信银行股份有限公司 一种ner实体识别算法在报表查询中的应用方法及***
WO2022105083A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质
US20220198137A1 (en) * 2020-12-23 2022-06-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Text error-correcting method, apparatus, electronic device and readable storage medium
CN114861637A (zh) * 2022-05-18 2022-08-05 北京百度网讯科技有限公司 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN114861636A (zh) * 2022-05-10 2022-08-05 网易(杭州)网络有限公司 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN115130463A (zh) * 2022-04-19 2022-09-30 腾讯科技(深圳)有限公司 纠错方法、模型训练方法、计算机介质以及设备
WO2022267353A1 (zh) * 2021-06-25 2022-12-29 北京市商汤科技开发有限公司 文本纠错的方法、装置、电子设备及存储介质
WO2023005293A1 (zh) * 2021-07-30 2023-02-02 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN115965009A (zh) * 2022-12-23 2023-04-14 中国联合网络通信集团有限公司 文本纠错模型的训练与文本纠错方法、设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013219188A1 (en) * 2007-01-04 2013-09-12 Thinking Solutions Pty Ltd Linguistic Analysis
WO2014117549A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
WO2022105083A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质
CN112597753A (zh) * 2020-12-22 2021-04-02 北京百度网讯科技有限公司 文本纠错处理方法、装置、电子设备和存储介质
US20220198137A1 (en) * 2020-12-23 2022-06-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Text error-correcting method, apparatus, electronic device and readable storage medium
CN112949290A (zh) * 2021-02-03 2021-06-11 深圳市优必选科技股份有限公司 文本纠错方法、装置及通信设备
WO2022267353A1 (zh) * 2021-06-25 2022-12-29 北京市商汤科技开发有限公司 文本纠错的方法、装置、电子设备及存储介质
WO2023005293A1 (zh) * 2021-07-30 2023-02-02 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN114238370A (zh) * 2021-12-08 2022-03-25 中信银行股份有限公司 一种ner实体识别算法在报表查询中的应用方法及***
CN115130463A (zh) * 2022-04-19 2022-09-30 腾讯科技(深圳)有限公司 纠错方法、模型训练方法、计算机介质以及设备
CN114861636A (zh) * 2022-05-10 2022-08-05 网易(杭州)网络有限公司 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN114861637A (zh) * 2022-05-18 2022-08-05 北京百度网讯科技有限公司 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN115965009A (zh) * 2022-12-23 2023-04-14 中国联合网络通信集团有限公司 文本纠错模型的训练与文本纠错方法、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郝亚男;乔钢柱;谭瑛;: "面向OCR文本识别词错误自动校对方法研究", 计算机仿真, no. 09 *

Also Published As

Publication number Publication date
CN116306598B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
US20200081899A1 (en) Automated database schema matching
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
Goyal et al. A context-based word indexing model for document summarization
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US20130060769A1 (en) System and method for identifying social media interactions
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN111695355A (zh) 地址文本识别方法、装置、介质、电子设备
US20200134398A1 (en) Determining intent from multimodal content embedded in a common geometric space
Stover et al. Computational authorship verification method attributes a new work to a major 2nd century a frican author
CN101689198A (zh) 使用规格化串的语音搜索
CN112559895A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN111126067A (zh) 实体关系抽取方法及装置
CN111506595B (zh) 一种数据查询方法、***及相关设备
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
Wang et al. Data set and evaluation of automated construction of financial knowledge graph
JP2021093163A (ja) ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム
CN112328735A (zh) 热点话题确定方法、装置及终端设备
Wu et al. Efficient reuse of natural language processing models for phenotype-mention identification in free-text electronic medical records: a phenotype embedding approach
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
Phuvipadawat et al. Detecting a multi-level content similarity from microblogs based on community structures and named entities
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN116306598B (zh) 针对不同领域字词的定制化纠错方法、***、设备及介质
Chen et al. Distant supervision for relation extraction with sentence selection and interaction representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204

Patentee after: Shanghai Mido Technology Co.,Ltd.

Address before: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204

Patentee before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder