CN111931490B - 文本纠错方法、装置及存储介质 - Google Patents
文本纠错方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111931490B CN111931490B CN202011030582.XA CN202011030582A CN111931490B CN 111931490 B CN111931490 B CN 111931490B CN 202011030582 A CN202011030582 A CN 202011030582A CN 111931490 B CN111931490 B CN 111931490B
- Authority
- CN
- China
- Prior art keywords
- corrected
- word
- text
- candidate word
- text sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及医疗科技技术领域,具体公开了一种文本纠错方法、装置及存储介质。该方法包括:获取医疗领域的待纠错文本;将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本。本申请有利于提高文本纠错精度。
Description
技术领域
本申请涉及文本识别技术领域,具体涉及一种文本纠错方法、装置及存储介质。
背景技术
文本纠错是自然语言处理(Natural Language Processing,NLP)的一个基础任务,是搜索引擎,语音识别,内容审查等功能更好运行的基础模块之一。比如,在医疗领域来说,进行文本纠错可以快速检索出医生所需的历史病例,从而提高医生的诊断效率。
目前文本纠错方法流程一般是从检错到纠错。其中,对文本检错需要通过一个模型实现,纠错需要通过另外一个模型实现。由于两个模型单独训练,导致在进行纠错的过程中需要协调工作,然而,由于两个模型之间的训练场景或者训练目的不同,导致两个模型之间难以输出最优解,导致对文本纠错精度低。
发明内容
本申请实施例提供了一种文本纠错方法、装置及存储介质。通过一个微调后的网络模型对待纠错文本进行检错和纠错,无需模型之间的协调,提高文本纠错精度。
第一方面,本申请实施例提供一种文本纠错方法,包括:
获取医疗领域的待纠错文本;
将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;
通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本。
第二方面,本申请实施例提供一文本纠错装置,包括:
获取单元,用于获取医疗领域的待纠错文本;
处理单元,用于将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;
所述处理单元,还用于通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本。
第三方面,本申请实施例提供一种文本纠错装置,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,通过一个微调后与医疗领域对应的网络模型,可以对医疗领域的待纠错文本进行检错和纠错。所以,在纠错的过程中无需模型之间的协调,使用一个模型即可完成纠错,从而提高文本纠错精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本纠错方法的流程示意图;
图2为本申请实施例提供的一种网络模型的结构示意图;
图3为本申请实施例提供的一种网络模型训练方法的流程示意图;
图4为本申请实施例提供的一种文本纠错装置的结构示意图;
图5为本申请实施例提供的一种文本纠错装置的功能单元组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1为本申请实施例提供的一种文本纠错方法的流程示意图。该方法应用于文本纠错装置。该方法包括以下步骤:
101:文本纠错装置获取医疗领域的待纠错文本。
其中,该待纠错文本可以是用户输入的待纠错文本,比如,用户在搜索框输入的待纠错文本或者在对话框输入的待纠错文本。
102:文本纠错装置将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词。
其中,该医疗模型是预先微调好的与该医疗领域对应的网络模型,后面详细叙述对该网络模型的训练过程,在此不做过多描述。
示例性的,可通过该网络模型对该待纠错文本中的每个单词进行编码,得到每个单词对应的词向量;根据每个单词对应的特征向量确定每个单词对应的评分,比如,可以将每个单词的特征向量输入到该网络模型的全连接层进行分类,得到每个单词对应的评分,然后,根据每个单词的评分确定该待纠错文本中的待纠错单词,比如,可以将评分小于第一阈值的单词作为待纠错单词,其中,对每个单词进行编码可通过bert编码实现。
在本申请的一个实施方式,可对每个单词进行编码,得到每个单词对应的词向量;然后,基于该网络模型的自注意力机制对每个单词对应的词向量进行融合,得到每个单词对应的目标特征向量。
103:文本纠错装置通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本。
示例性的,可从字典库中获取与该待纠错单词对应的至少一个候选待纠错单词,比如,形近词、音近词,等等;然后,分别使用该至少一个候选待纠错单词中的每个候选待纠错单词对该待纠错文本中的待纠错单词进行替换,得到新的文本;最后,通过网络模型对新文本中的每个单词进行编码,得到每个候选待纠错单词的评分,使用评分最大的候选待纠错单词对该待纠错单词进行替换,得到纠错后的文本。
可以看出,在本申请实施例中,通过一个微调后与医疗领域对应的网络模型,可以对医疗领域的待纠错文本进行检错和纠错。所以,在纠错的过程中无需模型之间的协调,使用一个模型即可完成纠错,从而提高文本纠错精度。
在本申请的一个实施方式中,还可从字典库中获取与该待纠错单词对应的至少一个候选待纠错单词;然后,获取该至少一个候选待纠错单词中每个候选待纠错单词的实体类型,比如,待纠错文本为“二甲双瓜片”,则待纠错单词为“瓜”,而该待纠错单词对应的候选待纠错单词包括“胍”、“褂”,等等。而且候选待纠错单词“胍”的实体类型为医疗实体;通过网络模型对每个候选待纠错单词以及每个候选待纠错单词对应的实体类型进行编码,得到每个候选待纠错单词对应的编码向量;通过该网络模型对该待纠错文本中的每个单词对应的词向量以及每个候选待纠错单词对应的编码向量进行融合处理,得到每个候选待纠错单词的目标特征向量;根据每个候选待纠错单词的目标特征向量,得到每个候选待纠错单词对应的评分,该评分用于表示使用每个候选待纠错单词对该待纠错文本中的待纠错单词进行替换后的文本的合理度;最后,使用评分最大的候选待纠错单词对所述待纠错文本中的待纠错单词进行替换,得到纠错后的文本。
示例性的,如图2所示,可通过该网络模型对每个候选待纠错单词以及每个候选待纠错单词对应的实体类型进行编码。比如,可对每个候选单词进行编码,得到每个候选待纠错单词对应的第一词向量,比如,可以通过词嵌入的方法进行编码;然后,对每个候选待纠错单词对应的实体类型进行编码,得到每个候选待纠错单词对应的第二词向量;最后,将每个候选待纠错单词对应的第一词向量以及第二词向量进行按位叠加,得到每个候选待纠错单词对应的编码特征向量;此外,通过该网络模型的文本编码层对该待纠错文本中的每个单词进行编码,得到每个单词对应的词向量。
进一步地,将每个候选待纠错单词对应的编码向量与每个单词对应的词向量进行融合,得到每个候选待纠错单词对应的目标特征向量。示例性的,可通过与自注意机制类似的方式,将每个候选待纠错单词对应的编码向量作为查询向量query,将每个单词对应的词向量作为键值对(key-value);然后,确定每个候选待纠错单词的编码向量与词向量之间的相似度,并对相似度进行归一化得到每个候选待纠错单词与每个单词之间的权重;最后,根据该候选待纠错单词与每个单词之间的权重,对每个单词对应的词向量进行加权,得到该候选待纠错单词对应的目标特征向量。
示例性的,每个候选待纠错单词对应的目标特征向量可以通过公式(1)表示:
其中,βi为至少一个候选单词中第i个候选单词对应的目标特征向量,i的取值为1~m,m为至少一个候选单词的数量,softmax为归一化操作,dist为求距离操作,zi为第i个候选单词对应的编码向量,xj为该待纠错文本中的第j个单词,j的取值为1~n,n为该待纠错文本中的单词的数量。
最后,将每个候选待纠错单词对应的目标特征向量输入到全连接层,对每个候选待纠错单词进行评分分类,得到每候选待纠错单词对应的评分进行评分分类与通用的分类过程类似,不再叙述;然后,使用评分最高的候选待纠错单词对该待纠错文本中的待纠错单词进行替换,得到纠错后的文本。
可以看出,在本申请实施方式中,将每个候选待纠错单词的编码向量与待纠错文本中每个单词的进行融合,可以理解,如果该候选待纠错单词合理的,则与部分单词(除待纠错单词之外的单词)之间的相似度比较大,这样融合得到的目标特征向量可以表征出该待纠错文本所要表达的语义特征,则在进行后续评分时,会得到较大的评分,从而通过融合后,使评分更有说服力。而且,在对候选待纠错单词进行编码的过程中,融合了每个候选单词的实体类型,由于编码向量中融合有实体类型,从而在计算相似度的过程中,从实体类型角度确定每个候选待纠错单词与该待纠错文本是否匹配,从而使相似度的计算更加精确,进而使后续的评分更加精确,排除了一些文本语义相同,但实体类型不符的候选待纠错单词,进而提高了纠错精度。
在本申请的一个实施方式中,还可以将本申请的文本纠错方法应用到智慧医疗领域,比如,通过本申请的文本纠错方法对医生输入的错误文本进行纠错,从而得到纠错后的文本,使用纠错后的文本进行病例搜索,可以搜索出正确的病例,给医生的诊断提供正确的病例,提高诊断精度,推动医疗科技的发展。
下面结合图2所示的网络模型的结构示意图说明进行文本纠错的过程。
如图2所示,将待纠错文本[x1,x2,x3,……,xn]输入到该网络模型,通过该网络模型对待纠错文本中的每个单词进行编码,得到每个单词对应的词向量[h1,h2,h3,……,hn];然后,根据每个单词的词向量[h1,h2,h3,……,hn],确定该待纠错文本中的待纠错单词,示例性的,可将每个单词的词向量输入到全连接层,得到每个单词的评分,然后,将评分小于阈值的单词作为待纠错单词;
然后,获取与该待纠错单词对应的至少一个候选待纠错单词[y1,y2,y3……,ym];然后,对每个候选待纠错单词以及每个候选待纠错单词对应的实体类型进行编码,得到每个候选待纠错单词对应的编码向量[z1,y2,y3……,ym];然后,将每个候选待纠错单词对应的编码向量[z1,y2,y3……,ym]与每个单词对应的词向量[x1,x2,x3,……,xn]进行融合处理,得到每个候选待纠错单词对应的目标特征向量[z1,y2,y3……,ym];最后,将每个候选待纠错单词对应的目标特征向量[z1,y2,y3……,ym]输入到全连接层,确定出每个候选待纠错单词对应的评分[评分1,评分2,评分3,……,评分m],并使用评分最大的候选待纠错单词替换该待纠错单词,得到纠错后的文本。
参与图3,图3为本申请实施例提供的一种网络模型训练方法的流程示意图。该方法包括以下步骤:
301:获取第一文本序列。
其中,该第一文本序列为原始的文本序列,是一个正确的文本序列。该第一文本序列可以为医疗领域的文本序列,也可以不是医疗领域的文本序列,本申请对此不做限定。
302:确定所述第一文本序列中的待替换单词,所述待替换单词为所述第一文本序列中的部分单词。
示例性,可通过随机函数生成一个随机采样率,并根据该随机采样率对该第一文本序列进行,确定该第一文本序列中的待替换单词,比如,随机采样率为0.5,则可以将第一文本序列中的50%单词作为待替换单词。通过随机采样率确定待替换单词,从而模拟日常生活中任意一个文本中每个单词被输入错误的概率是随机,从而保证替换后的文本序列的语料丰富性,以便训练后的网络模型的泛化能力比较强。
303:对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列。
示例性的,该待替换单词包括第一待替换单词和第二待替换单词,其中,该第一待替换单词为该待替换单词中的部分单词,该第二待替换单词也是该待替换单词中的部分单词,该待替换单词中还存在不被替换的单词。比如,可以将该替换单词中的30%的单词作为该第一待替换单词,40%的单词作为该第二待替换单词,剩余的单词作为不被替换的单词。
示例性的,可从字典库中随机获取至少一个第一候选单词,从该字典库中获取与该第二待替换单词对应的至少一个第二候选单词,其中,该至少一个第二候选单词中的每个第二候选单词为以下一种:与所述第二待替换单词对应的谐音单词、音近单词、形近词以及词顺序颠倒单词;使用该至少一个候选单词中的每个第一候选单词对该第一待替换单词进行替换以及使用每个第二候选单词对该第二待替换单词进行替换,得到与该第一文本序列对应的至少一个第二文本序列。
示例性,通过上述的替换方式,则会将一个第一文本序列泛化为多个第二文本序列。随机选出q个第一候选单词,以及确定出与第二待替换单词对应的w个第二候选单词,则可以将第一个第一文本序列泛化成q*w个第二文本序列。
可以理解,通过对第一待替换单词进行随机替换,从而模拟日常生活某些错误的可能是随机出现,这些错误的字和原本正确的字之间并没有关联,进而增加了第二文本序列语料的丰富性;使用第二候选单词对第二待替换单词进行替换,模拟日常生活中人们经常把一些字错误的输成相近的字场景,进一步增加第二文本序列语料的丰富性。这样使用第二文本序列训练出的网络模型泛化能力比较强。
304:将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型。
示例性的,将每个第二文本序列作为一个训练样本,并将每个第二文本序列输入到该网络模型,得到该第二文本序列中每个单词的预测结果,每个单词的预测结果用于表示预测的每个单词是否被替换以及对每个第二文本序列进行纠错后的第三文本序列;然后,根据每个单词的预测结果以及每个单词的真实结果,得到第一损失,每个单词的真实结果用于表示预先标注的每个单词是否被替换。比如,第一文本序列为“二甲双胍片”,第二文本序列为“二甲双瓜片”,则第二文本序列的标注结果可以为(00010),其中,0代表对应的单词未被替换,1代表对应的单词被替换。因此,第一损失可以通过公式(2)表示:
然后,根据第三文本序列以及第一文本序列,得到第二损失,即将第一文本序列作为第三文本序列的监督标签,然后,确定第三文本序列以及第一文本序列之间的差异,并将该差异作为该第二差异。
最后,根据该第一损失和第二损失,调整该网络模型的网络参数。即对该第一损失和第二损失进行加权处理,得到第一目标损失,根据该第一目标损失以及梯度下降法调整该网络模型的网络参数,直至该网络模型收敛,得到预训练模型。
可以理解,对于医疗领域来说,错误的医疗文本比较少,实体也比较少,所以难以构造出语料比较丰富的第二文本序列,如果直接训练一个与医疗领域适应的网络模型,可能因为训练样本较少,导致模型过拟合。所以,先通过其他领域的大量训练样本训练出一个预训练模型,再进行微调,会得到一个纠错精度相对较高的网络模型。
305:对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
示例性的,获取医疗领域的第四文本序列,确定该第四文本序列中的实体,并在预先构造的与医疗领域对应的实体字典库中与实体对应的至少一个候选实体;然后,使用该至少一个候选实体中的每个候选实体对该第四文本序列中的实体进行替换,得到至少一个第五文本序列。比如,第四文本序列为“我想吃二甲双胍片”,可确定该第四文本序列中的实体为“二甲双胍片”,然后,从实体字典库中获取与该实体对应的候选实体有“利血平”、“盐酸二甲双胍片”,则通过实体替换,可得到第五文本序列“我想吃利血平”、“我想吃盐酸二甲双胍片”;最后,分别使用至少一个第五文本序列中的每个第五文本序列对该预训练模型进行微调,得到微调后与该医疗领域对应的网络模型。
示例性的,可按照步骤302中确定待替换单词的方式,确定出每个第五文本序列中的待替换单词,然后,按照步骤303中的替换方式,对第五文本序列中的待替换单词进行替换,得到与每个第五文本序列对应的至少一个第六文本序列。
同样,为第六文本序列中的每个单词预先标注好是否被替换的真实结果;然后,将每个第六文本序列作为一个训练样本输入到该预训练模型,得到该第六文本序列中的每个单词是否被替换的预测结果,以及纠错后的文本序列;根据每个单词是否被替换的预测结果以及真实结果,确定第三损失;根据每个第六文本序列对应的纠错后的文本序列以及监督标签(即第五文本序列),得到第四损失;最后,对该第三损失以及第四损失进行加权处理,得到第二目标损失,根据该第二目标损失以及梯度下降法,对该预训练模型进行微调,直至该预训练模型收敛,得到微调后的与医疗领域对应的网络模型。
参阅图4,图4为本申请实施例提供的一种文本纠错装置的结构示意图。如图4所示,文本纠错装置400包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:
获取医疗领域的待纠错文本;
将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;
通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本。
在一些可能的实施方式中,在通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本方面,上述程序具体用于执行以下步骤的指令:
获取所述待纠错单词对应的至少一个候选待纠错单词;
获取所述至少一个候选待纠错单词中每个候选待纠错单词对应的实体类型,通过所述网络模型对所述每个候选待纠错单词以及所述每个候选待纠错单词对应的实体类型进行编码,得到所述每个候选待纠错单词对应的编码向量;
通过所述网络模型对所述待纠错文本中的每个单词对应的词向量以及所述每个候选待纠错单词对应的编码向量进行融合处理,得到所述每个候选待纠错单词的目标特征向量;
根据所述每个候选待纠错单词的目标特征向量,得到所述每个候选待纠错单词对应的评分,所述评分用于表示使用所述每个候选待纠错单词对所述待纠错文本中的待纠错单词进行替换后的文本的合理度;
使用评分最大的候选待纠错单词对所述待纠错文本中的所述待纠错单词进行替换,得到纠错后的文本。
在一些可能的实施方式中,在获取待纠错文本之前,上述程序还用于执行以下步骤的指令:
获取第一文本序列;
确定所述第一文本序列中的待替换单词,所述待替换单词为所述第一文本序列中的部分单词;
对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列;
将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型;
对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
在一些可能的实施方式中,在确定所述第一文本序列中的待替换单词方面,上述程序具体用于执行以下步骤的指令:
通过随机函数生成一个随机采样率;
根据所述随机采样率对所述第一文本序列进行采样,得到所述第一文本序列中的待替换单词。
在一些可能的实施方式中,所述待替换单词包括第一待替换单词和第二待替换单词,在对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列方面,上述程序具体用于执行以下步骤的指令:
从字典库中随机获取至少一个第一候选单词;
从所述字典库中获取与所述第二待替换单词对应的至少一个第二候选单词,所述至少一个第二候选单词中的每个第二候选单词为以下一种:与所述第二待替换单词对应的谐音单词、音近单词、形近词以及词顺序颠倒单词;
使用所述至少一个第一候选单词中的每个第一候选单词对所述第一待替换词进行替换以及使用所述每个第二候选单词对所述第二待替换词汇进行替换,得到与所述第一文本序列对应的至少一个第二文本序列。
在一些可能的实施方式中,在将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型方面,上述程序具体用于执行以下步骤的指令:
将所述每个第二文本序列输入到所述网络模型,得到所述第二文本序列中每个单词的预测结果,所述每个单词的预测结果用于表示预测的所述每个单词是否被替换;以及对所述每个第二文本序列进行纠错后的第三文本序列;
根据所述每个单词的预测结果以及真实结果,得到第一损失,所述每个单词的真实结果用于表示预先标注的所述每个单词是否被替换;
根据所述每个单词的预测结果和真实结果,得到第一损失;
根据所述第三文本序列以及所述第一文本序列,得到第二损失;
根据所述第一损失和所述第二损失,调整所述网络模型的网络参数,以对所述网络模型进行训练,得到预训练模型。
在一些可能的实施方式中,在对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型方面,上述程序具体用于执行以下步骤的指令:
获取所述医疗领域的第四文本序列;
确定所述第四文本序列中的实体,并在预先构造的与所述医疗领域对应的实体字典库中获取与所述实体对应的至少一个候选实体;
使用所述至少一个候选实体中的每个候选实体对所述第四文本序列中的实体进行替换,得到至少一个第五文本序列;
分别使用所述至少一个第五文本序列中的每个第五文本序列对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
参阅图5,图5本申请实施例提供的一种文本纠错装置的功能单元组成框图。文本纠错装置500包括:获取单元501和处理单元502,其中:
获取单元501,用于获取医疗领域的待纠错文本;
处理单元,用于将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;
处理单元502,还用于通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本。
在一些可能的实施方式中,在通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本方面,处理单元502,具体用于:
获取所述待纠错单词对应的至少一个候选待纠错单词;
获取所述至少一个候选待纠错单词中每个候选待纠错单词对应的实体类型,通过所述网络模型对所述每个候选待纠错单词以及所述每个候选待纠错单词对应的实体类型进行编码,得到所述每个候选待纠错单词对应的编码向量;
通过所述网络模型对所述待纠错文本中的每个单词对应的词向量以及所述每个候选待纠错单词对应的编码向量进行融合处理,得到所述每个候选待纠错单词的目标特征向量;
根据所述每个候选待纠错单词的目标特征向量,得到所述每个候选待纠错单词对应的评分,所述评分用于表示使用所述每个候选待纠错单词对所述待纠错文本中的待纠错单词进行替换后的文本的合理度;
使用评分最大的候选待纠错单词对所述待纠错文本中的所述待纠错单词进行替换,得到纠错后的文本。
在一些可能的实施方式中,在获取待纠错文本之前,获取单元501,还用于:获取第一文本序列;
处理单元502,还用于确定所述第一文本序列中的待替换单词,所述待替换单词为所述第一文本序列中的部分单词;
对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列;
将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型;
对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
在一些可能的实施方式中,在确定所述第一文本序列中的待替换单词方面,处理单元502,具体用于:
通过随机函数生成一个随机采样率;
根据所述随机采样率对所述第一文本序列进行采样,得到所述第一文本序列中的待替换单词。
在一些可能的实施方式中,所述待替换单词包括第一待替换单词和第二待替换单词,在对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列方面,处理单元502,具体用于:
从字典库中随机获取至少一个第一候选单词;
从所述字典库中获取与所述第二待替换单词对应的至少一个第二候选单词,所述至少一个第二候选单词中的每个第二候选单词为以下一种:与所述第二待替换单词对应的谐音单词、音近单词、形近词以及词顺序颠倒单词;
使用所述至少一个第一候选单词中的每个第一候选单词对所述第一待替换词进行替换以及使用所述每个第二候选单词对所述第二待替换词汇进行替换,得到与所述第一文本序列对应的至少一个第二文本序列。
在一些可能的实施方式中,在将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型方面,处理单元502,具体用于:
将所述每个第二文本序列输入到所述网络模型,得到所述第二文本序列中每个单词的预测结果,所述每个单词的预测结果用于表示预测的所述每个单词是否被替换;以及对所述每个第二文本序列进行纠错后的第三文本序列;
根据所述每个单词的预测结果以及真实结果,得到第一损失,所述每个单词的真实结果用于表示预先标注的所述每个单词是否被替换;
根据所述每个单词的预测结果和真实结果,得到第一损失;
根据所述第三文本序列以及所述第一文本序列,得到第二损失;
根据所述第一损失和所述第二损失,调整所述网络模型的网络参数,以对所述网络模型进行训练,得到预训练模型。
在一些可能的实施方式中,在对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型方面,处理单元502,具体用于:
获取所述医疗领域的第四文本序列;
确定所述第四文本序列中的实体,并在预先构造的与所述医疗领域对应的实体字典库中获取与所述实体对应的至少一个候选实体;
使用所述至少一个候选实体中的每个候选实体对所述第四文本序列中的实体进行替换,得到至少一个第五文本序列;
分别使用所述至少一个第五文本序列中的每个第五文本序列对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种文本纠错方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种文本纠错方法的部分或全部步骤。
本申请中的文本纠错装置可以包括智能手机(如Android手机、iOS手机、WindowsPhone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile InternetDevices,简称:MID)或穿戴式设备等。上述文本纠错装置仅是举例,而非穷举,包含但不限于上述文本纠错装置。在实际应用中,上述文本纠错装置还可以包括:智能车载终端、计算机设备等等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种文本纠错方法,其特征在于,包括:
获取医疗领域的待纠错文本;
将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;
通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本,具体包括:获取所述待纠错单词对应的至少一个候选待纠错单词;获取所述至少一个候选待纠错单词中每个候选待纠错单词对应的实体类型,通过所述网络模型对所述每个候选待纠错单词以及所述每个候选待纠错单词对应的实体类型进行编码,得到所述每个候选待纠错单词对应的编码向量;通过所述网络模型对所述待纠错文本中的每个单词对应的词向量以及所述每个候选待纠错单词对应的编码向量进行融合处理,得到所述每个候选待纠错单词的目标特征向量;根据所述每个候选待纠错单词的目标特征向量,得到所述每个候选待纠错单词对应的评分,所述评分用于表示使用所述每个候选待纠错单词对所述待纠错文本中的待纠错单词进行替换后的文本的合理度;使用评分最大的候选待纠错单词对所述待纠错文本中的所述待纠错单词进行替换,得到纠错后的文本。
2.根据权利要求1所述的方法,其特征在于,在获取待纠错文本之前,所述方法还包括:
获取第一文本序列;
确定所述第一文本序列中的待替换单词,所述待替换单词为所述第一文本序列中的部分单词;
对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列;
将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型;
对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一文本序列中的待替换单词,包括:
通过随机函数生成一个随机采样率;
根据所述随机采样率对所述第一文本序列进行采样,得到所述第一文本序列中的待替换单词。
4.根据权利要求2所述的方法,其特征在于,所述待替换单词包括第一待替换单词和第二待替换单词,所述对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列,包括:
从字典库中随机获取至少一个第一候选单词;
从所述字典库中获取与所述第二待替换单词对应的至少一个第二候选单词,所述至少一个第二候选单词中的每个第二候选单词为以下一种:与所述第二待替换单词对应的谐音单词、音近单词、形近词以及词顺序颠倒单词;
使用所述至少一个第一候选单词中的每个第一候选单词对第一待替换词进行替换以及使用所述每个第二候选单词对第二待替换词汇进行替换,得到与所述第一文本序列对应的至少一个第二文本序列。
5.根据权利要求4所述的方法,其特征在于,所述将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型,包括:
将所述每个第二文本序列输入到所述网络模型,得到所述第二文本序列中每个单词的预测结果,所述每个单词的预测结果用于表示预测的所述每个单词是否被替换;以及对所述每个第二文本序列进行纠错后的第三文本序列;
根据所述每个单词的预测结果以及真实结果,得到第一损失,所述每个单词的真实结果用于表示预先标注的所述每个单词是否被替换;
根据所述每个单词的预测结果和真实结果,得到第一损失;
根据所述第三文本序列以及所述第一文本序列,得到第二损失;
根据所述第一损失和所述第二损失,调整所述网络模型的网络参数,以对所述网络模型进行训练,得到预训练模型。
6.根据权利要求5所述的方法,其特征在于,所述对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型,包括:
获取所述医疗领域的第四文本序列;
确定所述第四文本序列中的实体,并在预先构造的与所述医疗领域对应的实体字典库中获取与所述实体对应的至少一个候选实体;
使用所述至少一个候选实体中的每个候选实体对所述第四文本序列中的实体进行替换,得到至少一个第五文本序列;
分别使用所述至少一个第五文本序列中的每个第五文本序列对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
7.一种文本纠错装置,其特征在于,包括:
获取单元,用于获取医疗领域的待纠错文本;
处理单元,用于将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;
所述处理单元,还用于通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本,具体用于:获取所述待纠错单词对应的至少一个候选待纠错单词;获取所述至少一个候选待纠错单词中每个候选待纠错单词对应的实体类型,通过所述网络模型对所述每个候选待纠错单词以及所述每个候选待纠错单词对应的实体类型进行编码,得到所述每个候选待纠错单词对应的编码向量;通过所述网络模型对所述待纠错文本中的每个单词对应的词向量以及所述每个候选待纠错单词对应的编码向量进行融合处理,得到所述每个候选待纠错单词的目标特征向量;根据所述每个候选待纠错单词的目标特征向量,得到所述每个候选待纠错单词对应的评分,所述评分用于表示使用所述每个候选待纠错单词对所述待纠错文本中的待纠错单词进行替换后的文本的合理度;使用评分最大的候选待纠错单词对所述待纠错文本中的所述待纠错单词进行替换,得到纠错后的文本。
8.一种文本纠错装置,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-6任一项方法中的步骤的指令。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011030582.XA CN111931490B (zh) | 2020-09-27 | 2020-09-27 | 文本纠错方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011030582.XA CN111931490B (zh) | 2020-09-27 | 2020-09-27 | 文本纠错方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931490A CN111931490A (zh) | 2020-11-13 |
CN111931490B true CN111931490B (zh) | 2021-01-08 |
Family
ID=73334271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011030582.XA Active CN111931490B (zh) | 2020-09-27 | 2020-09-27 | 文本纠错方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931490B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507695A (zh) * | 2020-12-01 | 2021-03-16 | 平安科技(深圳)有限公司 | 文本纠错模型建立方法、装置、介质及电子设备 |
CN112528634A (zh) * | 2020-12-11 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本纠错模型训练、识别方法、装置、设备及存储介质 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN113515934A (zh) * | 2021-04-28 | 2021-10-19 | 新东方教育科技集团有限公司 | 文本纠错方法、装置、存储介质及电子设备 |
CN113641793B (zh) * | 2021-08-16 | 2024-05-07 | 国网安徽省电力有限公司电力科学研究院 | 一种针对电力标准的长文本匹配优化的检索*** |
CN114564942B (zh) * | 2021-09-06 | 2023-07-18 | 北京数美时代科技有限公司 | 一种用于监管领域的文本纠错方法、存储介质和装置 |
CN113887245B (zh) * | 2021-12-02 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 一种模型训练方法及相关装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4328561A (en) * | 1979-12-28 | 1982-05-04 | International Business Machines Corp. | Alpha content match prescan method for automatic spelling error correction |
SG10201507822YA (en) * | 2010-09-24 | 2015-10-29 | Univ Singapore | Methods and systems for automated text correction |
US10762293B2 (en) * | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
CN107305768B (zh) * | 2016-04-20 | 2020-06-12 | 上海交通大学 | 语音交互中的易错字校准方法 |
CN107122346B (zh) * | 2016-12-28 | 2018-02-27 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
CN107220235B (zh) * | 2017-05-23 | 2021-01-22 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及存储介质 |
CN110110041B (zh) * | 2019-03-15 | 2022-02-15 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110348008A (zh) * | 2019-06-17 | 2019-10-18 | 五邑大学 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
CN110705262B (zh) * | 2019-09-06 | 2023-08-29 | 宁波市科技园区明天医网科技有限公司 | 一种改进的应用于医技检查报告的智能纠错方法 |
CN111310447B (zh) * | 2020-03-18 | 2024-02-02 | 河北省讯飞人工智能研究院 | 语法纠错方法、装置、电子设备和存储介质 |
-
2020
- 2020-09-27 CN CN202011030582.XA patent/CN111931490B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111931490A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109165291B (zh) | 一种文本匹配方法及电子设备 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN111310440B (zh) | 文本的纠错方法、装置和*** | |
CN113869044A (zh) | 关键词自动提取方法、装置、设备及存储介质 | |
CN114492363B (zh) | 一种小样本微调方法、***及相关装置 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN110334186A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN112270184A (zh) | 自然语言处理方法、装置及存储介质 | |
CN111611791B (zh) | 一种文本处理的方法及相关装置 | |
CN114781651A (zh) | 基于对比学习的小样本学习鲁棒性提升方法 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112016281B (zh) | 错误医疗文本的生成方法、装置及存储介质 | |
CN111460808A (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
CN108304366B (zh) | 一种上位词检测方法及设备 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN114692610A (zh) | 关键词确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |