CN114861635B - 一种中文拼写纠错方法、装置、设备及存储介质 - Google Patents

一种中文拼写纠错方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114861635B
CN114861635B CN202210504740.3A CN202210504740A CN114861635B CN 114861635 B CN114861635 B CN 114861635B CN 202210504740 A CN202210504740 A CN 202210504740A CN 114861635 B CN114861635 B CN 114861635B
Authority
CN
China
Prior art keywords
chinese
model
training sequence
contrast
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210504740.3A
Other languages
English (en)
Other versions
CN114861635A (zh
Inventor
蒋盛益
林楠铠
林晓钿
武洪艳
甘诚韬
杨子渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN202210504740.3A priority Critical patent/CN114861635B/zh
Publication of CN114861635A publication Critical patent/CN114861635A/zh
Application granted granted Critical
Publication of CN114861635B publication Critical patent/CN114861635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种中文拼写纠错方法、装置、设备及存储介质,该方法包括:获取中文文本训练序列;将中文文本训练序列输入至语义表征模型中进行语义特征提取,以得到每个所述汉字的字向量表示;将每个汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;基于反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;通过语义表征模型和优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列。本发明能够提高中文拼写纠错模型对于同音异形字的区分能力,以解决现有的中文拼写纠错方法容易混淆同音异形字的问题。

Description

一种中文拼写纠错方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种中文拼写纠错方法、装置、终端设备及计算机可读存储介质。
背景技术
中文拼写检查(Chinese spelling check)是一项检测和纠正中文文本中的拼写错误的任务。据统计,超过80%的中文拼写错误与语音相似性有关,因此让中文拼写纠错模型可以更好地区分同音异形字,将对纠正中文拼写错误有很大帮助。随着深度学习技术的发展,中文拼写检查任务近期也取得了许多进展,但是,现有的中文拼写纠错方法虽然考虑了字音信息辅助模型进行拼写纠错,但普遍存在同音异形字容易混淆的问题。
发明内容
本发明实施例提供一种中文拼写纠错方法、装置、终端设备以及计算机可读存储介质,能够提高中文拼写纠错模型对于同音异形字的区分能力,以解决现有的中文拼写纠错方法容易混淆同音异形字的问题。
本发明实施例提供了一种中文拼写纠错方法,包括:
获取中文文本训练序列;其中,所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音;
将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取,得到所述中文文本训练序列的语义表示;其中,所述语义表示包含每个所述汉字的字向量表示;
将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;
基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;
通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列。
作为上述方案的改进,所述将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失,包括:
将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到每个所述汉字的对比损失;
根据每个所述汉字的对比损失,计算得到反向对比损失。
作为上述方案的改进,所述根据每个所述汉字的对比损失,计算得到反向对比损失,具体为:
根据以下公式计算得到反向对比损失LRCL
Figure BDA0003637006880000021
其中,
Figure BDA0003637006880000022
为每个所述汉字的对比损失,S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合,|S|为样本集合S的长度,S={s:s∈I,yp=yi∧p≠i},I为中文文本训练序列中汉字的索引,I={1,…,K},K为中文文本训练序列中包含的汉字数量,yp为中文文本训练序列中第p个汉字的汉语拼音,yi为中文文本训练序列中第i个汉字的汉语拼音,s为S中每个汉字的索引。
作为上述方案的改进,所述优化后的中文拼写纠错模型的损失函数L,具体为:
L=α*LRCL+(1-α)*Lcorrect
其中,α为预先构建的中文拼写纠错模型的损失函数与反向对比损失之间的权重因子,LRCL为反向对比损失,Lcorrect为预先构建的中文拼写纠错模型的损失函数。
作为上述方案的改进,所述语义表征模型具体为:BERT模型或RoBERTa模型。
相应地,本发明另一实施例提供一种中文拼写纠错装置,包括:
数据获取模块,用于获取中文文本训练序列;其中,所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音;
特征提取模块,用于将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取,得到所述中文文本训练序列的语义表示;其中,所述语义表示包含每个所述汉字的字向量表示;
反向对比模块,用于将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;
模型优化模块,用于基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;
文本纠错模块,用于通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列。
作为上述方案的改进,所述反向对比模块,包括:
第一运算单元,用于将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到每个所述汉字的对比损失;
第二运算单元,用于根据每个所述汉字的对比损失,计算得到反向对比损失。
作为上述方案的改进,所述第二运算单元,具体用于:
根据以下公式计算得到反向对比损失LRCL
Figure BDA0003637006880000041
其中,
Figure BDA0003637006880000042
为每个所述汉字的对比损失,S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合,|S|为样本集合S的长度,S={s:s∈I,yp=yi∧p≠i},I为中文文本训练序列中汉字的索引,I={1,…,K},K为中文文本训练序列中包含的汉字数量,yp为中文文本训练序列中第p个汉字的汉语拼音,yi为中文文本训练序列中第i个汉字的汉语拼音,s为S中每个汉字的索引。
本发明另一实施例提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的中文拼写纠错方法。
本发明另一实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的中文拼写纠错方法。
与现有技术相比,本发明实施例公开的中文拼写纠错方法、装置、设备及存储介质,首先,获取中文文本训练序列;其中,所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音;其次,将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取,得到所述中文文本训练序列的语义表示;其中,所述语义表示包含每个所述汉字的字向量表示;然后,将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;并基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;最后,通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列。本发明利用反向对比学习模型对相同汉语拼音的不同汉字进行对比学习,以扩大同音异形字在语义空间中的距离,使得基于反向对比损失进行优化后的中文拼写纠错模型对于同音异形字的区分能力得到提高,以解决现有的中文拼写纠错方法容易混淆同音异形字的问题。
附图说明
图1是本发明实施例提供的一种中文拼写纠错方法的流程示意图;
图2是本发明实施例提供的一种中文拼写纠错训练过程的示意图;
图3是本发明实施例提供的一种中文拼写纠错装置的结构示意图;
图4是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种中文拼写纠错方法的流程示意图。
本发明实施例提供的中文拼写纠错方法,包括步骤:
S11、获取中文文本训练序列;其中,所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音;
S12、将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取,得到所述中文文本训练序列的语义表示;其中,所述语义表示包含每个所述汉字的字向量表示;
S13、将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;
S14、基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;
S15、通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列。
需要说明的是,所述语义表征模型是基于现有的语料库进行上下文语义的无监督预训练得到的。示例性的,假设所述中文文本训练序列为X,则将所述中文文本训练序列X输入至所述语义表征模型中,并将中文文本训练序列X投影到所述语义表征模型的编码层
Figure BDA0003637006880000069
通过所述语义表征模型的编码层对所述中文文本训练序列X进行编码,提取中文文本训练序列X的上下文语义表示,并通过最后一层编码层输出提取到的语义表示。
具体地,根据以下公式得到所述语义表征模型每一编码层的编码结果:
Figure BDA0003637006880000061
其中,
Figure BDA0003637006880000062
为第l层编码层的编码结果,
Figure BDA0003637006880000063
为第l-1层编码层的编码结果,L为所述语义表征模型的编码层数量,Encoderl()表示第l层编码层。
进一步地,所述语义表征模型最后一层编码层的输出结果
Figure BDA0003637006880000064
具体为:
Figure BDA0003637006880000065
其中,
Figure BDA0003637006880000066
用于表征所述语义表征模型输入的中文文本训练序列的上下文语义表示,
Figure BDA0003637006880000067
为中文文本训练序列中第i个汉字的字向量表示。可以理解,所述语义表征模型的输出
Figure BDA0003637006880000068
具体地,在所述步骤S13中,所述将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失,包括:
将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到每个所述汉字的对比损失;
根据每个所述汉字的对比损失,计算得到反向对比损失。
进一步地,所述根据每个所述汉字的对比损失,计算得到反向对比损失,具体为:
根据以下公式计算得到反向对比损失LRCL
Figure BDA0003637006880000071
其中,
Figure BDA0003637006880000072
为每个所述汉字的对比损失,S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合,|S|为样本集合S的长度,S={s:s∈I,yp=yi∧p≠i},I为中文文本训练序列中汉字的索引,I={1,…,K},K为中文文本训练序列中包含的汉字数量,yp为中文文本训练序列中第p个汉字的汉语拼音,yi为中文文本训练序列中第i个汉字的汉语拼音,s为S中每个汉字的索引。
作为其中一个优选的实施例,所述将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到每个所述汉字的对比损失,具体为:
将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,并根据以下公式对相同汉语拼音的不同汉字进行对比学习,得到每个所述汉字的对比损失:
Figure BDA0003637006880000073
其中,
Figure BDA0003637006880000074
为中文文本训练序列中第i个汉字的对比损失,exp表示以自然常数e为底的指数函数,log表示对数函数,I为中文文本训练序列中汉字的索引,I={1,…,K},K为中文文本训练序列中包含的汉字数量,sim(·)表示余弦相似度函数,S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合,S={s:s∈I,yp=yi∧p≠i},yp为中文文本训练序列中第p个汉字的汉语拼音,yi为中文文本训练序列中第i个汉字的汉语拼音,ys为中文文本训练序列中第s个汉字的汉语拼音,s为S中每个汉字的索引,hi为中文文本训练序列中第i个汉字的字向量表示,hs为中文文本训练序列中第s个汉字的字向量表示,hk为中文文本训练序列中第k个汉字的字向量表示,τ为控制反向对比损失缩放的温度超参数,s.t.表示约束条件。
需要说明的是,较大的τ值会缩小余弦相似度计算的值,容易造成难以比较同音异形字的区别。
示例性地,将中文文本训练序列中所有句子所包含的汉字和拼音对表示为:{xi,yi}i∈I;其中,xi为中文文本训练序列中的第i个汉字,yi为第i个汉字的汉语拼音。则,S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合,如:中文文本训练序列中包含8个句子,每个句子的长度为128,则中文文本训练序列中一共有8*128个汉字和对应的8*128个汉语拼音,将每个汉字与其对应的汉语拼音作为一个样本,则S为这8*128个样本中与第i个汉字xi汉语拼音相同的样本集合。具体地,在实际操作过程中,S通过对比汉字与汉字之间的汉语拼音是否相同得到。
需要说明,所述反向对比学习模型是基于对比学习的方法构建的。对比学习作为自监督学习中一个非常重要的部分,被广泛运用在计算机视觉、自然语言处理等领域。对比学习旨在拉近相同标签或相似样本的语义表征,以对比损失的形式使属于同一类的样本的潜在表示更接近。即,对比学习侧重于提高模型区分给定数据点与“正”示例(共享相同标签的点)和“负”示例(不同标签)的能力。其中,“正”示例的定义决定了哪些样本应该通过对比学习方法缩小范围。基于对比学习的思想,本实施例提出了一种反向对比学习模型,与对比学习拉近相似样本的目标不一样,反向对比学习模型以拉远相似、易混的汉字为目标,通过将相同拼音汉字的语义表示之间的距离拉远,从而使中文拼写纠错模型不易混淆同音异形字,进而有效提高中文拼写纠错模型对于同音异形字的区分能力。参见图2,在训练过程中,反向对比学习模型将相同拼音的“喜”和“希”、“舞”和“无”进行反向对比学习,将两者的潜在表示的距离拉远,而对于其他拼音不同的汉字,则不采取任何额外操作。
值得说明的是,在本实施例中,所述中文拼写纠错模型具体为以下中的任意一种:SpellGCN模型、ReaLiSe中文拼写检查器、动态连接网络。需要说明,除上述三种模型以外,所述中文拼写纠错模型还可以为任意一种具备中文拼写纠错能力的模型,在此不做限定。
作为其中一个可选的实施例,所述优化后的中文拼写纠错模型的损失函数L,具体为:
L=α*LRCL+(1-α)*Lcorrect
其中,α为预先构建的中文拼写纠错模型的损失函数与反向对比损失之间的权重因子,LRCL为反向对比损失,Lcorrect为预先构建的中文拼写纠错模型的损失函数。
示例性地,假设所述预先构建的中文拼写纠错模型为M,则模型M的目标为:对所述预先训练好的语义表征模型输出的Et进行学习后,能够识别中文拼写错误并纠正错误,得到修正后的目标序列Y。
优选地,所述语义表征模型具体为:BERT模型或RoBERTa模型。
需要说明,除了BERT模型和RoBERTa模型这两种模型以外,所述语义表征模型还可以为任意一种具备提取文本序列上下文语义特征能力的模型,在此不做限定。
进一步地,在所述步骤S15中,所述通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列,具体为:
将待检测的中文文本序列输入至所述预先训练好的语义表征模型中进行语义特征提取,得到所述待检测的中文文本序列的语义表示;
将所述待检测的中文文本序列的语义表示输入至所述优化后的中文拼写纠错模型中进行中文拼写错误识别和纠正,得到修正后的中文文本序列。
值得说明的是,本实施例的提供的中文拼写纠错方法具有很强的可迁移性和可复用性,可应用于任意一种现有的中文拼写纠错模型,以提高现有的中文拼写纠错模型区分同音异形字的能力,进而有助于提高现有的中文拼写纠错模型的纠错能力。此外,为了评估本实施例的中文拼写纠错方法的有效性,分别采用动态连接网络和ReaLiSe中文拼写检查器作为本实施例的中文拼写纠错模型,并同时基于三种不同的数据集进行了实验,实验结果表明,相比于现有的动态连接网络和ReaLiSe中文拼写检查器而言,采用本实施例的提供的中文拼写纠错方法优化后的动态连接网络和优化后的ReaLiSe中文拼写检查器,对于中文拼写纠错的能力得到有效提升。
参见图3,是本发明实施例提供的一种中文拼写纠错装置的结构示意图。
本发明实施例提供的中文拼写纠错装置,包括:
数据获取模块21,用于获取中文文本训练序列;其中,所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音;
特征提取模块22,用于将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取,得到所述中文文本训练序列的语义表示;其中,所述语义表示包含每个所述汉字的字向量表示;
反向对比模块23,用于将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;
模型优化模块24,用于基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;
文本纠错模块25,用于通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列。
作为上述方案的改进,所述反向对比模块23,包括:
第一运算单元,用于将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到每个所述汉字的对比损失;
第二运算单元,用于根据每个所述汉字的对比损失,计算得到反向对比损失。
优选地,所述第二运算单元,具体用于:
根据以下公式计算得到反向对比损失LRCL
Figure BDA0003637006880000111
其中,
Figure BDA0003637006880000112
为每个所述汉字的对比损失,S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合,|S|为样本集合S的长度,S={s:s∈I,yp=yi∧p≠i},I为中文文本训练序列中汉字的索引,I={1,…,K},K为中文文本训练序列中包含的汉字数量,yp为中文文本训练序列中第p个汉字的汉语拼音,yi为中文文本训练序列中第i个汉字的汉语拼音,s为S中每个汉字的索引。
作为其中一个可选的实施方式,所述模型优化模块24中的所述优化后的中文拼写纠错模型的损失函数L,具体为:
L=α*LRCL+(1-α)*Lcorrect
其中,α为预先构建的中文拼写纠错模型的损失函数与反向对比损失之间的权重因子,LRCL为反向对比损失,Lcorrect为预先构建的中文拼写纠错模型的损失函数。
优选地,所述特征提取模块22中的所述语义表征模型具体为:BERT模型或RoBERTa模型。
需要说明的是,本实施例的中文拼写纠错装置的各实施例的相关具体描述和有益效果可以参考上述的中文拼写纠错方法的各实施例的相关具体描述和有益效果,在此不再赘述。
参见图4,是本发明一实施例提供的一种终端设备的结构示意图。
本发明实施例提供的一种终端设备,包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10执行所述计算机程序时实现如上述任一实施例所述的中文拼写纠错方法。
所述处理器10执行所述计算机程序时实现上述中文拼写纠错方法实施例中的步骤,例如图1所示的中文拼写纠错方法的所有步骤。或者,所述处理器10执行所述计算机程序时实现上述中文拼写纠错装置实施例中各模块/单元的功能,例如图3所示的中文拼写纠错装置的各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器10、存储器20。本领域技术人员可以理解,所述示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器20可用于存储所述计算机程序和/或模块,所述处理器10通过运行或执行存储在所述存储器20内的计算机程序和/或模块,以及调用存储在存储器20内的数据,实现所述终端设备的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上方法实施例中任意一项所述的中文拼写纠错方法。
综上,本发明实施例所提供的一种中文拼写纠错方法、装置、设备及存储介质,首先,获取中文文本训练序列;其中,所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音;其次,将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取,得到所述中文文本训练序列的语义表示;其中,所述语义表示包含每个所述汉字的字向量表示;然后,将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;并基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;最后,通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列。本发明利用反向对比学习模型对相同汉语拼音的不同汉字进行对比学习,以扩大同音异形字在语义空间中的距离,使得基于反向对比损失进行优化后的中文拼写纠错模型对于同音异形字的区分能力得到提高,以解决现有的中文拼写纠错方法容易混淆同音异形字的问题。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种中文拼写纠错方法,其特征在于,包括:
获取中文文本训练序列;其中,所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音;
将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取,得到所述中文文本训练序列的语义表示;其中,所述语义表示包含每个所述汉字的字向量表示;
将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;
基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;
通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列;
其中,所述反向对比损失LRCL,具体为:
Figure FDA0004054075960000011
其中,LRCLi为每个所述汉字的对比损失,S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合,|S|为样本集合S的长度,S={s:s∈I,yp=yi∧p≠i},I为中文文本训练序列中汉字的索引,I={1,···,K},K为中文文本训练序列中包含的汉字数量,yp为中文文本训练序列中第p个汉字的汉语拼音,yi为中文文本训练序列中第i个汉字的汉语拼音,s为S中每个汉字的索引;
所述优化后的中文拼写纠错模型的损失函数L,具体为:
L=α*LRCL+(1-α)*Lcorrect
其中,α为预先构建的中文拼写纠错模型的损失函数与反向对比损失之间的权重因子,Lcorrect为预先构建的中文拼写纠错模型的损失函数。
2.如权利要求1所述的中文拼写纠错方法,其特征在于,所述将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失,包括:
将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到每个所述汉字的对比损失;
根据每个所述汉字的对比损失,计算得到反向对比损失。
3.如权利要求1所述的中文拼写纠错方法,其特征在于,所述语义表征模型具体为:BERT模型或RoBERTa模型。
4.一种中文拼写纠错装置,其特征在于,包括:
数据获取模块,用于获取中文文本训练序列;其中,所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音;
特征提取模块,用于将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取,得到所述中文文本训练序列的语义表示;其中,所述语义表示包含每个所述汉字的字向量表示;
反向对比模块,用于将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到反向对比损失;
模型优化模块,用于基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化,得到优化后的中文拼写纠错模型;
文本纠错模块,用于通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测,得到修正后的中文文本序列;
其中,所述反向对比模块的反向对比损失LRCL,具体为:
Figure FDA0004054075960000031
其中,
Figure FDA0004054075960000032
为每个所述汉字的对比损失,S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合,|S|为样本集合S的长度,S={s:s∈I,yp=yi∧p≠i},I为中文文本训练序列中汉字的索引,I={1,···,K},K为中文文本训练序列中包含的汉字数量,yp为中文文本训练序列中第p个汉字的汉语拼音,yi为中文文本训练序列中第i个汉字的汉语拼音,s为S中每个汉字的索引;
所述模型优化模块中的所述优化后的中文拼写纠错模型的损失函数L,具体为:
L=α*LRCL+(1-α)*Lcorrect
其中,α为预先构建的中文拼写纠错模型的损失函数与反向对比损失之间的权重因子,Lcorrect为预先构建的中文拼写纠错模型的损失函数。
5.如权利要求4所述的中文拼写纠错装置,其特征在于,所述反向对比模块,包括:
第一运算单元,用于将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中,对相同汉语拼音的不同汉字进行对比学习,得到每个所述汉字的对比损失;
第二运算单元,用于根据每个所述汉字的对比损失,计算得到反向对比损失。
6.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3中任意一项所述的中文拼写纠错方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至3中任意一项所述的中文拼写纠错方法。
CN202210504740.3A 2022-05-10 2022-05-10 一种中文拼写纠错方法、装置、设备及存储介质 Active CN114861635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210504740.3A CN114861635B (zh) 2022-05-10 2022-05-10 一种中文拼写纠错方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210504740.3A CN114861635B (zh) 2022-05-10 2022-05-10 一种中文拼写纠错方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114861635A CN114861635A (zh) 2022-08-05
CN114861635B true CN114861635B (zh) 2023-04-07

Family

ID=82637038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210504740.3A Active CN114861635B (zh) 2022-05-10 2022-05-10 一种中文拼写纠错方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114861635B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997148B (zh) * 2022-08-08 2022-11-04 湖南工商大学 一种基于对比学习的中文拼写校对预训练模型构建方法
CN116127953B (zh) * 2023-04-18 2023-07-25 之江实验室 一种基于对比学习的中文拼写纠错方法、装置和介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110041B (zh) * 2019-03-15 2022-02-15 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110502754B (zh) * 2019-08-26 2021-05-28 腾讯科技(深圳)有限公司 文本处理方法和装置
CN111951805A (zh) * 2020-07-10 2020-11-17 华为技术有限公司 一种文本数据处理方法及装置
CN113627158A (zh) * 2021-07-02 2021-11-09 南京理工大学 基于多表征和多预训练模型的中文拼写纠错方法及装置
CN113569545B (zh) * 2021-09-26 2021-12-07 中国电子科技集团公司第二十八研究所 一种基于语音识别纠错模型的管制信息提取方法
CN114417833A (zh) * 2021-12-21 2022-04-29 阿里巴巴(中国)有限公司 模型训练方法、中文拼写纠错方法以及检索方法
CN114386371B (zh) * 2022-03-25 2022-09-23 中国科学技术大学 中文拼写纠错方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN114861635A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN110163181B (zh) 手语识别方法及装置
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN109117474B (zh) 语句相似度的计算方法、装置及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111767714B (zh) 一种文本通顺度确定方法、装置、设备及介质
CN111767717A (zh) 印尼语的语法纠错方法、装置、设备及存储介质
CN111444905B (zh) 基于人工智能的图像识别方法和相关装置
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN111563380A (zh) 一种命名实体识别方法及其装置
CN114741468B (zh) 文本去重方法、装置、设备及存储介质
CN116127001A (zh) 敏感词检测方法、装置、计算机设备及存储介质
CN112395866B (zh) 报关单数据匹配方法及装置
EP4060526A1 (en) Text processing method and device
CN115858776A (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
CN111949765B (zh) 基于语义的相似文本搜索方法、***、设备和存储介质
CN108564086A (zh) 一种字符串的识别校验方法及装置
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant