CN115169331A - 融入词语信息的中文拼写纠错方法 - Google Patents

融入词语信息的中文拼写纠错方法 Download PDF

Info

Publication number
CN115169331A
CN115169331A CN202210850675.XA CN202210850675A CN115169331A CN 115169331 A CN115169331 A CN 115169331A CN 202210850675 A CN202210850675 A CN 202210850675A CN 115169331 A CN115169331 A CN 115169331A
Authority
CN
China
Prior art keywords
word
error correction
model
information
word information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210850675.XA
Other languages
English (en)
Other versions
CN115169331B (zh
Inventor
车万翔
王重元
赵妍妍
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202210850675.XA priority Critical patent/CN115169331B/zh
Publication of CN115169331A publication Critical patent/CN115169331A/zh
Application granted granted Critical
Publication of CN115169331B publication Critical patent/CN115169331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

融入词语信息的中文拼写纠错方法,涉及自然语言处理技术领域,针对现有技术中由于缺少词语信息,并不能对整个词都写错的词语进行纠错的问题,本申请在模型当中有效地引入了词语信息,增强了模型的语义表示能力,大幅提升了模型对整个词都写错的情况的纠错能力,提升了模型整体文本纠错能力。本申请在模型中引入专门的神经网络结构用于表示词语信息,并将每个字所在词的词语信息融入到字的表示当中,从而有效引入了词语信息,增强了模型的语义表示能力,大幅提升了模型对整个词都写错的情况的纠错能力,提升了模型整体文本纠错能力。

Description

融入词语信息的中文拼写纠错方法
技术领域
本发明涉及自然语言处理技术领域,具体为融入词语信息的中文拼写纠错方法。
背景技术
中文拼写纠错任务是给定一句中文文本,检查文本中是否存在错别字,并给出错别字的纠正结果。基于BERT预训练模型的序列标注方法是一种常见的文本纠错方法,这种方法使用注意力机制将上下文信息融入到每一个字中,然后独立地考虑每一个字是否是错别字以及错别字应该被纠正为哪个字。但是这种方法存在很大的局限性,它无法明确地将词语信息引入到每一个字中。这种方法在考虑词语中的某个字时,是不会着重参考词语中的其他字的。当整个词语都写错时,在修改词语中的任意一个字时必须要着重参考整个词语才能将整个词语纠正正确。因此,它对于整个词语都写错的情况纠正的效果不佳。例如,在含有错别字的句子“已经早上九点半了,如果再不走就赤道了”中,“赤道”是错别字,正确的修改应该为将“赤道”修改为“迟到”。为了能解决这一类词语错误,必须要使用到词语信息。现有的方法由于缺少词语信息,难以解决此类问题。
发明内容
本发明的目的是:针对现有技术中由于缺少词语信息,并不能对整个词都写错的词语进行纠错的问题,提出融入词语信息的中文拼写纠错方法。
本发明为了解决上述技术问题采取的技术方案是:
融入词语信息的中文拼写纠错方法,包括以下步骤:
步骤一:获取文本纠错数据,所述文本纠错数据包括待检错句子和纠正后句子;
步骤二:对待检错句子进行分词,得到分词结果;
步骤三:将待检错句子和分词结果作为输入,将纠正后句子作为输出,训练纠错模型;
步骤四:利用训练好的纠错模型进行中文拼写纠错。
进一步的,所述分词通过分词模型进行。
进一步的,所述纠错模型为融入词语信息的中文拼写纠错模型,所述融入词语信息的中文拼写纠错模型具体执行如下步骤:
步骤1:利用预训练模型对输入句子中的每个字进行编码,得到字表示;
步骤2:利用双向长短时记忆网络将字表示转换为双向上下文字表示;
步骤3:获取输入句子的分词结果,并依据输入句子的分词结果以及双向上下文字表示得到词表示;
步骤4:将字表示与词表示进行拼接,得到包含词语信息的字向量;
步骤5:基于包含词语信息的字向量,并通过线性层得到纠错结果。
进一步的,所述预训练模型为BERT。
进一步的,所述双向上下文字表示为:
{D1,…,Dt}=BiLSTM({C1,…,Ct})
其中,{C1,…,Ct}为字表示。
进一步的,所述词表示为:
Wk=Dj-Di
其中,k为当前词的位置,j为词尾字的位置,i为词首字的位置。
进一步的,所述包含词语信息的字向量表示为:
Ei=concatanate(Wk+Di)。
进一步的,所述纠错结果表示为:
{A1,…,Ak}=Linear(E1,…,Et})。
本发明的有益效果是:
本申请在模型当中有效地引入了词语信息,增强了模型的语义表示能力,大幅提升了模型对整个词都写错的情况的纠错能力,提升了模型整体文本纠错能力。
本申请在模型中引入专门的神经网络结构用于表示词语信息,并将每个字所在词的词语信息融入到字的表示当中,从而有效引入了词语信息,增强了模型的语义表示能力,大幅提升了模型对整个词都写错的情况的纠错能力,提升了模型整体文本纠错能力。
附图说明
图1为模型的运行流程图;
图2为本申请的流程图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的融入词语信息的中文拼写纠错方法,包括以下步骤:
步骤一:获取文本纠错数据,所述文本纠错数据包括待检错句子和纠正后句子;
步骤二:对待检错句子进行分词,得到分词结果;
步骤三:将待检错句子和分词结果作为输入,将纠正后句子作为输出,训练纠错模型;
步骤四:利用训练好的纠错模型进行中文拼写纠错。
本申请首先使用预训练模型(例如BERT)对输入句子中的每一个字进行编码,然后利用双向长短时记忆网络(LSTM)获得每个字的双向编码,接着依据输入句子的分词结果与词语中各个字的编码获得词语的编码,继而将字的编码与字所在词的编码进行拼接获得含有词语信息的字编码,最后利用含有词语信息的字编码预测字是否为错别字以及应该被如何纠正。
本申请使用基于预训练的语义表示模型对问答库中的问题做向量化处理得到句子的语义表示向量,然后使用近似检索算法对问答库建立索引,最终对查询进行近似最近邻检索。先来介绍一下融入词语信息的中文拼写纠错模型,然后再来介绍整个方法的使用流程。
融合词语信息的中文拼写纠错模型的运行流程如图1:
1.本方案使用预训练模型(例如BERT)对输入句子进行编码,从而获得输入句子中的每一个字的表示。从而获得了句子的字表示集合{C1,…,Ct}。
2.接下来本方案将1中的字表示集合通过双向长短时记忆网络从而获得双向上下文字表示{D1,…,Dt}。
{D1,…,Dt}=BiLSTM({C1,…,Ct})
3.接下来本方案利用2中的双向上下文字表示与输入句子的分词结果获得每个词语的词表示{W1,…,Wk}。具体来说,取出词语中每一个字的双向上下文字表示向量,使用词尾字向量减去词首字向量,所得结果即为词表示向量。在下面的公式中,k为当前词的位置,j为词尾字的位置,i为词首字的位置。
Wk=Dj-Di
4.最终将每个字的字向量与其所在词的词向量拼接,从而获得包含词信息的字向量{E1,…,Ek}。在下面的公式中,i为当前字的位置,k为当前字所属于词的位置。
Ei=concatanate(Wk+Di)
结合该向量与线性层,即可预测句中每个字是否应该被纠正以及应该被纠正为哪个字。记最终的纠正结果为{A1,…,Ak}。
{A1,…,Ak}=Linear(E1,…,Et})
融合词语信息的中文拼写纠错方法的整体使用流程如图2:
a.为了训练文本纠错模型,本方法首先需要标注文本纠错数据集,每条数据的格式为一个二元组:(待检错句子,纠正后句子)。如果待检错句子当中没有错误,则纠正后句子与待检错句子相同。标注示例如下:(今天的添气不错,今天的天气不错),(我做了一个梦,我做了一个梦)。
b.对数据集中的所有待检错句子,使用分词模型进行分词,获取分词结果。
c.接下来本方法使用a与b中的获得的数据集标注结果以及对应的分词结果对融入词语信息的中文拼写纠错模型进行训练。
d.对于待检错的句子,使用分词模型进行分词。将待检错句子与分词结果一同输入c中训练好的融入词语信息的中文拼写纠错模型,获得纠错结果。
实施例:
本申请将待纠错语句作为输入,待纠错的语句表示为S={c1,c2,…,ci,…cn},S首先经过BERT编码器获取语句中每一个字的隐层表示H={h1,h2,…,hi,…,hn},而后隐层表示H进入双向LSTM结构,通过双向LSTM结构获得新的上下文表示
Figure BDA0003753361400000041
本申请额外训练了一个模型M,M能够将带有错字的语句进行分词,使用M将待纠错语句S分词,获得分词结果S′={w1,w2,…,wj,…,wm}。依据分词结果,基于单字的隐层表示
Figure BDA0003753361400000042
获取词语的隐层表示
Figure BDA0003753361400000043
词语隐层表示获取方式具体表述如下,当Wk={ci,ci+1,…,cj}即第k个词由第i个字到第j个字构成时。记第i个字通过BiLSTM后获得的表示为
Figure BDA0003753361400000044
根据BiLSTM的原理,
Figure BDA0003753361400000045
包含两部分:第一部分为从左向右获得的LSTM隐层表示,记为
Figure BDA0003753361400000046
第二部分为从右向左获得的LSTM隐层表示,记为
Figure BDA0003753361400000047
为了获得词语的表示,对于从左向右的LSTM,使用词尾的向量减去词首的向量。对于从右向左的LSTM,使用词首的向量减去词尾的向量。总的来说,使用词语中最后进入LSTM的字的隐向量减去词语中最先进入LSTM的字的隐向量。这一过程可以被公式化的表述,见公式(1-1)、(1-2)、(1-3):
Figure BDA0003753361400000048
Figure BDA0003753361400000049
Figure BDA00037533614000000410
其中Concatenate为拼接操作,即将两个输入的隐层向量直接拼接起来。
而后将
Figure BDA00037533614000000411
与H进行对位拼接,即每一个字的表示之后拼接上其当前所在词的表示,这一过程可被公式化的表述,见公式(1-4):
ei=Concatenate(hi,wk),其中第k个词含有第i个字(1-4)
在得到E={e1,e2,…,ei,…,en}后,将之送入线性层,进行对纠正后句子位置各个字的预测。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (8)

1.融入词语信息的中文拼写纠错方法,其特征在于包括以下步骤:
步骤一:获取文本纠错数据,所述文本纠错数据包括待检错句子和纠正后句子;
步骤二:对待检错句子进行分词,得到分词结果;
步骤三:将待检错句子和分词结果作为输入,将纠正后句子作为输出,训练纠错模型;
步骤四:利用训练好的纠错模型进行中文拼写纠错。
2.根据权利要求1所述的融入词语信息的中文拼写纠错方法,其特征在于所述分词通过分词模型进行。
3.根据权利要求2所述的融入词语信息的中文拼写纠错方法,其特征在于所述纠错模型为融入词语信息的中文拼写纠错模型,所述融入词语信息的中文拼写纠错模型具体执行如下步骤:
步骤1:利用预训练模型对输入句子中的每个字进行编码,得到字表示;
步骤2:利用双向长短时记忆网络将字表示转换为双向上下文字表示;
步骤3:获取输入句子的分词结果,并依据输入句子的分词结果以及双向上下文字表示得到词表示;
步骤4:将字表示与词表示进行拼接,得到包含词语信息的字向量;
步骤5:基于包含词语信息的字向量,并通过线性层得到纠错结果。
4.根据权利要求3所述的融入词语信息的中文拼写纠错方法,其特征在于所述预训练模型为BERT。
5.根据权利要求3所述的融入词语信息的中文拼写纠错方法,其特征在于所述双向上下文字表示为:
{D1,…,Dt}=BiLSTM({C1,…,Ct})
其中,{C1,…,Ct}为字表示。
6.根据权利要求5所述的融入词语信息的中文拼写纠错方法,其特征在于所述词表示为:
Wk=Dj-Di
其中,k为当前词的位置,j为词尾字的位置,i为词首字的位置。
7.根据权利要求6所述的融入词语信息的中文拼写纠错方法,其特征在于所述包含词语信息的字向量表示为:
Ei=concatanate(Wk+Di)。
8.根据权利要求7所述的融入词语信息的中文拼写纠错方法,其特征在于所述纠错结果表示为:
{A1,…,Ak}=Linear(E1,…,Et})。
CN202210850675.XA 2022-07-19 2022-07-19 融入词语信息的中文拼写纠错方法 Active CN115169331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210850675.XA CN115169331B (zh) 2022-07-19 2022-07-19 融入词语信息的中文拼写纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210850675.XA CN115169331B (zh) 2022-07-19 2022-07-19 融入词语信息的中文拼写纠错方法

Publications (2)

Publication Number Publication Date
CN115169331A true CN115169331A (zh) 2022-10-11
CN115169331B CN115169331B (zh) 2023-05-12

Family

ID=83494886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210850675.XA Active CN115169331B (zh) 2022-07-19 2022-07-19 融入词语信息的中文拼写纠错方法

Country Status (1)

Country Link
CN (1) CN115169331B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和***
CN114154487A (zh) * 2021-12-08 2022-03-08 和美(深圳)信息技术股份有限公司 文本自动纠错方法、装置、电子设备及存储介质
WO2022134356A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和***
WO2022134356A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质
CN114154487A (zh) * 2021-12-08 2022-03-08 和美(深圳)信息技术股份有限公司 文本自动纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115169331B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN111523306A (zh) 文本的纠错方法、装置和***
CN108932226A (zh) 一种对无标点文本添加标点符号的方法
Xue et al. A better way to attend: Attention with trees for video question answering
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及***
CN111339750A (zh) 去除停用语并预测句子边界的口语文本处理方法
CN114065738B (zh) 基于多任务学习的中文拼写纠错方法
CN113609824A (zh) 基于文本编辑和语法纠错的多轮对话改写方法及***
CN111476031A (zh) 一种基于Lattice-LSTM的改进中文命名实体识别方法
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN113918031A (zh) 使用子字符信息进行中文标点恢复的***和方法
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN115658898A (zh) 一种中英文本实体关系抽取方法、***及设备
CN115730585A (zh) 文本纠错及其模型训练方法、装置、存储介质及设备
CN114333838A (zh) 语音识别文本的修正方法及***
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
CN115169331A (zh) 融入词语信息的中文拼写纠错方法
CN115688703A (zh) 一种特定领域文本纠错方法、存储介质和装置
CN114970541A (zh) 文本语义理解方法、装置、设备及存储介质
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
Lü et al. Automatic translation template acquisition based on bilingual structure alignment
Kohita et al. Multilingual back-and-forth conversion between content and function head for easy dependency parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant