CN113076739A - 一种实现跨领域的中文文本纠错方法和*** - Google Patents
一种实现跨领域的中文文本纠错方法和*** Download PDFInfo
- Publication number
- CN113076739A CN113076739A CN202110383985.0A CN202110383985A CN113076739A CN 113076739 A CN113076739 A CN 113076739A CN 202110383985 A CN202110383985 A CN 202110383985A CN 113076739 A CN113076739 A CN 113076739A
- Authority
- CN
- China
- Prior art keywords
- sentence
- error
- text
- model
- error detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 238000012163 sequencing technique Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种实现跨领域的中文文本纠错方法,包括如下步骤:采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;通过编辑距离或者Jaccard距离在词表的拼音库中进行错误找回,获得错误替换集合;将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错;本发明提出一种实现跨领域的中文文本纠错方法,即一套错误检测→候选召回→纠错排序的模型,能够更通用地处理跨领域文本的纠错问题,通过深度学习训练的语言模型来召回文本,能够提升召回文本的困惑度,并且模型相互解耦合,提升了效率。
Description
技术领域
本发明涉及文本纠错领域,特别是指一种实现跨领域的中文文本纠错方法和***。
背景技术
在日常生活中,我们在用微信、微博等社交工具中,在浏览网页、看公众号文章的时候经常会出现错字,导致文本意义出现歧义的情况。中文文本纠错技术就是通过自然语言处理的算法对中文语句进行自动检查,自动纠错的一项重要技术,其目的是提高语言的正确性,提升文本交互的效率和价值。现有的主流文本纠错的技术主要分为两种:一种是通过序列学习的方式来找到文本错误位置,再通过排序纠正文本的错误信息的pipline的方式。另外一种是端到端基于NMT(神经网络翻译)的模型从输入的错误文本到输出正确的文本内容的方式。
但是前者对于排序召回纠正错误文本的算法存在效率比较低,而且给出的正确文本由于候选集是有限集导致适用范围有限,可能还会导致歧义的出现。后者端到端的方式需要大量的有监督的训练集,并且模型复杂度很高性能无法作为基础模块嵌入很多下游应用中,过于低效。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种实现跨领域的中文文本纠错方法,即一套错误检测→候选召回→纠错排序的模型,能够更通用地处理跨领域文本的纠错问题,通过深度学习训练的语言模型来召回文本,能够提升召回文本的困惑度,并且模型相互解耦合,提升了效率。
本发明采用如下技术方案:
一种实现跨领域的中文文本纠错方法,包括如下步骤:
采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;
通过编辑距离或者Jaccard距离在词表的拼音库中进行错误找回,获得错误替换集合;
将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错。
具体地,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,所述序列标注的检错模型结合通用领域的监督数据训练模型,具体为:
文本表示层,通过bert预训练模型进行文本表示,文本表示为n*k的矩阵,其中n为句子的最大长度,k为词向量维度;
Bi-LSTM层,通过长短期记忆网络实现句子中每个字的输出,并通过数学结构保持长距离的字的信息,Bi-LSTM层的输出矩阵为n*2*h,其中h为文本表示层的维度;
CRF层,结合Bi-LSTM层的输出,通过初始化转移矩阵来计算每个句子出现的实体标签的最佳路径。
具体地,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,所述序列标注的检错模型结合通用领域的监督数据训练模型,具体为:
文本表示层,通过skip-gram或者cbow的方式嵌入文本,文本表示为n*k的矩阵,其中n为句子的最大长度,k为词向量维度;
Bi-LSTM层,通过长短期记忆网络实现句子中每个字的输出,并通过数学结构保持长距离的字的信息,Bi-LSTM层的输出矩阵为n*2*h,其中h为文本表示层的维度;
CRF层,结合Bi-LSTM层的输出,通过初始化转移矩阵来计算每个句子出现的实体标签的最佳路径。
具体地,在采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测之前,还包括:
对文本进行特殊字符和表情符号的过滤,并构成字表,将每个句子中的字进行数字化;
将字符和实体标注对应的数据以batch的方式读取,并tokenize每个句子,将[CLS]和[SEP]加在句子的首尾。
具体地,对文本进行特殊字符和表情符号的过滤,并构成字表,将每个句子中的字进行数字化,还包括:
将字符与标注的实体标签处理为一一对应的形式,采用分词处理拼音词典。具体地,将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,其中所述rnnlm语言模型具体为:
表示层,将字+词合起来表征句子,并用word2vec进行向量化;
RNN层,包括循环神经网络,将文本进行序列建模,每一个隐藏层输出都取决于当前的输入和前一时刻的输出,学习到句子的表述顺序;
输出层,接入线性变化的一个激活函数,得到每个句子的损失值。
具体地,所述困惑度的计算具体为:
其中,S表示为句子,w表示字,i表示句子中字的序号,i=1,2....N,N表示句子中字的个数。
本发明实施例一方面还提供一种实现跨领域的中文文本纠错***,包括:
错误检测模块:采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;
错误召回模块:通过编辑距离或者Jaccard距离在词表的拼音库中进行错误召回,获得错误替换集合;
纠错排序模块:将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错。
本发明实施例另一方面还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种实现跨领域的中文文本纠错方法的步骤。
本发明实施例再一方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种实现跨领域的中文文本纠错方法的步骤。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明提供了一种实现跨领域的中文文本纠错方法,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;通过编辑距离或者Jaccard距离在词表的拼音库中进行错误找回,获得错误替换集合;将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错;本发明通过提出一套错误检测→候选召回→纠错排序的模型,能够更通用地处理跨领域文本的纠错问题,通过深度学习训练的语言模型来召回文本,能够提升召回文本的困惑度,并且模型相互解耦合,提升了效率。
(2)本发明通过采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,能够在不同领域下对错误文本进行纠正,从而实现跨领域的文本纠错。
附图说明
图1为本发明实施例提供的实现跨领域的中文文本纠错方法流程图;
图2为本发明实施例提供的实现跨领域的中文文本纠错方法架构图;
图3为本发明实施例提供的实现跨领域的中文文本纠错***的结构图
图4为本发明实施例提供的一种电子设备的实施例示意图;
图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
本发明实施例提出一种实现跨领域的中文文本纠错方法,即一套错误检测→候选召回→纠错排序的模型,能够更通用地处理跨领域文本的纠错问题,通过深度学习训练的语言模型来召回文本,能够提升召回文本的困惑度,并且模型相互解耦合,提升了效率。
如图1,为本发明实施例提供的一种实现跨领域的中文文本纠错方法的具体流程图,包括如下步骤:
S101:采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;
具体地,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,所述序列标注的检错模型结合通用领域的监督数据训练模型,具体为:
文本表示层,通过bert预训练模型进行文本表示,文本表示为n*k的矩阵,其中n为句子的最大长度,k为词向量维度;
Bi-LSTM层,通过长短期记忆网络实现句子中每个字的输出,并通过数学结构保持长距离的字的信息,Bi-LSTM层的输出矩阵为n*2*h,其中h为文本表示层的维度;
CRF层,结合Bi-LSTM层的输出,通过初始化转移矩阵来计算每个句子出现的实体标签的最佳路径。
其中hidden为隐藏层。
BERT模型是一种基于双向Transformer构建的语言模型;在之前的预训练模型(包括word2vec,ELMo等)都会生成词向量,这种类别的预训练模型属于领域迁移,而bert模型属于模型迁移。
BERT模型是将预训练模型和下游任务模型结合在一起的,也就是说在做下游任务时仍然是用BERT模型,而且天然支持文本分类任务,在做文本分类任务时不需要对模型做修改,提升效率。
另一实施例,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,所述序列标注的检错模型结合通用领域的监督数据训练模型,具体为:
文本表示层,通过skip-gram或者cbow的方式嵌入文本,文本表示为n*k的矩阵,其中n为句子的最大长度,k为词向量维度;
Bi-LSTM层,通过长短期记忆网络实现句子中每个字的输出,并通过数学结构保持长距离的字的信息,Bi-LSTM层的输出矩阵为n*2*h,其中h为文本表示层的维度;
CRF层,结合Bi-LSTM层的输出,通过初始化转移矩阵来计算每个句子出现的实体标签的最佳路径。
skip-gram模型和cbow模型为word2vec中涉及到的两个模型,cbow是已知当前词的上下文,来预测当前词,而Skip-gram则相反,是在已知当前词的情况下,预测其上下文;
skip-gram和cbow模型均包括三层,分别是输入层、投影层和输出层,且都是以Huffman树作为基础的,而Huffman树中非叶节点存储的中间向量的初始化值是零向量,而叶节点对应的单词的词向量是随机初始化的。
具体地,在采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测之前,还包括:
对文本进行特殊字符和表情符号的过滤,并构成字表,将每个句子中的字进行数字化;
将字符和实体标注对应的数据以batch的方式读取,并tokenize每个句子,将[CLS]和[SEP]加在句子的首尾。
具体地,对文本进行特殊字符和表情符号的过滤,并构成字表,将每个句子中的字进行数字化,还包括:
将字符与标注的实体标签处理为一一对应的形式,采用分词处理拼音词典。
本发明实施例通过采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,能够在不同领域下对错误文本进行纠正,从而实现跨领域的文本纠错。
S102:通过编辑距离或者Jaccard距离在词表的拼音库中进行错误找回,获得错误替换集合;
编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符;
例如将kitten一字转成sitting:sitten(k→s);sittin(e→i);sitting(→g);
找出字符串的编辑距离,即把一个字符串s1最少经过多少步操作变成编程字符串s2,操作有三种,添加一个字符,删除一个字符,修改一个字符;
Jaccard距离,即杰卡德距离,距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度;与杰卡德相似系数相反的概念是杰卡德距离(Jaccard Distance),可以用如下公式来表示:
其中,两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号J(A,B)表示。杰卡德相似系数是衡量两个集合相似度的一种指标(余弦距离也可以用来衡量两个集合的相似度)。
S103:将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错。
具体地,将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,其中所述rnnlm语言模型具体为:
表示层,将字+词合起来表征句子,并用word2vec进行向量化;
RNN层,包括循环神经网络,将文本进行序列建模,每一个隐藏层输出都取决于当前的输入和前一时刻的输出,学习到句子的表述顺序;
输出层,接入线性变化的一个激活函数,得到每个句子的损失值。
具体地,所述困惑度的计算具体为:
其中,S表示为句子,w表示字,i表示句子中字的序号,i=1,2....N,N表示句子中字的个数。
困惑度是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率,困惑度越小,句子出现概率越大,说明句子困惑度越高。
对于句子S,句子出现的概率为:
P(S)=P(W1,W2...WN)
=p(W1)p(W2|W1)…p(WN|W1,W2,…,WN-1)
就是每个字出现概率相乘的联合概率;
句子S困惑度为:
则:
上式两边取对数,然后再解出PP(S)就可以得到每个字连乘取负log再做指数的形式:
指数的部分其实就是交叉熵损失的形式,满足句子出现的概率越高,则困惑度越小,句子出现的概率其实就可以表征句子的困惑度,因此用这个来度量句子的困惑度。
如图2为本发明实施例提供的一种实现跨领域的中文文本纠错方法的架构图。
如图3,本发明实施例一方面还提供一种实现跨领域的中文文本纠错***,包括:
错误检测模块301:采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;
在错误检测模块301中,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,所述序列标注的检错模型结合通用领域的监督数据训练模型,具体为:
文本表示层,通过bert预训练模型进行文本表示,文本表示为n*k的矩阵,其中n为句子的最大长度,k为词向量维度;
Bi-LSTM层,通过长短期记忆网络实现句子中每个字的输出,并通过数学结构保持长距离的字的信息,Bi-LSTM层的输出矩阵为n*2*h,其中h为文本表示层的维度;
CRF层,结合Bi-LSTM层的输出,通过初始化转移矩阵来计算每个句子出现的实体标签的最佳路径。
BERT模型是一种基于双向Transformer构建的语言模型;在之前的预训练模型(包括word2vec,ELMo等)都会生成词向量,这种类别的预训练模型属于领域迁移,而bert模型属于模型迁移。
BERT模型是将预训练模型和下游任务模型结合在一起的,也就是说在做下游任务时仍然是用BERT模型,而且天然支持文本分类任务,在做文本分类任务时不需要对模型做修改,提升效率。
另一实施例,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,所述序列标注的检错模型结合通用领域的监督数据训练模型,具体为:
文本表示层,通过skip-gram或者cbow的方式嵌入文本,文本表示为n*k的矩阵,其中n为句子的最大长度,k为词向量维度;
Bi-LSTM层,通过长短期记忆网络实现句子中每个字的输出,并通过数学结构保持长距离的字的信息,Bi-LSTM层的输出矩阵为n*2*h,其中h为文本表示层的维度;
CRF层,结合Bi-LSTM层的输出,通过初始化转移矩阵来计算每个句子出现的实体标签的最佳路径。
skip-gram模型和cbow模型为word2vec中涉及到的两个模型,cbow是已知当前词的上下文,来预测当前词,而Skip-gram则相反,是在已知当前词的情况下,预测其上下文;
skip-gram和cbow模型均包括三层,分别是输入层、投影层和输出层,且都是以Huffman树作为基础的,而Huffman树中非叶节点存储的中间向量的初始化值是零向量,而叶节点对应的单词的词向量是随机初始化的。
具体地,在采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测之前,还包括:
对文本进行特殊字符和表情符号的过滤,并构成字表,将每个句子中的字进行数字化;
将字符和实体标注对应的数据以batch的方式读取,并tokenize每个句子,将[CLS]和[SEP]加在句子的首尾。
具体地,对文本进行特殊字符和表情符号的过滤,并构成字表,将每个句子中的字进行数字化,还包括:
将字符与标注的实体标签处理为一一对应的形式,采用分词处理拼音词典
错误召回模块302:通过编辑距离或者Jaccard距离在词表的拼音库中进行错误召回,获得错误替换集合;
在错误召回模块中,编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符;
例如将kitten一字转成sitting:sitten(k→s);sittin(e→i);sitting(→g);
找出字符串的编辑距离,即把一个字符串s1最少经过多少步操作变成编程字符串s2,操作有三种,添加一个字符,删除一个字符,修改一个字符;
Jaccard距离,即杰卡德距离,距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度;与杰卡德相似系数相反的概念是杰卡德距离(Jaccard Distance),可以用如下公式来表示:
其中,两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号J(A,B)表示。杰卡德相似系数是衡量两个集合相似度的一种指标(余弦距离也可以用来衡量两个集合的相似度)。
纠错排序模块303:将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错。
在纠错排序模块中,具体地,将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,其中所述rnnlm语言模型具体为:
表示层,将字+词合起来表征句子,并用word2vec进行向量化;
RNN层,包括循环神经网络,将文本进行序列建模,每一个隐藏层输出都取决于当前的输入和前一时刻的输出,学习到句子的表述顺序;
输出层,接入线性变化的一个激活函数,得到每个句子的损失值。
具体地,所述困惑度的计算具体为:
其中,S表示为句子,w表示字,i表示句子中字的序号,i=1,2....N,N表示句子中字的个数。
困惑度是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率,困惑度越小,句子出现概率越大,说明句子困惑度越高。
对于句子S,句子出现的概率为:
P(S)=P(W1,W2...WN)
=p(W1)p(W2|W1)…p(WN|W1,W2,…,WN-1)
就是每个字出现概率相乘的联合概率;
句子S困惑度为:
则:
上式两边取对数,然后再解出PP(S)就可以得到每个字连乘取负log再做指数的形式:
指数的部分其实就是交叉熵损失的形式,满足句子出现的概率越高,则困惑度越小,句子出现的概率其实就可以表征句子的困惑度,因此用这个来度量句子的困惑度。
如图4,本发明实施例另一方面还提供一种设备,包括存储器410、处理器420及存储在存储器上并可在处理器上运行的计算机程序411,所述处理器420执行所述计算机程序411时实现上述一种实现跨领域的中文文本纠错方法的步骤。
在具体实施过程中,处理器420执行计算机程序411时,可以实现图1对应的实施例中任一实施方式。
由于本实施例所介绍的电子设备为实施本发明实施例中一种数据处理装置所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
如图5所示,本发明实施例再一方面还提供一种计算机可读存储介质500,所述计算机可读存储介质上存储有计算机程序511,所述计算机程序被处理器执行时实现上述一种实现跨领域的中文文本纠错方法的步骤。
在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (10)
1.一种实现跨领域的中文文本纠错方法,其特征在于,包括如下步骤:
采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;
通过编辑距离或者Jaccard距离在词表的拼音库中进行错误找回,获得错误替换集合;
将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错。
2.根据权利要求1所述的一种实现跨领域的中文文本纠错方法,其特征在于,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,所述序列标注的检错模型结合通用领域的监督数据训练模型,具体为:
文本表示层,通过bert预训练模型进行文本表示,文本表示为n*k的矩阵,其中n为句子的最大长度,k为词向量维度;
Bi-LSTM层,通过长短期记忆网络实现句子中每个字的输出,并通过数学结构保持长距离的字的信息,Bi-LSTM层的输出矩阵为n*2*h,其中h为文本表示层的维度;
CRF层,结合Bi-LSTM层的输出,通过初始化转移矩阵来计算每个句子出现的实体标签的最佳路径。
3.根据权利要求1所述的一种实现跨领域的中文文本纠错方法,其特征在于,采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测,所述序列标注的检错模型结合通用领域的监督数据训练模型,具体为:
文本表示层,通过skip-gram或者cbow的方式嵌入文本,文本表示为n*k的矩阵,其中n为句子的最大长度,k为词向量维度;
Bi-LSTM层,通过长短期记忆网络实现句子中每个字的输出,并通过数学结构保持长距离的字的信息,Bi-LSTM层的输出矩阵为n*2*h,其中h为文本表示层的维度;
CRF层,结合Bi-LSTM层的输出,通过初始化转移矩阵来计算每个句子出现的实体标签的最佳路径。
4.根据权利要求1所述的一种实现跨领域的中文文本纠错方法,其特征在于,在采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测之前,还包括:
对文本进行特殊字符和表情符号的过滤,并构成字表,将每个句子中的字进行数字化;
将字符和实体标注对应的数据以batch的方式读取,并tokenize每个句子,将[CLS]和[SEP]加在句子的首尾。
5.根据权利要求1所述的一种实现跨领域的中文文本纠错方法,其特征在于,对文本进行特殊字符和表情符号的过滤,并构成字表,将每个句子中的字进行数字化,还包括:
将字符与标注的实体标签处理为一一对应的形式,采用分词处理拼音词典。
6.根据权利要求1所述的一种实现跨领域的中文文本纠错方法,其特征在于,将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,其中所述rnnlm语言模型具体为:
表示层,将字+词合起来表征句子,并用word2vec进行向量化;
RNN层,包括循环神经网络,将文本进行序列建模,每一个隐藏层输出都取决于当前的输入和前一时刻的输出,学习到句子的表述顺序;
输出层,接入线性变化的一个激活函数,得到每个句子的损失值。
8.一种实现跨领域的中文文本纠错***,其特征在于,包括:
错误检测模块:采用序列标注的检错模型结合通用领域的监督数据训练模型进行错误检测;
错误召回模块:通过编辑距离或者Jaccard距离在词表的拼音库中进行错误召回,获得错误替换集合;
纠错排序模块:将错误替换集合中的词语依次替换错误,采用rnnlm语言模型来对替换错误后的句子进行困惑度计算,根据计算的句子困惑度确定错误替换集合中正确的词语,完成中文文本纠错。
9.一种设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110383985.0A CN113076739A (zh) | 2021-04-09 | 2021-04-09 | 一种实现跨领域的中文文本纠错方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110383985.0A CN113076739A (zh) | 2021-04-09 | 2021-04-09 | 一种实现跨领域的中文文本纠错方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113076739A true CN113076739A (zh) | 2021-07-06 |
Family
ID=76615941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110383985.0A Pending CN113076739A (zh) | 2021-04-09 | 2021-04-09 | 一种实现跨领域的中文文本纠错方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076739A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642318A (zh) * | 2021-10-14 | 2021-11-12 | 江西风向标教育科技有限公司 | 英语文章的纠错方法、***、存储介质及设备 |
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
CN114065735A (zh) * | 2021-11-24 | 2022-02-18 | 北京房江湖科技有限公司 | 文本纠错方法 |
CN114611494A (zh) * | 2022-03-17 | 2022-06-10 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN114818669A (zh) * | 2022-04-26 | 2022-07-29 | 北京中科智加科技有限公司 | 一种人名纠错模型的构建方法和计算机设备 |
CN115048907A (zh) * | 2022-05-31 | 2022-09-13 | 北京深言科技有限责任公司 | 文本数据质量确定的方法及装置 |
CN115204151A (zh) * | 2022-09-15 | 2022-10-18 | 华东交通大学 | 中文文本纠错方法、***及可读存储介质 |
CN115221866A (zh) * | 2022-06-23 | 2022-10-21 | 平安科技(深圳)有限公司 | 一种实体词拼写纠错方法和*** |
CN115293138A (zh) * | 2022-08-03 | 2022-11-04 | 北京中科智加科技有限公司 | 一种文本纠错方法及计算机设备 |
CN115659958A (zh) * | 2022-12-27 | 2023-01-31 | 中南大学 | 一种中文拼写错误检查方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019085779A1 (zh) * | 2017-11-01 | 2019-05-09 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN110717031A (zh) * | 2019-10-15 | 2020-01-21 | 南京摄星智能科技有限公司 | 一种智能会议纪要生成方法和*** |
CN110751234A (zh) * | 2019-10-09 | 2020-02-04 | 科大讯飞股份有限公司 | Ocr识别纠错方法、装置及设备 |
CN111695343A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 错词纠正方法、装置、设备及存储介质 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及*** |
-
2021
- 2021-04-09 CN CN202110383985.0A patent/CN113076739A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019085779A1 (zh) * | 2017-11-01 | 2019-05-09 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN110751234A (zh) * | 2019-10-09 | 2020-02-04 | 科大讯飞股份有限公司 | Ocr识别纠错方法、装置及设备 |
CN110717031A (zh) * | 2019-10-15 | 2020-01-21 | 南京摄星智能科技有限公司 | 一种智能会议纪要生成方法和*** |
CN111695343A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 错词纠正方法、装置、设备及存储介质 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及*** |
Non-Patent Citations (1)
Title |
---|
施晓华: "《矩阵分解学习及其网络社区发现方法》", 北京:北京邮电大学出版社, pages: 137 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
CN113642318B (zh) * | 2021-10-14 | 2022-01-28 | 江西风向标教育科技有限公司 | 英语文章的纠错方法、***、存储介质及设备 |
CN113642318A (zh) * | 2021-10-14 | 2021-11-12 | 江西风向标教育科技有限公司 | 英语文章的纠错方法、***、存储介质及设备 |
CN114065735A (zh) * | 2021-11-24 | 2022-02-18 | 北京房江湖科技有限公司 | 文本纠错方法 |
CN114611494A (zh) * | 2022-03-17 | 2022-06-10 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN114611494B (zh) * | 2022-03-17 | 2024-02-02 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN114818669B (zh) * | 2022-04-26 | 2023-06-27 | 北京中科智加科技有限公司 | 一种人名纠错模型的构建方法和计算机设备 |
CN114818669A (zh) * | 2022-04-26 | 2022-07-29 | 北京中科智加科技有限公司 | 一种人名纠错模型的构建方法和计算机设备 |
CN115048907A (zh) * | 2022-05-31 | 2022-09-13 | 北京深言科技有限责任公司 | 文本数据质量确定的方法及装置 |
CN115048907B (zh) * | 2022-05-31 | 2024-02-27 | 北京深言科技有限责任公司 | 文本数据质量确定的方法及装置 |
CN115221866A (zh) * | 2022-06-23 | 2022-10-21 | 平安科技(深圳)有限公司 | 一种实体词拼写纠错方法和*** |
CN115221866B (zh) * | 2022-06-23 | 2023-07-18 | 平安科技(深圳)有限公司 | 一种实体词拼写纠错方法和*** |
CN115293138A (zh) * | 2022-08-03 | 2022-11-04 | 北京中科智加科技有限公司 | 一种文本纠错方法及计算机设备 |
CN115204151A (zh) * | 2022-09-15 | 2022-10-18 | 华东交通大学 | 中文文本纠错方法、***及可读存储介质 |
CN115659958A (zh) * | 2022-12-27 | 2023-01-31 | 中南大学 | 一种中文拼写错误检查方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113076739A (zh) | 一种实现跨领域的中文文本纠错方法和*** | |
US11574122B2 (en) | Method and system for joint named entity recognition and relation extraction using convolutional neural network | |
CN112528672B (zh) | 一种基于图卷积神经网络的方面级情感分析方法及装置 | |
CN111309915B (zh) | 联合学习的自然语言训练方法、***、设备及存储介质 | |
WO2021179897A1 (zh) | 实体链接方法及装置 | |
CN112800776B (zh) | 双向gru关系抽取数据处理方法、***、终端、介质 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
US20150170051A1 (en) | Applying a Genetic Algorithm to Compositional Semantics Sentiment Analysis to Improve Performance and Accelerate Domain Adaptation | |
CN111709243A (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN116151132A (zh) | 一种编程学习场景的智能代码补全方法、***及储存介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
Kim et al. | Weakly labeled data augmentation for social media named entity recognition | |
CN112528653B (zh) | 短文本实体识别方法和*** | |
CN111666405B (zh) | 用于识别文本蕴含关系的方法和装置 | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
US11727215B2 (en) | Searchable data structure for electronic documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |