CN112183094B - 一种基于多元文本特征的中文语法查错方法及*** - Google Patents
一种基于多元文本特征的中文语法查错方法及*** Download PDFInfo
- Publication number
- CN112183094B CN112183094B CN202011209481.9A CN202011209481A CN112183094B CN 112183094 B CN112183094 B CN 112183094B CN 202011209481 A CN202011209481 A CN 202011209481A CN 112183094 B CN112183094 B CN 112183094B
- Authority
- CN
- China
- Prior art keywords
- grammar
- text
- information
- model
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多元文本特征的中文语法查错方法及***,方法包括:(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;(2)利用Bi‑LSTM模型抽取文本的特征向量序列;(3)对特征向量序列进行基于语义和词性搭配信息的注意力增强;(4)对注意力增强后的特征向量序列进行线性变换,得到标签预测序列;(5)对标签预测序列进行基于词序关系特征的信息增强;(6)捕获信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。经过验证,本发明表现出较好的查错效果,优于其他现有同类方法。
Description
技术领域
本发明属于文本识别技术领域,具体涉及一种基于多元文本特征的中文语法查错方法及***。
背景技术
近年来,语法查错的方法主要包括基于规则匹配的语法查错方法、基于统计模型的语法查错方法和基于深度学习模型的语法查错方法。
基于规则匹配的语法查错方法,首先是对词法、句法、语法等特征进行抽取,然后构建出语法规则模板,最后通过文本与语法规则模板的匹配,实现语法的查错。语法规则能较好的描述文本中特殊的语法结构,但是当文本中包含复杂语法结构和非正式表达用语时,语法规则往往无法准确描述这些语法现象,而统计模型可以很好的解决这一问题。虽然统计模型能够针对文本中的复杂语法现象构建出更加全面的语法规则模板,但是语法规则仍然不能涵盖所有的语法现象,无法进一步提升语法查错效果。
随着深度学习的快速发展,各种各样的网络模型开始应用于语法查错任务。常用网络模型虽然能较好的捕获文本的长距离语义信息与字词间的约束信息,但是在文本向量表示阶段仍然使用传统的静态文本向量表示方法,不能很好的表示文本的语义特征,因此,基于预训练模型的向量表示方法成为近年来的研究热点。Devlin等[1]人提出了基于自注意力机制的双向Transformer框架(BERT),并在超大规模数据集上进行训练,该模型已广泛应用于各大自然语言处理任务。随后,不断涌现出新的预训练模型,进一步提高了向量对文本的语义表征能力。黎在万[2]将预训练模型引入文本的向量表示后,提出了一种基于Bi-LSTM-CRF的语法查错模型,该模型在文本语义表征方面有了明显提升,可以更好的捕捉语法错误特征,取得了不错的语法查错效果。上述模型虽然提升了文本的语义表征能力,但是没有有效利用语法先验知识,语法查错效果还有待提高。
文中涉及如下参考文献:
[1]DEVLIN J,CHANG M W,LEE K,et al.Bert:Pre-training of deepbidirectional transformers for language understanding[J].arXiv preprintarXiv:1810.04805,2018.
[2]LI Zai Wan.Analysis and System Implementation of Chinese LanguageDisorders based on Deep learning[D].University of Electronic Science andTechnology of China,2020.(in Chinese).
发明内容
本发明的目的是将语法先验知识引入预训练模型,提出了一种基于多元文本特征的中文语法查错方法及***。
本发明基于预训练模型,将文本的语义信息与语法先验知识融合,共同进行文本的向量表示,以丰富文本的特征信息;又引入注意力机制和词序关系特征,强化模型对文本特征的捕获能力,进而提升语法查错效果。
本发明提供的一种基于多元文本特征的中文语法查错方法,包括:
(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;
(2)利用Bi-LSTM模型从步骤(1)所得向量序列中,抽取文本的特征向量序列;
(3)对步骤(2)所得特征向量序列,进行基于语义和词性搭配信息的注意力增强;
(4)对步骤(3)注意力增强后的特征向量序列进行线性变换,得到标签预测序列;
(5)对步骤(4)所得标签预测序列进行基于词序关系特征的信息增强;
(6)捕获步骤(5)所得信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。
进一步的,步骤(1)中利用预训练模型对文本进行向量表示,具体为:
将文本中各词表征为3个向量:词向量、分段向量和位置向量;3个向量求和得各词的语义特征向量。
进一步的,步骤(1)中利用语法先验知识对文本进行向量表示,具体为:
利用汉语分词***对文本进行分词获得分词结果,使用独热编码方式生成词性特征向量。
进一步的,步骤(3)具体为:
组合LSTM各时刻输出得特征编码矩阵M=[e1,e2,…,es]T=[d1,d2,…,dk],其中,ei为LSTM中每一时刻节点的正向输出和反向输出进行拼接得到的语义编码,s为LSTM展开的时间步数,k为LSTM隐藏单元个数的二倍;
对M进行压缩,得到语义信息和词性搭配信息向量p=[max(d1),max(d2),…,max(dk)];
对特征向量p进行线性变换,得关注权重S;
利用S对LSTM每一时刻隐藏单元的输出hj进行加权更新hj′=Whj,hj为第j个维度隐藏层的输出,j=1,2,…,r,即完成特征向量序列的基于语义和词性搭配信息的注意力增强。
进一步的,步骤(5)具体为:
遍历步骤(4)所得标签预测序列,提取动词和形容词,将动词和形容词所在最小语法单元内的主要名词作为其强关联项,加入强关联集合Fnx;若最小语法单元中无主要名词,则相应的强关联集合为空;
遍历步骤(4)所得标签预测序列,将标记为存在语法错误的主要名词加入集合Fny;
利用F′nx=Fnx-Fnx∩Fny和F′ny=Fny-Fnx∩Fny对强关联集合进行清洗;
进一步的,步骤(6)中,利用CRF模型捕获约束信息。
本发明提供的一种基于多元文本特征的中文语法查错***,包括:
向量表示模块,用来分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;
特征抽取模块,用来利用Bi-LSTM模型从向量表示模块所得向量序列中,抽取文本的特征向量序列;
注意力增强模块,用来对特征抽取模块所得特征向量序列,进行基于语义和词性搭配信息的注意力增强;
线性变换模块,用来对注意力增强模块注意力增强后的特征向量序列进行线性变换,得到标签预测序列;
信息增强模块,用来对线性变换模块所得标签预测序列进行基于词序关系特征的信息增强;
捕获模块,用来捕获信息增强模块所得信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置。
和现有技术相比,本发明具有如下优点和有益效果:
本发明在文本向量表示层,融合了语义特征和词性搭配特征,丰富了文本的特征信息;在标签预测层引入注意力机制,使模型可以对文本不同部分赋予不同的权重,提升了语法错误的识别效果;同时,引入词语强关联层和后处理机制,提升了模型获取词序关系特征的能力,有效提升了模型语法查错的性能。
本发明方法在CGED公开数据集上进行验证,表现出较好的查错效果,优于其他现有同类方法。
附图说明
图1为本发明基于语义特征和词性搭配特征的基础模型的框架图;
图2为BERT模型的向量表示示意;
图3为字符串词法分析示意图;
图4为本发明基于语义信息和词性搭配信息注意力的信息增强模型框架图;
图5为错误预测与词法分析结果示意;
图6为本发明基于多元文本特征的语法查错模型的框架图。
具体实施方式
本发明的实现构建了四类模型:第一类在文本抽象化表示上,融合了预训练模型和语法先验知识,构建基于语义特征和词性搭配特征的基础模型;第二类在语法查错中,引入了注意力机制,构建基于语义和词性搭配信息注意力的信息增强模型;第三类在错误定位上,针对词序类错误词语定位补全的问题,引入了词序关系特征,构建了基于词序关系特征的信息增强模型;第四类是将前三类模型进行融合,构建了基于多元文本特征的语法查错模型。
为便于理解,下面将分别描述四类模型的原理及具体实施方式。
(一)基于语义特征和词性搭配特征的基础模型
参见图1,所示为基础模型的架构图,其主要由向量表示层、标签预测层和约束信息捕获层组成。本发明在基础模型的向量表示层做了优化,使模型可以获取更丰富的文本特征。
1.1向量表示层
在分析了存在各类语法错误的文本后,发现文本的语义信息和语法先验知识中包含有丰富的可供识别各类语法错误的特征。因此,本发明构建融合预训练模型和语法先验知识的向量表示方法。
1)语义特征向量
在具体实施中,预训练模型可采用Google公司公布的BERT语言模型,BERT模型的核心是一个双向Transformers编码层,通过对屏蔽词语和语句接续关系的预测训练模型。在预测屏蔽词语任务中,使用Masked Language Model(MLM)策略,不限制词语间距离的长短,让模型学习到多层次上下文信息即全局语义信息,进而预测屏蔽词,达到词语的深度双向向量表示。
当进行文本的向量表示时,BERT模型使用三个向量的求和结果作为文本的最终向量表示,即语义特征向量。求和过程见图2所示,每一个词表征为3个向量,分别是词向量、分段向量和位置向量。词向量是根据词汇表查询得到的目标词的编码;分段向量是对目标句在文本中所处位置的编码;位置向量是目标词在句中所处位置的编码。需要特殊注意的是,每一句话在编码前,需要提前在句首和句尾添加CLS和SEP标记。
2)词性语法先验知识
词性不仅包含文本的句法结构特征,又兼顾词汇的语义信息,因此,将其作为语法先验知识输入模型。当文本中存在语法错误时,会出现语法结构不符合语法规范的现象,破坏了文本序列原有的句法结构,而且语法错误还会导致文本出现真多字词错误、词序混乱等问题,产生字符串和词序类语法错误。其中,字符串语法错误往往会造成文本分词结果中出现单字散串的现象。见图3所示,其中字符串序列的“中”字错写为“忠”,使“中国”变为“忠”和“国”两个单字,出现单字散串现象,同时词性序列也发生了变化;词序类语法错误同样会导致文本词性序列的变化。因此,引入词性对文本进行向量表示,可以使模型捕获到词性搭配特征,进而提升语法查错效果。
在具体实施中,可采用中科院NLPIR***(一种汉语分词***)作为词法分析工具,NLPIR词法分析工具将词语的词性标记为22大类,75小类,在此分类体系的基础上,构造出对应的词性标注词典。首先获取文本的分词结果,然后使用独热编码方式生成词性特征向量(x′1,x′2,…,x′q),其中q为文本的序列长度,采用首尾相接的向量拼接方式,将其和预训练模型生成的语义特征向量(x1,x2,…,xq)拼接,得到文本的最终向量表示序列(x1,x2,…,xq),(x′1,x′2,…,x′q)。
1.2标签预测层
标签预测层采用Bi-LSTM模型对文本的上下文语义信息和词性搭配信息进行编码,使模型可以捕获语义特征和词性搭配特征,进而提升字符串语法错误的识别效果,该层的输出为文本的特征向量(h1,h2,…,hr),其中,r为隐藏层维度,经过线性变化后得到文本的标签预测序列(l1,l2,…,lq)。
1.3约束信息捕获层
采用CRF捕获字词间的约束信息,然后将其用于语法错误边界位置的判别,可以有效提高语法错误位置识别的精度,进而提升模型的语法查错效果。
(二)基于语义和词性搭配信息注意力的信息增强模型
进一步分析存在语法错误的文本,发现在判别某一位置是否存在语法错误时,文本中的不同字词可提供的有用信息是不同的。根据这一特性,在识别语法错误时,更希望与语法错误相关的部分占有更高的权重,与错误不相关部分占有较低的权重。由此,可以利用注意力机制,将有限的注意力选择性的分配给更重要的信息,使得和语法错误相关度较高的部分所占权重更高,以此来更新文本的特征向量,进而提升模型的查错效果。
本发明信息增强模型的框架图如图4所示。基于语义和词性搭配信息的注意力,主要通过分析序列内部的联系,完成权重计算,对Bi-LSTM输出进行注意力加权更新,强化文本中与语法错误相关的部分。在LSTM中,对每一时刻节点的正向输出和反向输出进行拼接,得到语义编码ei,ei同时包含当前时刻的上文信息和下文信息。组合LSTM各个时刻的输出,得到文本的语义特征和词性搭配特征编码矩阵M=[e1,e2,…,es]T=[d1,d2,…,dk]。其中,s为LSTM展开的时间步数,k为LSTM隐藏单元个数的二倍。对特征编码矩阵进行压缩,得到语义信息和词性搭配信息向量p,如公式(1)所示。
p=[max(d1),max(d2),…,max(dk)] (1)
通过对特征向量p进行线性变化,得到关注权重W,计算如公式(2)所示。
W=Linear(p) (2)
利用W对LSTM每一时刻隐藏单元的输出hj进行加权更新,计算见公式(3)所示。
h′j=Whj (3)
hj为第j个维度隐藏层的输出,j=1,2,…,r。
将加权后的h′j作为最终每个时刻的输出。
(三)基于词序关系特征的信息增强模型
上述基于语义信息和词性搭配信息注意力的信息增强模型,对字符串类语法错误有较好的查错效果,但是对词序类语法错误的查错效果表现不佳。这是因为词序类语法错误的表现形式不同于字符串语法错误,如:“随着经济发展,提高了人们的生活水平。”中出现的词序类语法错误为“人们的生活水平提高了”错写为“提高了人们的生活水平”,可以看出多个词语的顺序混乱导致了这类语法错误,只采用上述语法查错模型较难捕获这一信息。具体来说,上述语法查错模型在提取上下文语义特征和词性搭配特征后,对字符标签进行预测,预测结果聚焦于单个词上,对词语间的词序关系提取不足。因此,在涉及到两个词语以上的词序类语法错误时,模型往往只能将其中的一到两个词识别出来,语法查错效果较差,针对该问题,引入词序关系特征和注意力机制,以此提升模型对涉及多个词语的词序类语法错误的识别能力。
词序关系特征主要表征了两大类词性间的搭配关系:名词与动词的关系,形容词与名词的关系。其中,名词与动词一般描述动作的发起和承受关系;而形容词与名词一般描述形容词与名词间的修饰关系。同时,引入最小语法单元概念,将文本中两个点号所属区间内的文本作为一个最小语法单元,如:“随着经济发展,提高了人们的生活水平。”逗号将文本分为两个最小语法单元。在最小语法单元中,将普通名词作为主要名词,将与动词、形容词存在词序关系的主要名词当作词语的强关联项。如果动词、形容词被标记为存在词序类语法错误,则其对应的强关联集合中的词也要被一同标记。在分词结果中,v表示普通动词,u表示助词,n表示名词,wj表示标点符号。例如图5所示,其中“提高”、“了”、“人们”被标记为存在语法错误。根据上述思想,该语法单元中动词“提高”被标记为存在语法错误,因此其对应的强关联项“人们”、“生活水平”也要被一同标记为存在语法错误。
由此,在基于语义信息和词性搭配信息注意力的信息增强模型的注意力层后引入词语强关联集合层,首先,遍历注意力层的输出序列,查找当前序列中标记为语序错误的字符,进而构建出最小语法单元内的强关联集合。然后,在强关联集合中筛选出未成功标记为语序错误的字符,根据计算公式(4)-(6)更新字符的语序错误类预测分值。最终,输出更新后的字符标签分值序列(l′1,l′2,…,l′q)。
强关联集合的构建过程为:首先提取动词、形容词的强关联项,将该动词、形容词所在最小语法单元内的主要名词(即普通名词)作为其强关联项,加入强关联集合Fa,若最小语法单元中无主要名词,则强关联项集合为空;然后对强关联项集合进行清洗,从标签预测层可以提取到文本中字符的标签预测序列,将标记为存在语法错误的主要名词加入集合Fb,利用Fa与Fb的交集对强关联项集合进行清洗,得到F′a,具体的清洗方法参见公式(4)、(5):
F′a=Fa-Fa∩Fb (4)
F′b=Fb-Fb∩Fa (5)
强关联项标签预测值的计算过程为,将F′b集合中的语法错误标签预测值求和并取均值得到l′a,将F′a集合中强关联项la更新为l′a,计算方法如公式(6)所示:
在约束信息捕获层的输出部分引入了后处理机制,具体方法为,当多个词序错误被标记时,如果词序错误之间出现连续单字且总数小于指定阈值时,将连续单字也标记为词序类语法错误,进一步提升了语法错误识别的准确率。
(四)基于多元文本特征的语法查错模型
将上述三类模型融合,构建基于多元文本特征的语法查错模型,该模型框架如图6所示。
具体来说,主要利用融合预训练模型和语法先验知识的向量表示方法对文本进行向量表示,得到文本的向量序列(x1,x2,…,xq),(x′1,x′2,…,x′q)。首先,通过Bi-LSTM层对文本的上下文语义特征和词性搭配特征进行抽取,得到包含文本语义信息和词性搭配信息的向量序列(h1,h2,…,hr)。然后,利用基于语义和词性搭配信息注意力的信息增强模型对向量序列(h1,h2,…,hr)进行信息增强,使用公式(3)计算得到更新后的向量序列(h′1,h′2,…,h′r),通过线性变换后得到标签预测序列(l1,l2,…,lq)。其次,利用基于词序关系特征的信息增强模型对词序关系特征的捕获能力,引入词语强关联集合计算层,对向量序列进行词序关系信息增强,得到(l′1,l′2,…,l′q)。最后,通过CRF层对语法错误位置进行标注,得到最终语法错误识别序列(y1,y2,…,yq)。
实施例
下面将结合实施例验证本发明的可行性及有益效果。
本实施例在中文语法自动诊断赛事(Chinese Grammar Error Diagnosis,CGED)(2016-2018)公共数据集上进行验证。模型的训练集使用CGED2016的训练集,测试集为CGED2016、2017、2018的三个测试集,分别在三个测试集上对模型做了测试,选取其中的最高值作为模型的最终性能数据。实验结果采用识别准确率(P)、召回率(R)和二者综合的评价指标F1值作为模型性能的评判标准。P指识别正确的语法错误占总计识别到的语法错误的百分比,R指识别正确的语法错误占数据中所有语法错误的百分比,F1是P和R的调和平均值,综合考量模型的性能。
本实施例选取的对比模型包括:
(1)LSTM模型(参见P.L.Chen,S.H.Wu,L.P.Chen,et al.Improving theSelection Error Recognition in a Chinese Grammar Error Detection System[C]//IEEE International Conference on Information Reuse&Integration.IEEE,2016.):
该模型将语法查错任务视为序列标注任务,利用长短期记忆网络获取文本的长距离语义信息,然后进行语法查错。
(2)AL_I_NLP模型(参见Y.Yang,P.J.Xie,J.Tao,et al.Alibaba at IJCNLP-2017Task1:Embedding Grammatical Features into LSTMs for Chinese GrammaticalError Diagnosis Task[C]//IJCNLP,2017,41.):
该模型提出了双向长短期记忆网络和条件随机场的组合模型,同时加入了词性、句法等特征,提升了模型识别长距离语法错误的能力。
(3)W_POS模型(参见LI Zai Wan.Analysis and System Implementation ofChinese Language Disorders based on Deep learning[D].University of ElectronicScience and Technology of China,2020):
该模型将字向量、词向量、词性向量等拼接为输入向量,使得输入向量可以表征更多的文本信息。
(4)HFL模型(参见R.J.Fu,Z.Q.Pei,J.F.Gong,et al.Chinese GrammaticalError Diagnosis using Statistical and Prior Knowledge driven Features withProbabilistic Ensemble Enhancement[C]//NLPTEA,2018,52-59):
该模型在AL_I_NLP模型的基础上,进一步融合了字词统计特征和先验语法知识,同时对模型输出进行了后处理,提升了语法查错效果,该模型是CGED数据集上效果最好的模型。
(5)BERT模型(参见LI Zai Wan.Analysis and System Implementation ofChinese Language Disorders based on Deep learning[D].University of ElectronicScience and Technology of China,2020.):
该模型通过BERT模型进行文本的向量表示,通过双向长短期记忆网络和条件随机场模型,实现语法查错。
本发明实施例采用深度学习框架PyTorch对模型进行实现,采用文本批处理的方式,进行模型的训练和调试。实验环境是一块RTX2080Ti,预训练的字嵌入维度大小设为768,对于模型中各个参数的设置,采用Hyperopt库进行分布式参数调节,获取模型的最优参数集合,具体参数选取结果为:采用Adam作为优化器,初始的学习率设为0.00005,学习率衰减因子设为0.00001,batch的大小设为20。针对dropout值的选取,本实施例在验证集上进行了实验,选取在验证集上F1值最高、训练轮数较小时的0.4作为dropout的最终取值。
同时,对比分析了Bi-LSTM层数对模型效果的影响,实验结果显示双层网络能更好的捕获文本语义特征;对于词序类语法查错模型中后处理阈值的设定,通过统计词序类错误的分词数据,发现存在词序错误的文本中,多个词语间多为助词、副词和介词,且长度一般不超过3,因此设定阈值为3。模型各个参数的设置如表1所示。
表1实验参数设置
参数名 | 参数值 |
Bi-LSTM层数 | 2 |
词向量维度 | 778 |
批处理个数 | 20 |
学习率 | 0.00005 |
dropout | 0.4 |
Bi-LSTM输出维度 | 250 |
本发明实施例首先对融合语义特征向量和词性特征向量的文本向量表示方法、注意力机制和引入词序关系特征做了对比实验,基线模型为基于字符的Bi-LSTM-CRF模型,BP模型表示融合语义特征和词性搭配特征的语法查错模型,BP_A模型表示引入注意力机制的信息增强模型,BP_A_N模型表示进一步引入词序关系特征的信息增强模型。通过对比实验分析加入不同特征对识别语法错误的影响,实验结果如表2-3所示。
表2各特征对字符串语法错误识别效果的影响
表3各特征对词序类语法错误识别效果的影响
从对比实验结果可以看出,BP模型使用融合语义特征和词性特征的向量表示方法生成文本向量,增强了模型对语义特征和词性搭配特征的捕获能力,字符串语法错误的识别效果有了大幅提升,词序类语法错误在召回率上也有较大提升;在此基础上BP_A引入注意力机制,模型对文本不同部分赋予了不同的权重,实验结果表明,模型对字符串语法错误的识别效果有了进一步提升,而词序类语法错误则没有明显变化,这也验证了本文之前的假设,模型缺乏对文本中词序关系特征的捕获能力;针对这一问题,在BP_A_N模型中加入词语强关联集合计算层,引入词序关系特征,通过词语强关联层的处理,将词序错误的多词同时标出,提升了语序语法错误的召回率,证明了模型的有效性。
本实施例按照CGED数据集的实验流程和评价方法进行了实验与分析,从准确率、召回率和F1值三个维度进行了对比。与前人模型的实验对比结果如表4所示。
表4与前人模型的实验对比结果
其中LSTM、AL_I_NLP、W_POS、BERT、HFL模型的实验都基于CGED数据集进行,实验结果为模型对应论文中的实验结果。在CGED数据集上,本发明提出的BP_A_N模型在性能指标上优于其他模型,证明了所提方法的有效性。
BP模型同时引入语义特征和词性搭配特征,将两者联合共同生成文本的向量表示,相较于LSTM、AL_I_NLP、BERT和W_POS模型,BP模型在准确率和召回率上均有大幅提升。在此基础之上,BP_A引入注意力机制进行信息增强,模型可以对识别语法错误提供更多信息的字符赋予更大权重,例如:“我是忠国人。”模型在判断“忠”是否存在语法错误时,从语义特征和词性搭配特征可以得出,“国”对其判断过程有更大帮助,因此模型通过注意力机制计算,会赋予“国”更大权重,进而识别出“忠”存在语法错误。实验结果表明,模型在识别准确率上有大幅提升,证明了方法的有效性。
BP_A_N进一步引入词序关系特征,使模型可以将长距离的语序类错误识别出来,例如:“应当不会对产生其他人的健康问题。”模型将“产生其他人”识别为词序类语法错误时,通过词语强关联层计算,可以将“健康问题”一同标记,并且在后处理过程中会将“的”也一同标记,这就实现了词序类语法错误的正确标注,提升模型的召回率。但是,该方法也会产生误判,例如:“以将其转化为促使发展我们社会的动力。”模型将“发展我们社会”标记为词序类语法错误,通过词语强关联层计算,会将“社会”也标记为词序类语法错误,造成模型的误判。因此,该方法提升了模型对词序类语法错误的召回率,但是也损失了一定的精度,降低一定的准确率。但是与HFL相比,模型较好的平衡了准确率和召回率,而且模型更加简洁。
本领域的普通技术人员将会意识到,在本发明各方法实施例中,所述各步骤的序号并不能用于限定各步骤的先后顺序,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,对各步骤的先后变化也在本发明的保护范围之内。这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (6)
1.一种基于多元文本特征的中文语法查错方法,其特征是,包括:
(1)分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;
(2)利用Bi-LSTM模型从步骤(1)所得向量序列中,抽取文本的特征向量序列;
(3)对步骤(2)所得特征向量序列,进行基于语义和词性搭配信息的注意力增强;
(4)对步骤(3)注意力增强后的特征向量序列进行线性变换,得到标签预测序列;
(5)对步骤(4)所得标签预测序列进行基于词序关系特征的信息增强;
(6)捕获步骤(5)所得信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置;
步骤(5)具体为:
遍历步骤(4)所得标签预测序列,提取动词和形容词,将动词和形容词所在最小语法单元内的主要名词作为其强关联项,加入强关联集合Fnx;若最小语法单元中无主要名词,则相应的强关联集合为空;
遍历步骤(4)所得标签预测序列,将标记为存在语法错误的主要名词加入集合Fny;
利用F′nx=Fnx-Fnx∩Fny和F′ny=Fny-Fnx∩Fny对强关联集合进行清洗;
2.如权利要求1所述的基于多元文本特征的中文语法查错方法,其特征是:
步骤(1)中利用预训练模型对文本进行向量表示,具体为:
将文本中各词表征为3个向量:词向量、分段向量和位置向量;3个向量求和得各词的语义特征向量。
3.如权利要求1所述的基于多元文本特征的中文语法查错方法,其特征是:
步骤(1)中利用语法先验知识对文本进行向量表示,具体为:
利用汉语分词***对文本进行分词获得分词结果,使用独热编码方式生成词性特征向量。
4.如权利要求1所述的基于多元文本特征的中文语法查错方法,其特征是:
步骤(3)具体为:
组合LSTM各时刻输出得特征编码矩阵M=[e1,e2,…,es]T=[d1,d2,…,dk],其中,ei为LSTM中每一时刻节点的正向输出和反向输出进行拼接得到的语义编码,s为LSTM展开的时间步数,k为LSTM隐藏单元个数的二倍;
对M进行压缩,得到语义信息和词性搭配信息向量p=[max(d1),max(d2),…,max(dk)];
对特征向量p进行线性变换,得关注权重S;
利用S对LSTM每一时刻隐藏单元的输出hj进行加权更新h′j=Whj,hj为第j个维度隐藏层的输出,j=1,2,…,r,即完成特征向量序列的基于语义和词性搭配信息的注意力增强。
5.如权利要求1所述的基于多元文本特征的中文语法查错方法,其特征是:
步骤(6)中,利用CRF模型捕获约束信息。
6.一种基于多元文本特征的中文语法查错***,其特征是,包括:
向量表示模块,用来分别利用预训练模型和语法先验知识对文本进行向量表示,得到语义特征向量和词性特征向量,词性特征向量和语义特征向量首尾拼接得到文本的向量序列;
特征抽取模块,用来利用Bi-LSTM模型从向量表示模块所得向量序列中,抽取文本的特征向量序列;
注意力增强模块,用来对特征抽取模块所得特征向量序列,进行基于语义和词性搭配信息的注意力增强;
线性变换模块,用来对注意力增强模块注意力增强后的特征向量序列进行线性变换,得到标签预测序列;
信息增强模块,用来对线性变换模块所得标签预测序列进行基于词序关系特征的信息增强;
捕获模块,用来捕获信息增强模块所得信息增强后的标签预测序列的约束信息,基于约束信息判别语法错误边界位置;
所述用来对线性变换模块所得标签预测序列进行基于词序关系特征的信息增强进一步包括:
遍历线性变换模块所得标签预测序列,提取动词和形容词,将动词和形容词所在最小语法单元内的主要名词作为其强关联项,加入强关联集合Fnx;若最小语法单元中无主要名词,则相应的强关联集合为空;
遍历线性变换模块所得标签预测序列,将标记为存在语法错误的主要名词加入集合Fny;
利用F′nx=Fnx-Fnx∩Fny和F′ny=Fny-Fnx∩Fny对强关联集合进行清洗;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011209481.9A CN112183094B (zh) | 2020-11-03 | 2020-11-03 | 一种基于多元文本特征的中文语法查错方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011209481.9A CN112183094B (zh) | 2020-11-03 | 2020-11-03 | 一种基于多元文本特征的中文语法查错方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183094A CN112183094A (zh) | 2021-01-05 |
CN112183094B true CN112183094B (zh) | 2023-06-16 |
Family
ID=73917826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011209481.9A Active CN112183094B (zh) | 2020-11-03 | 2020-11-03 | 一种基于多元文本特征的中文语法查错方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183094B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362809B (zh) * | 2021-07-02 | 2023-02-21 | 上海淇玥信息技术有限公司 | 语音识别方法、装置和电子设备 |
CN113392649B (zh) * | 2021-07-08 | 2023-04-07 | 上海浦东发展银行股份有限公司 | 一种识别方法、装置、设备及存储介质 |
CN113609824A (zh) * | 2021-08-10 | 2021-11-05 | 上海交通大学 | 基于文本编辑和语法纠错的多轮对话改写方法及*** |
CN113836286B (zh) * | 2021-09-26 | 2024-04-05 | 南开大学 | 一种基于问答匹配的社区孤寡老人情感分析方法及*** |
CN114610891B (zh) * | 2022-05-12 | 2022-07-22 | 湖南工商大学 | 面向不平衡司法裁判文书数据的法条推荐方法及*** |
CN116070595B (zh) * | 2023-03-07 | 2023-07-04 | 深圳市北科瑞讯信息技术有限公司 | 语音识别文本纠错方法、装置、电子设备及存储介质 |
CN116070629A (zh) * | 2023-04-06 | 2023-05-05 | 北京蜜度信息技术有限公司 | 中文文本词序校对方法、***、存储介质及电子设备 |
CN117350283A (zh) * | 2023-10-11 | 2024-01-05 | 西安栗子互娱网络科技有限公司 | 文本缺陷检测方法、装置、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0409425A2 (en) * | 1989-07-15 | 1991-01-23 | Keechung Kim | Method and apparatus for translating language |
CN103136196A (zh) * | 2008-04-18 | 2013-06-05 | 上海触乐信息科技有限公司 | 用于向电子设备输入文本和纠错的方法 |
CN106775935A (zh) * | 2016-12-01 | 2017-05-31 | 携程旅游网络技术(上海)有限公司 | 解释型语言的解析方法及其装置和计算机*** |
CN106776549A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种基于规则的英语作文语法错误纠正方法 |
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及***、信息数据处理终端 |
-
2020
- 2020-11-03 CN CN202011209481.9A patent/CN112183094B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0409425A2 (en) * | 1989-07-15 | 1991-01-23 | Keechung Kim | Method and apparatus for translating language |
CN103136196A (zh) * | 2008-04-18 | 2013-06-05 | 上海触乐信息科技有限公司 | 用于向电子设备输入文本和纠错的方法 |
CN106775935A (zh) * | 2016-12-01 | 2017-05-31 | 携程旅游网络技术(上海)有限公司 | 解释型语言的解析方法及其装置和计算机*** |
CN106776549A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种基于规则的英语作文语法错误纠正方法 |
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及***、信息数据处理终端 |
Non-Patent Citations (5)
Title |
---|
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding;Jacobdevlin 等;《arxiv》;1-16 * |
Multi-task Learning for Chinese Word Usage Errors Detection;Jinbin Zhang 等;《arxiv》;1-4 * |
中文文本语义错误侦测方法研究;张仰森 等;《计算机学报》;911-924 * |
多特征的中文文本校对算法研究;李建华 等;《计算机工程与科学》;93-96 * |
文本自动校对技术研究综述;张仰森 等;《计算机应用研究》;8-12 * |
Also Published As
Publication number | Publication date |
---|---|
CN112183094A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及*** | |
CN112733533B (zh) | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN117151220B (zh) | 一种基于实体链接与关系抽取的行业知识库***及方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN112612871A (zh) | 一种基于序列生成模型的多事件检测方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN115048447A (zh) | 一种基于智能语义补全的数据库自然语言接口*** | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN115510863A (zh) | 一种面向问句匹配任务的数据增强方法 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和*** | |
CN114611520A (zh) | 一种文本摘要生成方法 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
Göker et al. | Neural text normalization for turkish social media | |
Nguyen et al. | Are word boundaries useful for unsupervised language learning? | |
CN116681061A (zh) | 一种基于多任务学习和注意力机制的英文语法纠正技术 | |
Saetia et al. | Semi-supervised Thai Sentence segmentation using local and distant word representations | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
Dinarelli | Spoken language understanding: from spoken utterances to semantic structures | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |