CN114548116A - 一种基于语序与语义联合分析的中文文本检错方法及*** - Google Patents

一种基于语序与语义联合分析的中文文本检错方法及*** Download PDF

Info

Publication number
CN114548116A
CN114548116A CN202210178120.5A CN202210178120A CN114548116A CN 114548116 A CN114548116 A CN 114548116A CN 202210178120 A CN202210178120 A CN 202210178120A CN 114548116 A CN114548116 A CN 114548116A
Authority
CN
China
Prior art keywords
matrix
attention
text
hidden state
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210178120.5A
Other languages
English (en)
Inventor
周仁杰
沈佳冰
任永坚
张纪林
万健
曾艳
寇亮
袁俊峰
王星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210178120.5A priority Critical patent/CN114548116A/zh
Publication of CN114548116A publication Critical patent/CN114548116A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于语序与语义联合分析的中文文本检错方法及***。针对现有的中文文本检错方法,无法深入理解中文文本语义,自动分配权重,设计了一种把文本视为一维图片,并且使用双向循环神经网络拟合文本与自注意力机制分配权重的中文文本预测错误模型。本发明采用全卷积神经网络(FCN)与残差网络(ResNet)组成的语义理解模块(FR),具有以下两个优点:一是使用全卷积神经网络(FCN)把一维文本数据视为一维图片,理解文本语义,解决了现有技术处理语义手段缺乏问题;二是使用残差网络(ResNet)加深了网络的层数,提高了特征的数量,加深对文本语义的理解程度。

Description

一种基于语序与语义联合分析的中文文本检错方法及***
技术领域
本发明属于中文文本处理,文本清洗、文本检错领域,涉及一种基于语序与语义联合分析的中文文本检错方法及***。
背景技术
随着科技发展,4G,5G普及,整个社会信息化水日益增高,线上办公,远程办公已不再是天方夜谭,无纸化时代已然降临。伴随着无纸化的到来,信息越来越多以电子信息方式存储在存储设备之中。因为文本的特殊性,仅仅是细微差别,可能会带来完全不一样的意义,可能是一个字增多,整句话的意思都变得不一样。这些问题给人们带来了巨大的困扰和损失。像机关公文、学术论文、法律文书、病例文书,这些文本更是无比珍贵的信息,被理解错误,往往会带来不可预估的后果。
中文是全世界最复杂最优美的语言,这复杂和优美带来的是语言的多变性,往往相同一字不差句子的语义在不同的上下文都会产生不同含义,伴随有中文文本的错误发生,整一段文本的意义将会有巨大不同。中文文本错误方向有很多,比如很多时候人们往往因为字音的相似,读音的相同,会理解错不同字,有时候人们会因为字形的相似,误写不同含义的字。中国是一个幅员辽阔,地大物博,多民族融合的国家,不同地区的人民使用不同方言,不同方言对表达相同的一个字有不同的读法,对于同一个事物往往有着不同的描述。这些问题也等待被解决。现在对于中文文本的纠错往往还具有缺乏常识知识问题,因此对于真实场景之下检查错误的中文文本,成为当下研究的热点。
顺利解决此类问题,可以帮助人们从繁重且机械化的人工检错对比错误中解放出来。如果采用人工来对比不同的错误,首先是成本的上升,其次,对于很多专业错误,需要有专业知识的人来识别错误,这往往会造成人力资源的浪费。提出方法解决这些问题势在必行。
纵观文本检错的技术,目前主流的方法例如卷积神经网络与循环神经网络,这些方法已经取得了不错的成效。但是应用在中文文本领域效果显示的并不理想。主要在于中文本的语义复杂,需要模型理解语义,在理解语义的基础上,进行检错。比如,原句是“肖申克有很强的求生欲”与错句“肖申克有很强的求胜欲”,这两句话在字的结构上没有问题,但是根据上下文的内容可知,“求胜欲”才是正确的。而目前主流的技术很难挖掘字的语义问题,从而无法很好的进行检错。并且不同的字之间相互关系是不同的,需要分配不同的权重来表示其相关性,现有的方法,对于权重的分配也并不理想。
发明内容
本发明的一个目的是针对上述问题,提出一种基于语序与语义联合分析的中文文本检错方法。该方法能够在拟合文本的情况下同时兼顾语义理解以及字与字权重分配。
本发明所采用的技术方案如下:
步骤1:数据预处理;
1-1获取原始文本数据,将原始文本数据中所有文本按字级别划分,构建得到中文字集合D(w);对中文字集合D(w)中***标识符,然后使用索引对中文字集合D(w)进行标记,每一个字对应一个字典索引,形成字典Dic(w,k);
1-2对原始文本数据中文本语句Token化,并加入标识符,并将其进行固定句长;
作为优选,步骤1-2所述加入标识符是在句首加入“START”起始符,在句中加入“CLS”间隔符,在句末加入“END”终止符;
作为优选,所述固定句长是将长句截断过长部分,短句使用“PAD”符填充至固定句长长度;
1-3根据步骤1-1的字典索引对步骤1-2Token化后的文本语句序列化;
1-4对步骤1-3索引序列化后的数据通过字嵌入(Embedding)技术映射成768维向量;
步骤2:通过基于语序与语义联合分析的中文文本检错模型RFRA,实现中文文本检错;
所述基于语序与语义联合分析的中文文本检错模型包括信息提取模块、自注意力模块(Self-Attention)、输出层;
所述信息提取模块包括双向门控循环神经网络(BiGRU)和语义理解模块(FR);
所述双向门控循环神经网络(BiGRU)的输入为步骤1预处理后的768维向量与自身产出的上一个时刻的隐藏状态,用于提取文本时序信息;具体是:
所述的双向门控循环单元模型包括两个门控循环单元(GRU);
GRU具有重置门R与更新门Z,在t时刻的重置门Rt与t时刻的更新门Zt计算如下所示:
Figure BDA0003521177330000021
Figure BDA0003521177330000022
其中
Figure BDA0003521177330000023
是来自步骤1在t时刻的映射成的768维向量,Ht-1是t-1时刻的隐藏状态,Wxr是重置门输入权重参数,Wxz是更新门输入权重参数,Whr是重置门隐藏状态权重参数,Whz是更新门隐藏状态权重参数,brr和brz分别是重置门和更新门的偏置参数;σ是Sigmoid函数,控制重置门与更新门的大小范围在0,1之间;
重置门用于生成候选隐藏状态
Figure BDA0003521177330000031
计算如下表示:
Figure BDA0003521177330000032
其中Wxh是候选隐藏状态输入权重参数,Whh是候选隐藏状态关于隐藏状态的权重参数,bh是候选隐藏状态偏置参数,tahn是激活函数;
更新门用于生成当前时刻的隐藏状态Ht,计算如下表示:
Figure BDA0003521177330000033
其中
Figure BDA0003521177330000034
表示哈达玛积,是针对元素的相乘;
两个门控循环单元(GRU)一个是正向输入,一个是反向输入,其正向隐藏状态
Figure BDA0003521177330000035
和反向隐藏状态
Figure BDA0003521177330000036
计算如下表示:
Figure BDA0003521177330000037
Figure BDA0003521177330000038
其中
Figure BDA0003521177330000039
表示顺序使用GRU生成隐藏状态,
Figure BDA00035211773300000310
表示逆向使用GRU生成隐藏状态,
Figure BDA00035211773300000311
表示t时刻正向隐藏状态,
Figure BDA00035211773300000312
表示t时刻逆向隐藏状态;
隐藏状态H的生成不是简单的相加而是拼接,具体如下所示:
Figure BDA00035211773300000313
其中
Figure BDA00035211773300000314
表示哈达玛积,是针对元素的相乘;
所述语义理解模块(FR)的输入为步骤1预处理后的768维向量,用于提取文本语义信息;其包括多个语义理解单元,每个语义理解单元包括全卷积神经网络(FCN);每个语义理解单元采用残差网络(ResNet)连接,并且采用了改进的Sigmoid函数;每个语义理解单元的输入为前两层单元的输出;
所述残差网络ResNet与改进的Sigmoid激活函数计算公式如下表示:
Figure BDA00035211773300000315
Figure BDA00035211773300000316
其中
Figure BDA0003521177330000041
表示ResNet在t时刻的输出,
Figure BDA0003521177330000042
表示语义理解单元在t-1时刻的输出,
Figure BDA0003521177330000043
表示语义理解单元在t-2时刻的输出;
所述自注意力模块(Self-Attention)的输入为双向门控循环神经网络(BiGRU)和语义理解模块(FR)的叠加输出,用于分配字权重;将输入分化成键矩阵(Key)、问号矩阵(Query)、值矩阵(Value),其次根据键矩阵与问号矩阵计算相似度矩阵(Similarity),再对相似度矩阵归一化,最后将相似度矩阵与值矩阵加权得到注意力矩阵(Attention);具体是:
(a)将双向门控循环神经网络(BiGRU)和语义理解模块(FR)的输出叠加后分化成键矩阵(Key),问号矩阵(Query),值矩阵(Value);具体是
Figure BDA0003521177330000044
Figure BDA0003521177330000045
Figure BDA0003521177330000046
Figure BDA0003521177330000047
其中Wq是问号矩阵权重参数,Wk是键矩阵权重参数,Wv是值矩阵权重参数;
Figure BDA0003521177330000048
表示信息提取模块中的双向循环神经网络BiGRU与FR语义理解模块在t时刻的输出;
(b)根据键矩阵与问号矩阵计算相似度矩阵(Similarity):
Similarity(Query,Key)=Query×Key (2.14)
(c)对相似度矩阵的每一行归一化
Figure BDA0003521177330000049
其中aij表示在第i行第j列经过归一化的相似度矩阵的值,n表示相似度矩阵每行元素数目;similarityij表示相似度矩阵在第i行第j列的值,
Figure BDA00035211773300000410
表示以e为底similarityij为指数的幂运算;
(d)将归一化后相似度矩阵与值矩阵加权得到注意力矩阵(Attention)
Figure BDA0003521177330000051
其中attentionij表示注意力矩阵Attention在第i行第j列的值,valueij表示值矩阵在第i行第j列的值,l表示归一化后相似度矩阵的每列元素数目;
所述输出层包括全连接层(Fully ConnectedLayer)与激活函数Sigmoid,用于判断输出字是否有错。
本发明的另一个目的是提供一种基于语序与语义联合分析的中文文本检错***,包括:
数据预处理模块,用于将文本数据转化为768维向量;
中文文本检错模块,利用基于语序与语义联合分析的中文文本检错模型实现中文文本检错。
本发明提供的技术方案将产生以下有益效果:
(1)本发明采用全卷积神经网络(FCN)与残差网络(ResNet)组成的语义理解模块(FR),具有以下两个优点:一是使用全卷积神经网络(FCN)把一维文本数据视为一维图片,理解文本语义,解决了现有技术处理语义手段缺乏问题;二是使用残差网络(ResNet)加深了网络的层数,提高了特征的数量,加深对文本语义的理解程度。
(2)本发明使用双向门控循环神经网络(BiGRU)拟合文本数据,具有以下两个优点:一是门控循环神经网络(GRU)可以避免普通循环神经网络(RNN)无法拟合长句子的缺点;二是同时使用来自过去和未来的文本信息用更多特征信息来拟合当前文本。
(3)本发明叠加语义理解模块(FR)输出与双向门控循环网络(BiGRU)输出,避免了时序信息通过全卷积神经网络的池化层,填充层时的丢失问题。
(4)本发明采用自注意力机制(Self-Attention),具有以下两个优点:一是注意力机制(Attention)自动分配权重的能力,对于关系较近的字分配更大的权重,表示其相关性程度更高;二是自注意力机制(Self-Attention)具有抗干扰能力,有效避免错字来带语义的问题。
附图说明
图1为本发明所涉及的流程图;
图2为语义理解模块结构图(图中虚线为残差网络连接);
图3为双向门控循环网络结构图
图4为残差网络结构图
图5为模型结构图;
具体实施方式
下面结合附图,对本发明的具体实施方案作进一步详细描述。其具体流程描述如图1所示,其中:
步骤1:预处理模型获取的输入数据。
预处理的过程分为以下四步:
1-1创建字典。对所有文本句子分字处理,构建候选中文字集合
Figure BDA0003521177330000061
根据集合统计每一个字出现的频率,频率低于3的字过滤,过滤后的集合去重,形成中文字集合D(w)。在中文字集合D(w)中***一些特殊的符号例如“START”起始符,“END”终止符,“CLS”间隔符,“UNKNOW”未知符,“PAD”填充符等。这些符号帮助计算机更好的去拟合文本。然后使用索引标记中文字集合D(w)中的每一个字,每一个字都有唯一映射,形成字典Dic(w,k)。
1-2数据Token化。数据以句的形式存在,每一句话的开头都要加入“START”起始符,在句中加入“CLS”间隔符,在句末加入“END”终止符,遇到字典中没有出现的字,使用“UNKNOW”未知符代替。判断剧场,句子并不是固定长度,对于句子的长度需要处理。长句截断过长部分,短句需要使用“PAD”填充符填充剩余部分。
1-3数据序列化:使用步骤1-1得到的字典Dic(w,k),将Token化后的文本中的每一个字转换成字典索引。
1-4字嵌入映射。字典中中字数过多,使用one-hot编码带来稀疏矩阵,会浪费存储空间和减慢运行速度。采用字嵌入(Embedding)的技术把序列化后每一个字的索引映射成768维的向量。
步骤2:通过基于语序与语义联合分析的中文文本检错模型RFRA,实现中文文本检错;
所述基于语序与语义联合分析的中文文本检错模型包括信息提取模块、自注意力模块(Self-Attention)、输出层;
所述信息提取模块包括双向门控循环神经网络(BiGRU)和语义理解模块(FR);
采用语义理解模块具有以下两个优点:一是使用全卷积神经网络(FCN)把一维文本数据视为一维图片,理解文本语义,解决了现有技术处理语义手段缺乏问题;二是使用残差网络(ResNet)加深了网络的层数,提高了特征的数量,加深对文本语义的理解程度;采用双向门控循环网络具有两个优点:一是门控循环神经网络(GRU)可以避免普通循环神经网络(RNN)无法拟合长句子的缺点;二是同时使用来自过去和未来的文本信息用更多特征信息来拟合当前文本;
叠加语义理解模块输出与双向门控循环网络输出,避免了时序信息通过全卷积神经网络的池化层,填充层时的丢失问题;
所述双向门控循环神经网络(BiGRU)的输入为步骤1预处理后的768维向量与上一个时刻的隐藏状态,用于提取文本时序信息;具体是:
所述的双向门控循环单元模型包括两个门控循环单元(GRU);
GRU具有重置门R与更新门Z,在t时刻的重置门Rt与t时刻的更新门Zt计算如下所示:
Figure BDA0003521177330000071
Figure BDA0003521177330000072
其中
Figure BDA0003521177330000073
是来自步骤1在t时刻的映射成的768维向量,Ht-1是t-1时刻的隐藏状态,Wxr是重置门输入权重参数,Wxz是更新门输入权重参数,Whr是重置门隐藏状态权重参数,Whz是更新门隐藏状态权重参数,brr和brz分别是重置门和更新门的偏置参数。σ是Sigmoid函数,控制重置门与更新门的大小范围在0,1之间。
重置门可以用于生成候选隐藏状态
Figure BDA0003521177330000074
计算如下表示:
Figure BDA0003521177330000075
其中Wxh是候选隐藏状态输入权重参数,Whh是候选隐藏状态关于隐藏状态的权重参数,bh是候选隐藏状态偏置参数,tahn是激活函数。
更新门可以生成当前时刻的隐藏状态Ht计算如下表示:
Figure BDA0003521177330000076
其中
Figure BDA0003521177330000077
是哈达玛积,是针对元素的相乘。
两个门控循环单元(GRU)一个是正向输入,一个是反向输入,其正向隐藏状态
Figure BDA0003521177330000078
和反向隐藏状态
Figure BDA0003521177330000079
计算如下表示:
Figure BDA00035211773300000710
Figure BDA00035211773300000711
其中
Figure BDA00035211773300000712
表示顺序使用GRU生成正向隐藏状态,
Figure BDA00035211773300000713
表示逆序使用GRU生成隐藏状态。隐藏状态H的生成不是简单的相加而是拼接,具体如下所示:
Figure BDA0003521177330000081
其中
Figure BDA0003521177330000082
是维度连接操作。
所述语义理解模块(FR)的输入为步骤1预处理后的768维向量,用于提取文本语义信息;其包括3个单元,第一单元的输入为步骤1预处理后的768维向量,第二单元的输入为步骤1预处理后的768维向量和第一单元的输出,第二单元的输入为第一、二单元的输出;
每个单元包括全卷积神经网络(FCN),所述全卷积神经网络包括一个卷积层、一个Relu激活函数、一个平均池化层、一个反卷积层、一个改进的Sigmoid激活函数;每个单元采用残差网络(ResNet)连接;
所述残差网络ResNet计算公式与改进Sigmoid激活函数如下表示:
Figure BDA0003521177330000083
Figure BDA0003521177330000084
其中
Figure BDA0003521177330000085
表示ResNet在t时刻的输出,
Figure BDA0003521177330000086
表示ResNet在t-1时刻的输出,
Figure BDA0003521177330000087
表示ResNet在t-2时刻的输出。
所述自注意力模块(Self-Attention)的输入为双向门控循环神经网络(BiGRU)和语义理解模块(FR)的叠加输出,用于分配字权重;将输入分化成键矩阵(Key),问号矩阵(Query),值矩阵(Value),其次根据键矩阵与问号矩阵计算相似度矩阵(Similarity),再对相似度矩阵归一化,最后将相似度矩阵与值矩阵加权得到注意力矩阵(Attention);具体是:
(a)将双向门控循环神经网络(BiGRU)和语义理解模块(FR)的输出叠加后分化成键矩阵(Key),问号矩阵(Query),值矩阵(Value);具体是
Figure BDA0003521177330000088
Figure BDA0003521177330000089
Figure BDA00035211773300000810
Figure BDA00035211773300000811
其中Wq是问号矩阵权重参数,Wk是键矩阵权重参数,Wv是值矩阵权重参数。
(b)根据键矩阵与问号矩阵计算相似度矩阵(Similarity):
Similarity(Query,Key)=Query×Key (2.14)
(c)对相似度矩阵的每一行归一化
Figure BDA0003521177330000091
其中aij表示在第i行第j列经过归一化的相似度矩阵的值,n表示一行有几个元素。
(d)将相似度矩阵与值矩阵加权得到注意力矩阵(Attention)
Figure BDA0003521177330000092
其中attentionij表示注意力矩阵(Attention)在第i行第j列的值,valueij表示值矩阵在第i行第j列的值,l表示有几行元素。
所述输出层包括全连接层(Fully ConnectedLayer)与激活函数Sigmoid。输出层的输入来自于是注意力矩阵(Attention),经过全连接层与激活函数,输出字错误的概率,若错误的概率大于0.5则判定是错别字。
采用自注意力机制(Self-Attention),具有以下两个优点:一是注意力机制(Attention)自动分配权重的能力,对于关系较近的字分配更大的权重,表示其相关性程度更高;二是自注意力机制(Self-Attention)具有抗干扰能力,有效避免错字来带语义的问题。
本发明训练采用自身采集的数据集Merge进行训练,性能评估采用SIGHAN15公开中文拼写数据集进行评估。模型在这个数据集上进行了预测错别字的实验,并且统计了各项指标以供对比。下表为Merge与SIGHAN15数据集数据量的情况。
Merge SIGHAN15
段落数 2390 1100
错误数 3740 1602
本发明采用的性能评价指标是Precesion、Recall、F1、F0.5
真实值1 真实值-1
预测值1 TP(TruePositive) FP(FalseNegative)
预测值-1 FN(FalseNegative) TN(TrueNegative)
Precision:针对预测结果而言,在所有被预测为正的样本中,实际为正的样本的概率。
Figure BDA0003521177330000101
Recall:针对原样本而言,在实际为正的样本中被预测为正样本的概率
Figure BDA0003521177330000102
F1与F0.5是在两者之间找到一个平衡点,参考了精确率和召回率,综合全面的反应模型质量的衡量标准。
Figure BDA0003521177330000103
Figure BDA0003521177330000104
下表为本发明在SIGHAN15数据集上性别预测实验结果:
Precision(%) Recall(%) F<sub>1</sub>(%) F<sub>0.5</sub>(%)
LSTM 56.16 47.03 51.19 54.06
GRU 70..17 46.18 55.70 63.57
BiGRU-CNN 81.94 89.38 85.50 83.33
BiGRU-Attention 64.45 99.06 78.09 69.29
RFRA 84.60 98.01 90.81 87.00
上述中文文本检错实验结果表中,LSTM与GRU为传统的循环神经网络检测器,BiGRU-CNN是循环神经网络和卷积神经网络的结合,BiGRU-Attention是循环神经网络和注意力机制的结合。RFRA即为本发明中的基于语序与语义联合分析的中文文本检错模型。

Claims (8)

1.一种基于语序与语义联合分析的中文文本检错方法,其特征在于包括以下步骤:
步骤1:数据预处理;
1-1获取原始文本数据,将原始文本数据中所有文本按字级别划分,构建得到中文字集合D(w);对中文字集合D(w)中***标识符,然后使用索引对中文字集合D(w)进行标记,每一个字对应一个字典索引,形成字典Dic(w,k);
1-2对原始文本数据中文本语句Token化,并加入标识符,并将其进行固定句长;
1-3根据步骤1-1的字典索引对步骤1-2Token化后的文本语句序列化;
1-4对步骤1-3索引序列化后的数据通过字嵌入Embedding技术映射成768维向量;
步骤2:通过基于语序与语义联合分析的中文文本检错模型RFRA,实现中文文本检错;
所述基于语序与语义联合分析的中文文本检错模型包括信息提取模块、自注意力模块Self-Attention、输出层;
所述信息提取模块包括双向门控循环神经网络BiGRU和语义理解模块FR;
所述语义理解模块FR的输入为步骤1预处理后的768维向量,用于提取文本语义信息;其包括多个语义理解单元,每个语义理解单元包括全卷积神经网络FCN;每个语义理解单元采用残差网络ResNet连接,并且采用改进的Sigmoid函数;每个语义理解单元的输入为前两层单元的输出;
所述自注意力模块Self-Attention的输入为双向门控循环神经网络BiGRU和语义理解模块FR的叠加输出,用于分配字权重;将输入分化成键矩阵Key、问号矩阵Query、值矩阵Value,其次根据键矩阵与问号矩阵计算相似度矩阵Similarity,再对相似度矩阵归一化,最后将相似度矩阵与值矩阵加权得到注意力矩阵Attention;
所述输出层用于判断输出字是否有错。
2.如权利要求1所述的方法,其特征在于步骤1-2所述加入标识符是在句首加入“START”起始符,在句中加入“CLS”间隔符,在句末加入“END”终止符。
3.如权利要求1所述的方法,其特征在于步骤1-2所述固定句长是将长句截断过长部分,短句使用“PAD”符填充至固定句长长度。
4.如权利要求1所述的方法,其特征在于所述双向门控循环神经网络BiGRU的输入为步骤1预处理后的768维向量与自身产出的上一个时刻的隐藏状态,用于提取文本时序信息;具体是:
所述的双向门控循环单元模型包括两个门控循环单元GRU;
GRU具有重置门R与更新门Z,在t时刻的重置门Rt与t时刻的更新门Zt计算如下所示:
Figure FDA0003521177320000021
Figure FDA0003521177320000022
其中
Figure FDA0003521177320000023
是来自步骤1在t时刻的映射成的768维向量,Ht-1是t-1时刻的隐藏状态,Wxr是重置门输入权重参数,Wxz是更新门输入权重参数,Whr是重置门隐藏状态权重参数,Whz是更新门隐藏状态权重参数,brr和brz分别是重置门和更新门的偏置参数;σ是Sigmoid函数,控制重置门与更新门的大小范围在0,1之间;
重置门用于生成候选隐藏状态
Figure FDA0003521177320000024
计算如下表示:
Figure FDA0003521177320000025
其中Wxh是候选隐藏状态输入权重参数,Whh是候选隐藏状态关于隐藏状态的权重参数,bh是候选隐藏状态偏置参数,tahn是激活函数;
更新门用于生成当前时刻的隐藏状态Ht,计算如下表示:
Figure FDA0003521177320000026
其中
Figure FDA0003521177320000027
表示哈达玛积,是针对元素的相乘;
两个门控循环单元GRU一个是正向输入,一个是反向输入,其正向隐藏状态
Figure FDA0003521177320000028
和反向隐藏状态
Figure FDA0003521177320000029
计算如下表示:
Figure FDA00035211773200000210
Figure FDA0003521177320000031
其中
Figure FDA0003521177320000032
表示顺序使用GRU生成隐藏状态,
Figure FDA0003521177320000033
表示逆向使用GRU生成隐藏状态,
Figure FDA0003521177320000034
表示t时刻正向隐藏状态,
Figure FDA0003521177320000035
表示t时刻逆向隐藏状态;
隐藏状态H的生成具体如下所示:
Figure FDA0003521177320000036
其中
Figure FDA0003521177320000037
表示维度连接操作。
5.如权利要求1所述的方法,其特征在于所述残差网络ResNet计算公式如下表示:
Figure FDA0003521177320000038
所述改进的Sigmoid函数计算公式如下:
Figure FDA0003521177320000039
其中
Figure FDA00035211773200000310
表示ResNet在t时刻的输出,
Figure FDA00035211773200000311
表示语义理解单元在t-1时刻的输出,
Figure FDA00035211773200000312
表示语义理解单元在t-2时刻的输出。
6.如权利要求1所述的方法,其特征在于所述自注意力模块Self-Attention具体是:
(a)将双向门控循环神经网络(BiGRU)和语义理解模块(FR)的输出叠加后分化成键矩阵(Key),问号矩阵(Query),值矩阵(Value);具体是
Figure FDA00035211773200000313
Figure FDA00035211773200000314
Figure FDA00035211773200000315
Figure FDA00035211773200000316
其中Wq是问号矩阵权重参数,Wk是键矩阵权重参数,Wv是值矩阵权重参数;
Figure FDA0003521177320000041
表示信息提取模块中的双向循环神经网络BiGRU与FR语义理解模块在t时刻的输出;
(b)根据键矩阵与问号矩阵计算相似度矩阵(Similarity):
Similarity(Query,Key)=Query×Key (2.14)
(c)对相似度矩阵的每一行归一化
Figure FDA0003521177320000042
其中aij表示在第i行第j列经过归一化的相似度矩阵的值,n表示相似度矩阵每行元素数目;similarityij表示相似度矩阵在第i行第j列的值,
Figure FDA0003521177320000043
表示以e为底similarityij为指数的幂运算;
(d)将归一化后相似度矩阵与值矩阵加权得到注意力矩阵(Attention)
Figure FDA0003521177320000044
其中attentionij表示注意力矩阵Attention在第i行第j列的值,valueij表示值矩阵在第i行第j列的值,l表示归一化后相似度矩阵的每列元素数目。
7.如权利要求1所述的方法,其特征在于所述输出层包括两层全连接层FullyConnected Layer与两个激活函数Gelu组成。
8.一种基于语序与语义联合分析的中文文本检错***,其特征在于包括:
数据预处理模块,用于将文本数据转化为768维向量;
中文文本检错模块,利用基于语序与语义联合分析的中文文本检错模型实现中文文本检错。
CN202210178120.5A 2022-02-25 2022-02-25 一种基于语序与语义联合分析的中文文本检错方法及*** Pending CN114548116A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210178120.5A CN114548116A (zh) 2022-02-25 2022-02-25 一种基于语序与语义联合分析的中文文本检错方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210178120.5A CN114548116A (zh) 2022-02-25 2022-02-25 一种基于语序与语义联合分析的中文文本检错方法及***

Publications (1)

Publication Number Publication Date
CN114548116A true CN114548116A (zh) 2022-05-27

Family

ID=81678632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210178120.5A Pending CN114548116A (zh) 2022-02-25 2022-02-25 一种基于语序与语义联合分析的中文文本检错方法及***

Country Status (1)

Country Link
CN (1) CN114548116A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115886830A (zh) * 2022-12-09 2023-04-04 中科南京智能技术研究院 一种十二导联心电图的分类方法及***
CN116975863A (zh) * 2023-07-10 2023-10-31 福州大学 基于卷积神经网络的恶意代码检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115886830A (zh) * 2022-12-09 2023-04-04 中科南京智能技术研究院 一种十二导联心电图的分类方法及***
CN116975863A (zh) * 2023-07-10 2023-10-31 福州大学 基于卷积神经网络的恶意代码检测方法

Similar Documents

Publication Publication Date Title
CN109871535B (zh) 一种基于深度神经网络的法语命名实体识别方法
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN114020862B (zh) 一种面向煤矿安全规程的检索式智能问答***及方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN110309511B (zh) 基于共享表示的多任务语言分析***及方法
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN112309528B (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN114548116A (zh) 一种基于语序与语义联合分析的中文文本检错方法及***
CN113946677B (zh) 基于双向循环神经网络和注意力机制的事件识别分类方法
CN112990196B (zh) 基于超参数搜索和二阶段训练的场景文字识别方法及***
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN113051887A (zh) 一种公告信息元素抽取方法、***及装置
CN111339407A (zh) 一种信息抽取云平台的实现方法
CN114757184B (zh) 实现航空领域知识问答的方法和***
CN117332789A (zh) 一种面向对话场景的语义分析方法及***
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN114356990A (zh) 基于迁移学习的基地命名实体识别***及方法
CN117312577A (zh) 基于多层语义图卷积神经网络交通事件知识图谱构建方法
CN112347783A (zh) 无触发词的警情笔录数据事件类型识别方法
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN112949284A (zh) 一种基于Transformer模型的文本语义相似度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination