CN117521641A - 基于自然语言处理的文本自动校对***及方法 - Google Patents
基于自然语言处理的文本自动校对***及方法 Download PDFInfo
- Publication number
- CN117521641A CN117521641A CN202311553082.8A CN202311553082A CN117521641A CN 117521641 A CN117521641 A CN 117521641A CN 202311553082 A CN202311553082 A CN 202311553082A CN 117521641 A CN117521641 A CN 117521641A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- feature vector
- granularity
- context semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000001915 proofreading effect Effects 0.000 title claims description 18
- 239000013598 vector Substances 0.000 claims description 284
- 239000011159 matrix material Substances 0.000 claims description 81
- 238000012546 transfer Methods 0.000 claims description 81
- 230000004927 fusion Effects 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 6
- 235000019580 granularity Nutrition 0.000 description 82
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及自然语言处理技术领域,其具体地公开了一种基于自然语言处理的文本自动校对***及方法,其首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。
Description
技术领域
本申请涉及自然语言处理技术领域,且更为具体地,涉及一种基于自然语言处理的文本自动校对***及方法。
背景技术
随着计算机技术的发展,自然语言处理技术得到了广泛的应用。由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高。在文本处理中,自然语言处理技术可以帮助人们快速、准确地处理大量的文本信息。
文本自动校对是自然语言处理中的一个重要任务,它可以检测文本中的错误并对其进行纠正。现有的文本自动校对***主要依赖于规则和词典来进行校对,由于中文表达的复杂多样,基于语义规则和统计语言模型等文本校正方法的校正率并不高,无法完全准确地检测和纠正所有类型的错误。此外,这些***通常需要大量的人工干预来进行校对,这大大增加了工作量并降低了效率。
因此,期待一种基于自然语言处理的文本自动校对***及方法,能够提高纠错率。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于自然语言处理的文本自动校对***及方法,其首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。
相应地,根据本申请的一个方面,提供了一种基于自然语言处理的文本自动校对***,其包括:
数据获取模块,用于获取待校对文本;
嵌入编码模块,用于将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;
词粒度上下文语义理解模块,用于将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;
段粒度上下文语义理解模块,用于将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;
融合模块,用于融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;
语料特征向量构造模块,用于获取语料库,并基于所述语料库生成语料特征向量;
转移计算模块,用于计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;
优化模块,用于对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;
校对结果生成模块,用于将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。
在上述基于自然语言处理的文本自动校对***中,所述嵌入编码模块,包括:分词单元,用于将所述待校对文本进行分词处理以得到多个文本词;嵌入化单元,用于使用所述词嵌入层的可学习嵌入矩阵对所述多个文本词中各个文本词分别进行词嵌入编码以得到文本词嵌入向量的序列;数据整合单元,用于分别将所述各个文本词的位置下标添加到对应的所述文本词嵌入向量的尾部以得到所述词特征向量的序列。
在上述基于自然语言处理的文本自动校对***中,所述词粒度上下文语义理解模块,包括:一维排列单元,用于将所述词特征向量的序列进行一维排列以得到文本全局特征向量;自注意力生成单元,用于计算所述文本全局特征向量与所述词特征向量的序列中各个词特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化自注意力单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;权重生成单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过激活函数以得到多个概率值;权重施加单元,用于分别以所述多个概率值中各个概率值作为权重对所述词特征向量的序列中各个词特征向量进行加权以得到多个词语义特征向量;级联单元,用于将所述多个词语义特征向量进行级联以得到所述词粒度上下文语义特征向量。
在上述基于自然语言处理的文本自动校对***中,所述融合模块,用于:以如下融合公式来融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以获得所述多粒度融合特征向量,其中,所述融合公式为:
Va=αV1+βV2
其中,Va为所述多粒度融合特征向量,V1为所述词粒度上下文语义特征向量,V2为所述段粒度上下文语义特征向量,“+”表示所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量相对应位置处的元素相加,α和β为用于控制所述多粒度融合特征向量中所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量之间的平衡的加权参数。
在上述基于自然语言处理的文本自动校对***中,所述转移计算模块,用于:以如下转移公式计算所述多粒度融合特征向量与所述语料特征向量之间的转移矩阵;其中,所述转移公式为:
其中Va表示所述多粒度融合特征向量,Vb表示所述语料特征向量,M表示所述转移矩阵,表示矩阵与向量相乘。
在上述基于自然语言处理的文本自动校对***中,所述优化模块,用于:以如下优化公式对所述转移特征矩阵进行基于先验的特征工程参数化以得到所述优化转移特征矩阵;
其中,所述优化公式为:
其中,mij是所述转移特征矩阵中(i,j)位置的特征值,θ为预定权重参数,log表示以2为底的对数函数值,e表示指数函数,m’ij是所述优化转移特征矩阵中(i,j)位置的特征值。
根据本申请的另一个方面,提供了一种基于自然语言处理的文本自动校对方法,其包括:
获取待校对文本;
将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;
将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;
将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;
融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;
获取语料库,并基于所述语料库生成语料特征向量;
计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;
对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;
将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。
在上述基于自然语言处理的文本自动校对方法中,将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列,包括:将所述待校对文本进行分词处理以得到多个文本词;使用所述词嵌入层的可学习嵌入矩阵对所述多个文本词中各个文本词分别进行词嵌入编码以得到文本词嵌入向量的序列;分别将所述各个文本词的位置下标添加到对应的所述文本词嵌入向量的尾部以得到所述词特征向量的序列。
在上述基于自然语言处理的文本自动校对方法中,将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量,包括:将所述词特征向量的序列进行一维排列以得到文本全局特征向量;计算所述文本全局特征向量与所述词特征向量的序列中各个词特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过激活函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词特征向量的序列中各个词特征向量进行加权以得到多个词语义特征向量;将所述多个词语义特征向量进行级联以得到所述词粒度上下文语义特征向量。
在上述基于自然语言处理的文本自动校对方法中,融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量,包括:以如下融合公式来融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以获得所述多粒度融合特征向量,其中,所述融合公式为:
Va=αV1+βV2
其中,Va为所述多粒度融合特征向量,V1为所述词粒度上下文语义特征向量,V2为所述段粒度上下文语义特征向量,“+”表示所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量相对应位置处的元素相加,α和β为用于控制所述多粒度融合特征向量中所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量之间的平衡的加权参数。
与现有技术相比,本申请提供的基于自然语言处理的文本自动校对***及方法,其首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于自然语言处理的文本自动校对***的框图。
图2为根据本申请实施例的基于自然语言处理的文本自动校对***的架构示意图。
图3为根据本申请实施例的基于自然语言处理的文本自动校对***中嵌入编码模块的框图。
图4为根据本申请实施例的基于自然语言处理的文本自动校对***中词粒度上下文语义理解模块的框图。
图5为根据本申请实施例的基于自然语言处理的文本自动校对方法的流程图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
图1为根据本申请实施例的基于自然语言处理的文本自动校对***的框图。图2为根据本申请实施例的基于自然语言处理的文本自动校对***的架构示意图。如图1和图2所示,根据本申请实施例的基于自然语言处理的文本自动校对***100,包括:数据获取模块110,用于获取待校对文本;嵌入编码模块120,用于将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;词粒度上下文语义理解模块130,用于将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;段粒度上下文语义理解模块140,用于将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;融合模块150,用于融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;语料特征向量构造模块160,用于获取语料库,并基于所述语料库生成语料特征向量;转移计算模块170,用于计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;优化模块180,用于对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;校对结果生成模块190,用于将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。
在上述基于自然语言处理的文本自动校对***100中,所述数据获取模块110,用于获取待校对文本。如上述背景技术所言,现有的文本自动校对***主要依赖于规则和词典来进行校对,由于中文表达的复杂多样,基于语义规则和统计语言模型等文本校正方法的校正率并不高。此外,这些***通常需要大量的人工干预来进行校对,不仅增加了工作量还降低了效率。因此,期待一种更加准确高效的文本自动校对方案。
相应地,在本申请的技术方案中,首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。具体地,在本申请的技术方案中,首先获取待校对文本。
在上述基于自然语言处理的文本自动校对***100中,所述嵌入编码模块120,用于将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列。应可以理解,分词是将连续的文本切分成离散的词语或token的过程。对于中文这样没有像英文那样明显的词边界的语言,分词尤其重要,它可以将一段连续的中文文本切分成基本的单元,如单个汉字或词语。然后,使用词嵌入层分别对各个词进行嵌入编码,以将文本转换为计算机可以理解和处理的形式。经过训练的词嵌入层,能够将每个词语映射为一个高维稠密的向量表示,同时使得词语之间的语义相似性在向量空间中得以保留,为后续的语义特征提取和模型建模提供输入。
图3为根据本申请实施例的基于自然语言处理的文本自动校对***中嵌入编码模块的框图。如图3所示,所述嵌入编码模块120,包括:分词单元121,用于将所述待校对文本进行分词处理以得到多个文本词;嵌入化单元122,用于使用所述词嵌入层的可学习嵌入矩阵对所述多个文本词中各个文本词分别进行词嵌入编码以得到文本词嵌入向量的序列;数据整合单元123,用于分别将所述各个文本词的位置下标添加到对应的所述文本词嵌入向量的尾部以得到所述词特征向量的序列。
在上述基于自然语言处理的文本自动校对***100中,所述词粒度上下文语义理解模块130,用于将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量。考虑到在文本中,每个词语的含义和语义在上下文中可能发生变化,同一个词在不同的上下文中所表达的意义是不同的,仅仅依靠所述词特征向量无法准确地捕捉到词语的具体含义。因此,进一步将所述词特征向量的序列通过基于转换器的上下文编码器以捕捉各个词语的上下文信息和更全局的语义关联。应可以理解,通过将所述词特征向量序列输入到基于转换器的上下文编码器(Transformer模型)中,基于转换器的上下文编码器通过模拟上下文中词语的交互,能够有效地捕捉到每个词语在其上下文环境中的语义表示。并且,上下文编码器利用自注意力机制将每个词特征向量与其周围的词特征向量进行交互,并对它们进行加权聚合,以获得更丰富的词粒度上下文语义特征向量,从而更准确地表达词语的含义和语义关联,为后续的文本校对的错误检测提供更准确的特征表示。
图4为根据本申请实施例的基于自然语言处理的文本自动校对***中词粒度上下文语义理解模块的框图。如图4所示,所述词粒度上下文语义理解模块130,包括:一维排列单元131,用于将所述词特征向量的序列进行一维排列以得到文本全局特征向量;自注意力生成单元132,用于计算所述文本全局特征向量与所述词特征向量的序列中各个词特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化自注意力单元133,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;权重生成单元134,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过激活函数以得到多个概率值;权重施加单元135,用于分别以所述多个概率值中各个概率值作为权重对所述词特征向量的序列中各个词特征向量进行加权以得到多个词语义特征向量;级联单元136,用于将所述多个词语义特征向量进行级联以得到所述词粒度上下文语义特征向量。
在上述基于自然语言处理的文本自动校对***100中,所述段粒度上下文语义理解模块140,用于将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量。考虑到传统的上下文编码器主要关注相邻词语之间的交互,可能无法充分捕捉到长距离的依赖关系。为了进一步捕捉文本的长距离依赖和段落级的语义信息,将所述词特征向量的序列通过双向长短期记忆神经网络(BiLSTM)模型以得到段粒度上下文语义特征向量。双向长短期记忆神经网络是一种适用于序列数据的循环神经网络模型。与标准的LSTM相比,它能够同时考虑序列数据中的正向和逆向上下文信息。通过在正向和逆向两个方向上运行LSTM层,BiLSTM能够将当前词语与其前后词语的语义关系进行建模。将所述词特征向量的序列输入到BiLSTM模型中,模型逐个词语地处理文本,并在每个词语处整合前后上下文信息,从而得到更丰富和全局的段粒度上下文语义特征向量。所述段粒度上下文语义特征向量捕捉了文本段落级别的语义信息,能够更好地理解和表示段落的意义,从而提高文本校对的准确性和整体性能。
在上述基于自然语言处理的文本自动校对***100中,所述融合模块150,用于融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量。应可以理解,不同粒度的上下文信息对于理解文本的意义和检测错误都非常重要。所述词粒度上下文语义特征向量反映了每个词语的上下文环境,帮助捕捉词语级别的含义和语义关联。所述段粒度上下文语义特征向量则表达了整个文本段落的语义信息,用于捕捉段落级别的语义关系和逻辑。通过融合这两种粒度的特征向量,可以综合利用词和段的上下文信息,提供更全面和准确的文本语义表示,得到更全面和准确的多粒度融合特征向量。
相应地,在一个具体示例中,所述融合模块150,用于:以如下融合公式来融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以获得所述多粒度融合特征向量,其中,所述融合公式为:
Va=αV1+βV2
其中,Va为所述多粒度融合特征向量,V1为所述词粒度上下文语义特征向量,V2为所述段粒度上下文语义特征向量,“+”表示所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量相对应位置处的元素相加,α和β为用于控制所述多粒度融合特征向量中所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量之间的平衡的加权参数。
在上述基于自然语言处理的文本自动校对***100中,所述语料特征向量构造模块160,用于获取语料库,并基于所述语料库生成语料特征向量。其中,所述生成语料特征向量的编码过程与所述待校对文本的编码过程相一致。也就是,基于所述语料库信息,生成具有各个文本词之间词粒度上下文语义特征和段粒度上下文语义特征的多粒度融合特征的语料特征向量。更具体地,将所述语料库进行分词处理后通过词嵌入层以得到语料词特征向量的序列。接着,将所述语料词特征向量的序列通过基于转换器的上下文编码器以得到语料词粒度上下文语义特征向量。同时,将所述语料词特征向量的序列通过双向长短期记忆神经网络模型以得到语料段粒度上下文语义特征向量。其次,融合所述语料词粒度上下文语义特征向量和所述语料段粒度上下文语义特征向量以得到所述语料特征向量。
在上述基于自然语言处理的文本自动校对***100中,所述转移计算模块170,用于计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵。应可以理解,所述多粒度融合特征向量提供了待校对文本的上下文语义信息。而所述语料特征向量是从大规模语料库中学习到的统计特征,反映了常见语言用法和语言学规律,例如,所述语料特征向量中包括词频、词汇搭配、习语用法等。为了基于这些统计特征来识别文本中的一致性错误、语法错误和常见错误模式,进一步将所述多粒度融合特征向量与语料特征向量进行转移特征矩阵的计算。通过计算所述转移特征矩阵来将所述多粒度融合特征向量映射到与所述语料特征向量相同的特征空间中,从而获得它们之间的相似性度量或相关性得分。这样,可以通过对比所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵来检测文本中的错误或不一致现象。
相应地,在一个具体示例中,所述转移计算模块170,用于:以如下转移公式计算所述多粒度融合特征向量与所述语料特征向量之间的转移矩阵;其中,所述转移公式为:
其中Va表示所述多粒度融合特征向量,Vb表示所述语料特征向量,M表示所述转移矩阵,表示矩阵与向量相乘。
在上述基于自然语言处理的文本自动校对***100中,所述优化模块180,用于对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵。特别地,在本申请技术方案中,使用基于转换器的上下文编码器和双向长短期记忆神经网络模型来提取词粒度和段粒度的上下文语义特征向量。然而,这些特征向量的提取过程可能会导致一些细节信息的丢失。例如,在词粒度上下文语义特征向量的提取过程中,可能会对词序列进行下采样或滤波操作,从而丢失一些细微的词语关系。在段粒度上下文语义特征向量的提取过程中,可能会对段落进行截断或压缩,从而丢失一些段落内部的细节信息。这些丢失的细节信息可能导致转移特征矩阵中的量化特征信息缺失。在将词粒度上下文语义特征向量和段粒度上下文语义特征向量进行融合以得到多粒度融合特征向量时,可能存在信息损失的情况。融合过程中使用简单的线性组合或加权平均操作,可能无法充分保留原始特征向量中的细微差异,从而导致转移特征矩阵中的量化特征信息缺失。进一步地,使用语料库生成语料特征向量,这些特征向量用于与多粒度融合特征向量进行转移特征矩阵的计算。然而,语料特征向量的生成过程可能存在一定的信息损失。生成语料特征向量可能涉及到语料库的采样、特征提取或降维等操作,这些操作可能会导致一些细节信息的丢失。特别是在语料库规模较大时,为了提高计算效率,可能会对语料库进行采样或压缩,从而导致转移特征矩阵中的量化特征信息缺失。因此,在本申请的技术方案中,为了弥补转移特征矩阵可能存在的量化特征信息缺失,对所述转移特征矩阵进行基于先验的特征工程参数化。
具体地,所述优化模块180,用于:以如下优化公式对所述转移特征矩阵进行基于先验的特征工程参数化以得到所述优化转移特征矩阵;
其中,所述优化公式为:
其中,mij是所述转移特征矩阵中(i,j)位置的特征值,θ为预定权重参数,log表示以2为底的对数函数值,e表示指数函数,m’ij是所述优化转移特征矩阵中(i,j)位置的特征值。
在本申请的技术方案中,利用基于先验的特征工程参数化,将转移特征矩阵的量化特征信息缺失视为一种噪声干扰,从而采用一种降噪技术,来提升转移特征矩阵的鲁棒性。具体地,首先根据转移特征矩阵的结构和属性,设计了一种基于先验的特征工程参数化策略,将不同类别和维度的特征值分配到不同的区间和概率密度函数中,从而降低了量化过程中的信息损失和误差累积。进而,利用一种降噪技术,将转移特征矩阵的每个元素除以其所在行或列的某种范数,从而消除了量化后的特征值之间的尺度差异和分布偏差,增强了转移特征矩阵的稳定性和一致性。接着,将修正后的转移特征矩阵与类概率标签进行匹配,从而实现了转移特征矩阵相对于类概率标签的聚类性能,提高了基于修正后的转移特征矩阵的分类能力,以提高分类准确性。
在上述基于自然语言处理的文本自动校对***100中,所述校对结果生成模块190,用于将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。应可以理解,所述优化转移特征矩阵表征了所述多粒度融合特征向量与所述语料特征向量之间的差异特征,文本生成器通过学习所述优化转移特征矩阵中的包含的特征信息,来预测出所述待校对文本中的错误字词,从而生成一个校对文本的候选列表,其中包含了文本中存在错误的字词和它们在原文中的位置,以便进行人工的检查和修正,从而提高校对效率并提高文本的质量。
综上,根据本申请实施例的基于自然语言处理的文本自动校对***被阐明,其首先建立语料库,基于深度学习技术,分别利用上下文编码器和双向长短期记忆神经网络模型对待校正文本进行不同粒度的特征提取分析,并基于多粒度融合特征和语料特征之间的转移特征来表示两者的特征差异,以此来得到错误字词以及错误字词的位置下标。这样,能够更准确地检测和纠正文本中的错误,并且减少了人工干预,提高了检测效率。
图5为根据本申请实施例的基于自然语言处理的文本自动校对方法的流程图。如图5所示,根据本申请实施例的基于自然语言处理的文本自动校对方法,包括步骤:S110,获取待校对文本;S120,将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;S130,将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;S140,将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;S150,融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;S160,获取语料库,并基于所述语料库生成语料特征向量;S170,计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;S180,对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;S190,将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。
这里,本领域技术人员可以理解,上述基于自然语言处理的文本自动校对方法中的各个步骤的具体操作已经在上面参考图1到图4的基于自然语言处理的文本自动校对***的描述中得到了详细介绍,并因此,将省略其重复描述。
Claims (10)
1.一种基于自然语言处理的文本自动校对***,其特征在于,包括:
数据获取模块,用于获取待校对文本;
嵌入编码模块,用于将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;
词粒度上下文语义理解模块,用于将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;
段粒度上下文语义理解模块,用于将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;
融合模块,用于融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;
语料特征向量构造模块,用于获取语料库,并基于所述语料库生成语料特征向量;
转移计算模块,用于计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;
优化模块,用于对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;
校对结果生成模块,用于将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。
2.根据权利要求1所述的基于自然语言处理的文本自动校对***,其特征在于,所述嵌入编码模块,包括:
分词单元,用于将所述待校对文本进行分词处理以得到多个文本词;
嵌入化单元,用于使用所述词嵌入层的可学习嵌入矩阵对所述多个文本词中各个文本词分别进行词嵌入编码以得到文本词嵌入向量的序列;
数据整合单元,用于分别将所述各个文本词的位置下标添加到对应的所述文本词嵌入向量的尾部以得到所述词特征向量的序列。
3.根据权利要求2所述的基于自然语言处理的文本自动校对***,其特征在于,所述词粒度上下文语义理解模块,包括:
一维排列单元,用于将所述词特征向量的序列进行一维排列以得到文本全局特征向量;
自注意力生成单元,用于计算所述文本全局特征向量与所述词特征向量的序列中各个词特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;
标准化自注意力单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;
权重生成单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过激活函数以得到多个概率值;
权重施加单元,用于分别以所述多个概率值中各个概率值作为权重对所述词特征向量的序列中各个词特征向量进行加权以得到多个词语义特征向量;
级联单元,用于将所述多个词语义特征向量进行级联以得到所述词粒度上下文语义特征向量。
4.根据权利要求3所述的基于自然语言处理的文本自动校对***,其特征在于,所述融合模块,用于:以如下融合公式来融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以获得所述多粒度融合特征向量,其中,所述融合公式为:
Va=αV1+βV2
其中,Va为所述多粒度融合特征向量,V1为所述词粒度上下文语义特征向量,V2为所述段粒度上下文语义特征向量,“+”表示所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量相对应位置处的元素相加,α和β为用于控制所述多粒度融合特征向量中所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量之间的平衡的加权参数。
5.根据权利要求4所述的基于自然语言处理的文本自动校对***,其特征在于,所述转移计算模块,用于:以如下转移公式计算所述多粒度融合特征向量与所述语料特征向量之间的转移矩阵;
其中,所述转移公式为:
其中Va表示所述多粒度融合特征向量,Vb表示所述语料特征向量,M表示所述转移矩阵,表示矩阵与向量相乘。
6.根据权利要求5所述的基于自然语言处理的文本自动校对***,其特征在于,所述优化模块,用于:以如下优化公式对所述转移特征矩阵进行基于先验的特征工程参数化以得到所述优化转移特征矩阵;
其中,所述优化公式为:
其中,mij是所述转移特征矩阵中(i,j)位置的特征值,θ为预定权重参数,log表示以2为底的对数函数值,e表示指数函数,m’ij是所述优化转移特征矩阵中(i,j)位置的特征值。
7.一种基于自然语言处理的文本自动校对方法,其特征在于,包括:
获取待校对文本;
将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列;
将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量;
将所述词特征向量的序列通过双向长短期记忆神经网络模型以得到段粒度上下文语义特征向量;
融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量;
获取语料库,并基于所述语料库生成语料特征向量;
计算所述多粒度融合特征向量与所述语料特征向量之间的转移特征矩阵;
对所述转移特征矩阵进行基于先验的特征工程参数化以得到优化转移特征矩阵;
将所述优化转移特征矩阵通过文本生成器以得到所述待校对文本中的错误字词以及错误字词的位置下标。
8.根据权利要求7所述的基于自然语言处理的文本自动校对方法,其特征在于,将所述待校对文本进行分词处理后通过词嵌入层以得到词特征向量的序列,包括:
将所述待校对文本进行分词处理以得到多个文本词;
使用所述词嵌入层的可学习嵌入矩阵对所述多个文本词中各个文本词分别进行词嵌入编码以得到文本词嵌入向量的序列;
分别将所述各个文本词的位置下标添加到对应的所述文本词嵌入向量的尾部以得到所述词特征向量的序列。
9.根据权利要求8所述的基于自然语言处理的文本自动校对方法,其特征在于,将所述词特征向量的序列通过基于转换器的上下文编码器以得到词粒度上下文语义特征向量,包括:
将所述词特征向量的序列进行一维排列以得到文本全局特征向量;
计算所述文本全局特征向量与所述词特征向量的序列中各个词特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;
分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;
将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过激活函数以得到多个概率值;
分别以所述多个概率值中各个概率值作为权重对所述词特征向量的序列中各个词特征向量进行加权以得到多个词语义特征向量;
将所述多个词语义特征向量进行级联以得到所述词粒度上下文语义特征向量。
10.根据权利要求9所述的基于自然语言处理的文本自动校对方法,其特征在于,融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以得到多粒度融合特征向量,包括:以如下融合公式来融合所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量以获得所述多粒度融合特征向量,其中,所述融合公式为:
Va=αV1+βV2
其中,Va为所述多粒度融合特征向量,V1为所述词粒度上下文语义特征向量,V2为所述段粒度上下文语义特征向量,“+”表示所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量相对应位置处的元素相加,α和β为用于控制所述多粒度融合特征向量中所述词粒度上下文语义特征向量和所述段粒度上下文语义特征向量之间的平衡的加权参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553082.8A CN117521641A (zh) | 2023-11-20 | 2023-11-20 | 基于自然语言处理的文本自动校对***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553082.8A CN117521641A (zh) | 2023-11-20 | 2023-11-20 | 基于自然语言处理的文本自动校对***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117521641A true CN117521641A (zh) | 2024-02-06 |
Family
ID=89750988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311553082.8A Withdrawn CN117521641A (zh) | 2023-11-20 | 2023-11-20 | 基于自然语言处理的文本自动校对***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521641A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035432A (zh) * | 2024-04-12 | 2024-05-14 | 成都航空职业技术学院 | 一种基于语义识别的就业指导内容推荐方法 |
-
2023
- 2023-11-20 CN CN202311553082.8A patent/CN117521641A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035432A (zh) * | 2024-04-12 | 2024-05-14 | 成都航空职业技术学院 | 一种基于语义识别的就业指导内容推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581961B (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN113434357B (zh) | 基于序列预测的日志异常检测方法及装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
EP4211591A1 (en) | Method and system for identifying citations within regulatory content | |
CN113672931B (zh) | 一种基于预训练的软件漏洞自动检测方法及装置 | |
CN116245513B (zh) | 基于规则库的自动化运维***及其方法 | |
CN115859437A (zh) | 基于分布式光纤传感***的导管架水下应力检测*** | |
CN117521641A (zh) | 基于自然语言处理的文本自动校对***及方法 | |
CN111930939A (zh) | 一种文本检测的方法及装置 | |
CN114282527A (zh) | 多语言文本检测与纠错方法、***、电子设备及存储介质 | |
CN113901802A (zh) | Crnn网络融合注意力机制的短文本相似度匹配方法 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN117520590B (zh) | 海洋跨模态图文检索方法、***、设备及存储介质 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN116629211A (zh) | 基于人工智能的写作方法及*** | |
CN114969334A (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN117744635B (zh) | 基于智能ai的英文文本自动校对***及方法 | |
CN117113977B (zh) | 一种识别试卷中包含ai生成文字的方法、介质及*** | |
CN118038497B (zh) | 一种基于sam的文本信息驱动的行人检索方法及*** | |
CN117521673B (zh) | 一种具备分析训练性能的自然语言处理*** | |
CN116882398B (zh) | 基于短语交互的隐式篇章关系识别方法和*** | |
CN115600580B (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN111431863B (zh) | 基于关系网络的主机入侵检测方法 | |
CN118170920A (zh) | 一种混合语种文本检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20240206 |