CN117744635B - 基于智能ai的英文文本自动校对***及方法 - Google Patents
基于智能ai的英文文本自动校对***及方法 Download PDFInfo
- Publication number
- CN117744635B CN117744635B CN202410178708.XA CN202410178708A CN117744635B CN 117744635 B CN117744635 B CN 117744635B CN 202410178708 A CN202410178708 A CN 202410178708A CN 117744635 B CN117744635 B CN 117744635B
- Authority
- CN
- China
- Prior art keywords
- english
- speech
- word
- sequence
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012937 correction Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 144
- 238000012549 training Methods 0.000 claims description 128
- 238000012545 processing Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 19
- 230000001915 proofreading effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 description 18
- 238000009826 distribution Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种基于智能AI的英文文本自动校对***及方法,涉及智能校对领域,其通过采集待分析的英文文本,并在后端引入基于人工智能的数据处理和语义理解算法来进行该英文文本的语义分析,以此来判断是否存在语法错误。这样,能够在短时间内检测和纠正英文文本中的语法错误,从而提高英文文本的质量和准确性,通过这样的方式,能够为用户提供便捷和专业的英文写作辅助服务,帮助人们提升英文写作的效率和准确性,改善英文文本的可读性和信度。
Description
技术领域
本申请涉及智能校对领域,且更为具体地,涉及一种基于智能AI的英文文本自动校对***及方法。
背景技术
英文文本的质量和准确性对于学术、商业和个人用途都非常重要。然而,很多人在写作英文时会遇到语法、拼写、标点和用词等方面的错误,这些错误会影响文本的可读性和信度。英文文本校对是指对英文文本进行检查和修正,以确保文本的语法、拼写、标点和用词等方面的准确性和规范性。良好的文本校对可以提高文本的可读性、准确性和专业性。
然而,传统的英文文本校对***通常只关注单个词汇或短语的错误,而忽视了上下文信息,但文本中的语法错误往往与上下文相关,需要全局的语义理解才能正确纠正。并且,由于英文文本中存在许多具有多种含义的情况,同一个英文词汇或短语可能有多种解释和用法,传统的英文文本校对***往往无法准确判断上下文中的意思,导致错误的纠正或漏掉错误。此外,传统的英文文本校对***的校正效果受限于规则和词典的质量和覆盖范围,如果遇到新的词汇、短语或语法结构,传统***可能无法正确处理。同时,传统的校正***的处理速度较慢,对于大规模的文本或实时的校对需求,传统***的效率无法满足要求。
因此,期望一种基于智能AI的英文文本自动校对***及方法。
发明内容
为了解决上述技术问题,提出了本申请。
根据本申请的一个方面,提供了一种基于智能AI的英文文本自动校对***,其包括:
英文文本采集模块,用于获取待分析英文文本;
英文文本分词模块,用于对所述待分析英文文本进行分词处理以得到英文单词的序列;
英文单词嵌入编码模块,用于将所述英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到英文单词嵌入编码特征向量的序列;
英文单词词性标注和编码模块,用于分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列;
英文单词词义和词性双重编码模块,用于以英文单词为单位,对所述英文单词嵌入编码特征向量的序列和所述英文单词词性独热编码特征向量的序列进行整合以得到英文单词词义和词性双重编码特征向量的序列;
英文文本语义理解模块,用于对所述英文单词词义和词性双重编码特征向量的序列进行上下文语义关联编码以得到英文文本语义理解特征;
语法错误检查模块,用于基于所述英文文本语义理解特征,确定是否存在语法错误;
所述英文单词词性标注和编码模块,包括:
词性标注单元,用于分别对所述英文单词的序列中的各个英文单词进行词性标注以得到英文单词词性描述的序列;
英文单词词性描述独热编码单元,用于使用基于独热编码层的词性编码器分别对所述英文单词词性描述的序列中的各个英文单词词性描述进行编码以得到所述英文单词词性独热编码特征向量的序列。
在上述基于智能AI的英文文本自动校对***中,所述英文文本语义理解模块,用于:将所述英文单词词义和词性双重编码特征向量的序列通过基于转换器的上下文编码器以得到英文文本语义理解特征向量作为所述英文文本语义理解特征。
在上述基于智能AI的英文文本自动校对***中,所述语法错误检查模块,用于:将所述英文文本语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示是否存在语法错误。
在上述基于智能AI的英文文本自动校对***中,还包括用于对所述基于词嵌入层的单词语义嵌入编码器、所述基于独热编码层的词性编码器、所述基于转换器的上下文编码器和所述分类器进行训练的训练模块。
在上述基于智能AI的英文文本自动校对***中,所述训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据包括训练待分析英文文本;
训练分词单元,用于对所述训练待分析英文文本进行分词处理以得到训练英文单词的序列;
训练词嵌入编码单元,用于将所述训练英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到训练英文单词嵌入编码特征向量的序列;
训练词性标注单元,用于分别对所述训练英文单词的序列中的各个训练英文单词进行词性标注以得到训练英文单词词性描述的序列;
训练独热编码单元,用于使用基于独热编码层的词性编码器分别对所述训练英文单词词性描述的序列中的各个训练英文单词词性描述进行编码以得到训练英文单词词性独热编码特征向量的序列;
训练双重编码单元,用于以英文单词为单位,对所述训练英文单词嵌入编码特征向量的序列和所述训练英文单词词性独热编码特征向量的序列进行整合以得到训练英文单词词义和词性双重编码特征向量的序列;
训练英文文本语义理解单元,用于将所述训练英文单词词义和词性双重编码特征向量的序列通过基于转换器的上下文编码器以得到训练英文文本语义理解特征向量;
优化单元,用于对所述训练英文文本语义理解特征向量进行优化以得到优化训练英文文本语义理解特征向量;
分类损失单元,用于将所述优化训练英文文本语义理解特征向量通过分类器以得到分类损失函数值;
训练单元,用于基于所述分类损失函数值对所述基于词嵌入层的单词语义嵌入编码器、所述基于独热编码层的词性编码器、所述基于转换器的上下文编码器和所述分类器进行训练。
在上述基于智能AI的英文文本自动校对***中,所述分类损失单元,用于:
使用所述分类器对所述优化训练英文文本语义理解特征向量进行处理以得到训练分类结果:
计算所述训练分类结果与真实值之间的交叉熵损失函数值作为所述分类损失函数值。
根据本申请的另一个方面,提供了一种基于智能AI的英文文本自动校对方法,其包括:
获取待分析英文文本;
对所述待分析英文文本进行分词处理以得到英文单词的序列;
将所述英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到英文单词嵌入编码特征向量的序列;
分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列;
以英文单词为单位,对所述英文单词嵌入编码特征向量的序列和所述英文单词词性独热编码特征向量的序列进行整合以得到英文单词词义和词性双重编码特征向量的序列;
对所述英文单词词义和词性双重编码特征向量的序列进行上下文语义关联编码以得到英文文本语义理解特征;
基于所述英文文本语义理解特征,确定是否存在语法错误;
其中,分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列,包括:
词性标注单元,用于分别对所述英文单词的序列中的各个英文单词进行词性标注以得到英文单词词性描述的序列;
英文单词词性描述独热编码单元,用于使用基于独热编码层的词性编码器分别对所述英文单词词性描述的序列中的各个英文单词词性描述进行编码以得到所述英文单词词性独热编码特征向量的序列。
与现有技术相比,本申请提供的一种基于智能AI的英文文本自动校对***及方法,其通过采集待分析的英文文本,并在后端引入基于人工智能的数据处理和语义理解算法来进行该英文文本的语义分析,以此来判断是否存在语法错误。这样,能够在短时间内检测和纠正英文文本中的语法错误,从而提高英文文本的质量和准确性,通过这样的方式,能够为用户提供便捷和专业的英文写作辅助服务,帮助人们提升英文写作的效率和准确性,改善英文文本的可读性和信度。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于智能AI的英文文本自动校对***的框图;
图2为根据本申请实施例的基于智能AI的英文文本自动校对***的***架构图;
图3为根据本申请实施例的基于智能AI的英文文本自动校对***的训练阶段的框图;
图4为根据本申请实施例的基于智能AI的英文文本自动校对***中英文单词词性标注和编码模块的框图;
图5为根据本申请实施例的基于智能AI的英文文本自动校对方法的流程图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的***中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述***和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
传统的英文文本校对***通常只关注单个词汇或短语的错误,而忽视了上下文信息,但文本中的语法错误往往与上下文相关,需要全局的语义理解才能正确纠正。并且,由于英文文本中存在许多具有多种含义的情况,同一个英文词汇或短语可能有多种解释和用法,传统的英文文本校对***往往无法准确判断上下文中的意思,导致错误的纠正或漏掉错误。此外,传统的英文文本校对***的校正效果受限于规则和词典的质量和覆盖范围,如果遇到新的词汇、短语或语法结构,传统***可能无法正确处理。同时,传统的校正***的处理速度较慢,对于大规模的文本或实时的校对需求,传统***的效率无法满足要求。因此,期望一种基于智能AI的英文文本自动校对***及方法。
在本申请的技术方案中,提出了一种基于智能AI的英文文本自动校对***。图1为根据本申请实施例的基于智能AI的英文文本自动校对***的框图。图2为根据本申请实施例的基于智能AI的英文文本自动校对***的***架构图。如图1和图2所示,根据本申请的实施例的基于智能AI的英文文本自动校对***300,包括:英文文本采集模块310,用于获取待分析英文文本;英文文本分词模块320,用于对所述待分析英文文本进行分词处理以得到英文单词的序列;英文单词嵌入编码模块330,用于将所述英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到英文单词嵌入编码特征向量的序列;英文单词词性标注和编码模块340,用于分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列;英文单词词义和词性双重编码模块350,用于以英文单词为单位,对所述英文单词嵌入编码特征向量的序列和所述英文单词词性独热编码特征向量的序列进行整合以得到英文单词词义和词性双重编码特征向量的序列;英文文本语义理解模块360,用于对所述英文单词词义和词性双重编码特征向量的序列进行上下文语义关联编码以得到英文文本语义理解特征;语法错误检查模块370,用于基于所述英文文本语义理解特征,确定是否存在语法错误。
特别地,所述英文文本采集模块310和所述英文文本分词模块320,用于对所述待分析英文文本进行分词处理以得到英文单词的序列。应可以理解,在英文语法中,单词是语法分析的基本单位。因此,为了将连续的文本划分为单个的英文单词,以便后续处理和分析,需要对所述待分析英文文本进行分词处理以得到英文单词的序列。也就是说,将所述待分析英文文本分割成英文单词的序列可以帮助***理解英文文本中句子的结构和语法规则,从而更准确地检测和纠正语法错误。
特别地,所述英文单词嵌入编码模块330,用于将所述英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到英文单词嵌入编码特征向量的序列。应可以理解,考虑到由于所述英文单词的序列中的各个英文单词都是文本表示,为了将其转化为计算机可识别语言,以便后续对英文文本的上下文编码和语义理解,需要将所述英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到英文单词嵌入编码特征向量的序列,有助于***更好地理解单词的含义和上下文语义关系。值得一提的是,词嵌入层是深度学习中用于将离散的词语表示转换为连续的向量表示的一种技术。词嵌入层通过将每个词语映射到一个低维的连续向量空间,将词语的语义信息编码为向量表示。这些向量被称为词嵌入向量。
特别地,所述英文单词词性标注和编码模块340,用于分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列。特别地,在本申请的一个具体示例中,如图4所示,所述英文单词词性标注和编码模块340,包括:词性标注单元341,用于分别对所述英文单词的序列中的各个英文单词进行词性标注以得到英文单词词性描述的序列;英文单词词性描述独热编码单元342,用于使用基于独热编码层的词性编码器分别对所述英文单词词性描述的序列中的各个英文单词词性描述进行编码以得到所述英文单词词性独热编码特征向量的序列。
具体地,所述词性标注单元341,用于分别对所述英文单词的序列中的各个英文单词进行词性标注以得到英文单词词性描述的序列。应可以理解,由于在所述待分析英文文本中,同一个英文词汇或短语可能有多种解释和用法,也就是说,英文中存在许多词汇的歧义,即一个单词可能有着多种不同的词性和用法。因此,为了能够确定每个英文单词在句子中的语法角色和词性描述,从而更好地理解英文文本的语义和语法规则,以此来更准确地检测和纠正语法错误,在本申请的技术方案中,进一步分别对所述英文单词的序列中的各个英文单词进行词性标注以得到英文单词词性描述的序列。应可以理解,词性标注是语法分析的关键步骤之一,通过为每个英文单词添加词性描述,***可以更好地理解句子的结构和语法规则。此外,词性的标注有助于***理解文本的上下文信息,不同的词性描述可以提供关于单词在句子中的语法角色和用法的线索,帮助***更准确地捕捉单词之间的关系和上下文语境,从而更好地进行语义理解和错误纠正。并且,通过词性标注,***可以根据上下文信息来确定单词的具体词性,从而消除歧义,避免错误的纠正或误报。
具体地,所述英文单词词性描述独热编码单元342,用于使用基于独热编码层的词性编码器分别对所述英文单词词性描述的序列中的各个英文单词词性描述进行编码以得到所述英文单词词性独热编码特征向量的序列。考虑到由于英文单词的词性包含名词、动词和形容词等,为了将每个英文单词的词性信息融入到相应的英文单词中,以便于更为充分和准确地对英文文本的上下文语义进行分析和理解,以判断其是否存在语法错误,需要为每个单词的词性描述提供一种数值化的表示形式,以便后续的特征提取和模型训练。基于此,在本申请的技术方案中,进一步使用基于独热编码层的词性编码器分别对所述英文单词词性描述的序列中的各个英文单词词性描述进行编码以得到英文单词词性独热编码特征向量的序列。应可以理解,独热编码是一种常用的特征表示方法,它能够将每个英文单词的词性描述映射为一个向量,其中只有一个元素为1,表示该词性描述的存在,其他元素都为0。这样,通过独热编码得到的所述英文单词词性独热编码特征向量可以捕捉到每个英文单词的词性信息,例如名词、动词、形容词等,从而更好地理解单词在句子中的语法角色和用法,以便于后续在进行英文文本的上下文语义理解时能够同时考虑文本中单词的词性和语义信息,从而更准确地进行上下文理解和错误纠正。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列,例如:使用词性标注工具对英文单词序列进行词性标注。词性标注是将每个单词标记为其所属的词性类别,例如名词、动词、形容词等。标注后的结果可以表示为一个与输入单词序列长度相同的词性序列;根据标注后的词性序列,构建一个词性词典,将每个不同的词性映射到一个唯一的索引值。这个词性词典将用于后续的独热编码;将标注后的词性序列转换为独热编码特征向量序列。对于每个单词的词性,将其对应的索引位置设为1,其余位置设为0,形成一个与词性词典大小相同的独热编码向量。这样,每个单词的词性都被编码为一个独热编码特征向量;输出所述英文单词词性独热编码特征向量的序列。
特别地,所述英文单词词义和词性双重编码模块350,用于以英文单词为单位,对所述英文单词嵌入编码特征向量的序列和所述英文单词词性独热编码特征向量的序列进行整合以得到英文单词词义和词性双重编码特征向量的序列。应可以理解,由于所述英文单词嵌入编码特征向量捕捉了单词的语义信息,而所述英文单词词性独热编码特征向量表示了单词的词性信息。因此,为了将英文文本中的各个英文单词的语义信息和词性信息结合起来,以提供更丰富的特征表示,便于后续更好地进行语义特征提取和模型训练,在本申请的技术方案中,进一步以英文单词为单位,对所述英文单词嵌入编码特征向量的序列和所述英文单词词性独热编码特征向量的序列进行整合以得到英文单词词义和词性双重编码特征向量的序列。通过将所述英文单词嵌入编码特征向量和所述英文单词词性独热编码特征向量整合在一起,可以在进行语义编码时同时考虑到英文单词的词义和词性,从而能够提供更全面的语义特征表示,以利于更准确地进行上下文理解和错误纠正。
特别地,所述英文文本语义理解模块360,用于对所述英文单词词义和词性双重编码特征向量的序列进行上下文语义关联编码以得到英文文本语义理解特征。考虑到所述英文文本中的各个单词之间具有着上下文的语义关联关系,为了能够利用这种单词之间的上下文语义关联特征来更为准确和充分地进行该待分析英文文本的语义分析和理解,以此来进行语法错误检测,在本申请的技术方案中,进一步将所述英文单词词义和词性双重编码特征向量的序列通过基于转换器的上下文编码器中进行编码,以提取出所述待分析英文文本中各个英文单词的词义和词性双重编码特征之间基于全局的上下文语义关联特征信息,从而得到英文文本语义理解特征向量。特别地,所述基于转换器的上下文编码器可以对输入的所述英文单词词义和词性双重编码特征向量的序列进行上下文编码和建模。通过考虑单词的词义和词性在句子中的上下文信息,可以捕捉到英文文本中的各个单词之间的全局语义和上下文依赖关系,从而更准确地理解整个英文文本的语义信息,提高语法错误的检测准确性。具体地,将所述英文单词词义和词性双重编码特征向量的序列通过基于转换器的上下文编码器以得到英文文本语义理解特征向量,包括:将所述英文单词词义和词性双重编码特征向量的序列进行一维排列以得到英文单词词义和词性双重编码全局特征向量;计算所述英文单词词义和词性双重编码全局特征向量与所述英文单词词义和词性双重编码特征向量的序列中各个英文单词词义和词性双重编码特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述英文单词词义和词性双重编码特征向量的序列中各个英文单词词义和词性双重编码特征向量进行加权以得到所述多个上下文语义英文单词词义和词性双重编码特征向量;以及,将所述多个上下文语义英文单词词义和词性双重编码特征向量进行级联以得到所述英文文本语义理解特征向量。
特别地,所述语法错误检查模块370,用于基于所述英文文本语义理解特征,确定是否存在语法错误。也就是,在本申请的技术方案中,将所述英文文本语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示是否存在语法错误。也就是说,利用所述英文文本中基于词粒度的上下文语义关联特征信息来进行分类处理,以此来判断该被分析英文文本是否存在语法错误。这样,能够在短时间内检测和纠正英文文本中的语法错误,从而提高英文文本的质量和准确性,通过这样的方式,能够为用户提供便捷和专业的英文写作辅助服务,帮助人们提升英文写作的效率和准确性,改善英文文本的可读性和信度。具体地,使用所述分类器的多个全连接层对所述英文文本语义理解特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
也就是,在本申请的技术方案中,所述分类器的标签包括存在语法错误(第一标签),以及,不存在语法错误(第二标签),其中,所述分类器通过软最大值函数来确定所述英文文本语义理解特征向量属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“是否存在语法错误”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2之和为一。因此,是否存在语法错误的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“是否存在语法错误”的语言文本意义。
分类器是指一种机器学习模型或算法,用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分,它通过学习从输入数据到输出类别的映射关系来进行分类任务。
全连接层是神经网络中常见的一种层类型。在全连接层中,每个神经元都与上一层的所有神经元相连接,每个连接都有一个权重。这意味着全连接层中的每个神经元都接收来自上一层所有神经元的输入,并通过权重对这些输入进行加权求和,然后将结果传递给下一层。
Softmax分类函数是一种常用的激活函数,用于多分类问题。它将输入向量的每个元素转化为一个介于0和1之间的概率值,并且这些概率值的和等于1。Softmax函数常用于神经网络的输出层,特别适用于多分类问题,因为它能够将网络输出映射为各个类别的概率分布。在训练过程中,Softmax函数的输出可以用于计算损失函数,并通过反向传播算法来更新网络参数。值得注意的是,Softmax函数的输出并不会改变元素之间的相对大小关系,只是对其进行了归一化处理。因此,Softmax函数并不改变输入向量的特性,只是将其转化为概率分布形式。
应可以理解,在利用上述神经网络模型进行推断之前,需要对所述基于词嵌入层的单词语义嵌入编码器、所述基于独热编码层的词性编码器、所述基于转换器的上下文编码器和所述分类器进行训练。也就是说,根据本申请的基于智能AI的英文文本自动校对***300,还包括训练阶段400,用于对所述基于词嵌入层的单词语义嵌入编码器、所述基于独热编码层的词性编码器、所述基于转换器的上下文编码器和所述分类器进行训练。
图3为根据本申请实施例的基于智能AI的英文文本自动校对***的训练阶段的框图。如图3所示,根据本申请实施例的基于智能AI的英文文本自动校对***300,包括:训练阶段400,包括:训练数据获取单元410,用于获取训练数据,所述训练数据包括训练待分析英文文本;训练分词单元420,用于对所述训练待分析英文文本进行分词处理以得到训练英文单词的序列;训练词嵌入编码单元430,用于将所述训练英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到训练英文单词嵌入编码特征向量的序列;训练词性标注单元440,用于分别对所述训练英文单词的序列中的各个训练英文单词进行词性标注以得到训练英文单词词性描述的序列;训练独热编码单元450,用于使用基于独热编码层的词性编码器分别对所述训练英文单词词性描述的序列中的各个训练英文单词词性描述进行编码以得到训练英文单词词性独热编码特征向量的序列;训练双重编码单元460,用于以英文单词为单位,对所述训练英文单词嵌入编码特征向量的序列和所述训练英文单词词性独热编码特征向量的序列进行整合以得到训练英文单词词义和词性双重编码特征向量的序列;训练英文文本语义理解单元470,用于将所述训练英文单词词义和词性双重编码特征向量的序列通过基于转换器的上下文编码器以得到训练英文文本语义理解特征向量;优化单元480,用于对所述训练英文文本语义理解特征向量进行优化以得到优化训练英文文本语义理解特征向量;分类损失单元490,用于将所述优化训练英文文本语义理解特征向量通过分类器以得到分类损失函数值;训练单元500,用于基于所述分类损失函数值对所述基于词嵌入层的单词语义嵌入编码器、所述基于独热编码层的词性编码器、所述基于转换器的上下文编码器和所述分类器进行训练。
其中,所述分类损失单元,用于:使用所述分类器对所述优化训练英文文本语义理解特征向量进行处理以得到训练分类结果:以及,计算所述训练分类结果与真实值之间的交叉熵损失函数值作为所述分类损失函数值。
在本申请的技术方案中,所述训练英文单词嵌入编码特征向量的序列表达所述英文单词的词嵌入编码语义,而所述训练英文单词词性独热编码特征向量的序列表达所述英文单词词性的独热编码,这样,将所述训练英文单词嵌入编码特征向量的序列和所述训练英文单词词性独热编码特征向量的序列整合后得到的所述训练英文单词词义和词性双重编码特征向量的序列通过基于转换器的上下文编码器,可以进一步基于单词-词性的编码上下文关联来进行文本语义特征提取。但是,考虑到每个英文单词对应的词嵌入编码语义和独热编码的向量分布差异,在序列整合时所述训练英文单词嵌入编码特征向量的序列和所述训练英文单词词性独热编码特征向量的序列各自的基于其特定分布的分布信息显著性也会受到影响,使得当所述英文文本语义理解特征向量通过分类器进行分类时,难以稳定地聚焦于特征的显著局部分布,从而影响训练速度。基于此,本申请在每次对训练英文文本语义理解特征向量通过分类器进行分类回归的迭代时,对所述训练英文文本语义理解特征向量进行优化,表示为:
;
其中是所述训练英文文本语义理解特征向量,/>和/>分别是所述训练英文文本语义理解特征向量的1范数和2范数的平方,/>是所述训练英文文本语义理解特征向量的长度,且/>是权重超参数,/>表示以2为底的对数运算。具体地,通过基于所述训练英文文本语义理解特征向量/>的尺度和结构参数来进行其高维特征流形形状的几何注册,可以关注所述训练英文文本语义理解特征向量/>的特征值构成的特征集合中的具有丰富特征语义信息的特征,也就是,在分类器进行分类时的基于局部上下文信息表示不相似性的可区分的稳定兴趣特征,从而实现所述训练英文文本语义理解特征向量/>在分类过程中的特征信息显著性标注,提升分类器的训练速度。这样,能够在短时间内检测和纠正英文文本中的语法错误,从而提高英文文本的质量和准确性,为用户提供更为便捷和专业的英文写作辅助服务。
如上所述,根据本申请实施例的基于智能AI的英文文本自动校对***300可以实现在各种无线终端中,例如具有基于智能AI的英文文本自动校对算法的服务器等。在一种可能的实现方式中,根据本申请实施例的基于智能AI的英文文本自动校对***300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于智能AI的英文文本自动校对***300可以是该无线终端的操作***中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于智能AI的英文文本自动校对***300同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于智能AI的英文文本自动校对***300与该无线终端也可以是分立的设备,并且该基于智能AI的英文文本自动校对***300可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
进一步地,本实施例还提供一种基于智能AI的英文文本自动校对方法。
图5为根据本申请实施例的基于智能AI的英文文本自动校对方法的流程图。如图5所示,根据本申请实施例的基于智能AI的英文文本自动校对方法,包括步骤:S1,获取待分析英文文本;S2,对所述待分析英文文本进行分词处理以得到英文单词的序列;S3,将所述英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到英文单词嵌入编码特征向量的序列;S4,分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列;S5,以英文单词为单位,对所述英文单词嵌入编码特征向量的序列和所述英文单词词性独热编码特征向量的序列进行整合以得到英文单词词义和词性双重编码特征向量的序列;S6,对所述英文单词词义和词性双重编码特征向量的序列进行上下文语义关联编码以得到英文文本语义理解特征;S7,基于所述英文文本语义理解特征,确定是否存在语法错误。
综上,根据本申请实施例的基于智能AI的英文文本自动校对方法被阐明,其通过采集待分析的英文文本,并在后端引入基于人工智能的数据处理和语义理解算法来进行该英文文本的语义分析,以此来判断是否存在语法错误。这样,能够在短时间内检测和纠正英文文本中的语法错误,从而提高英文文本的质量和准确性,通过这样的方式,能够为用户提供便捷和专业的英文写作辅助服务,帮助人们提升英文写作的效率和准确性,改善英文文本的可读性和信度。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (7)
1.一种基于智能AI的英文文本自动校对***,其特征在于,包括:
英文文本采集模块,用于获取待分析英文文本;
英文文本分词模块,用于对所述待分析英文文本进行分词处理以得到英文单词的序列;
英文单词嵌入编码模块,用于将所述英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到英文单词嵌入编码特征向量的序列;
英文单词词性标注和编码模块,用于分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列;
英文单词词义和词性双重编码模块,用于以英文单词为单位,对所述英文单词嵌入编码特征向量的序列和所述英文单词词性独热编码特征向量的序列进行整合以得到英文单词词义和词性双重编码特征向量的序列;
英文文本语义理解模块,用于对所述英文单词词义和词性双重编码特征向量的序列进行上下文语义关联编码以得到英文文本语义理解特征;
语法错误检查模块,用于基于所述英文文本语义理解特征,确定是否存在语法错误;
其中,所述英文单词词性标注和编码模块,包括:
词性标注单元,用于分别对所述英文单词的序列中的各个英文单词进行词性标注以得到英文单词词性描述的序列;
英文单词词性描述独热编码单元,用于使用基于独热编码层的词性编码器分别对所述英文单词词性描述的序列中的各个英文单词词性描述进行编码以得到所述英文单词词性独热编码特征向量的序列。
2.根据权利要求1所述的基于智能AI的英文文本自动校对***,其特征在于,所述英文文本语义理解模块,用于:将所述英文单词词义和词性双重编码特征向量的序列通过基于转换器的上下文编码器以得到英文文本语义理解特征向量作为所述英文文本语义理解特征。
3.根据权利要求2所述的基于智能AI的英文文本自动校对***,其特征在于,所述语法错误检查模块,用于:将所述英文文本语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示是否存在语法错误。
4.根据权利要求3所述的基于智能AI的英文文本自动校对***,其特征在于,还包括用于对所述基于词嵌入层的单词语义嵌入编码器、所述基于独热编码层的词性编码器、所述基于转换器的上下文编码器和所述分类器进行训练的训练模块。
5.根据权利要求4所述的基于智能AI的英文文本自动校对***,其特征在于,所述训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据包括训练待分析英文文本;
训练分词单元,用于对所述训练待分析英文文本进行分词处理以得到训练英文单词的序列;
训练词嵌入编码单元,用于将所述训练英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到训练英文单词嵌入编码特征向量的序列;
训练词性标注单元,用于分别对所述训练英文单词的序列中的各个训练英文单词进行词性标注以得到训练英文单词词性描述的序列;
训练独热编码单元,用于使用基于独热编码层的词性编码器分别对所述训练英文单词词性描述的序列中的各个训练英文单词词性描述进行编码以得到训练英文单词词性独热编码特征向量的序列;
训练双重编码单元,用于以英文单词为单位,对所述训练英文单词嵌入编码特征向量的序列和所述训练英文单词词性独热编码特征向量的序列进行整合以得到训练英文单词词义和词性双重编码特征向量的序列;
训练英文文本语义理解单元,用于将所述训练英文单词词义和词性双重编码特征向量的序列通过基于转换器的上下文编码器以得到训练英文文本语义理解特征向量;
优化单元,用于对所述训练英文文本语义理解特征向量进行优化以得到优化训练英文文本语义理解特征向量;
分类损失单元,用于将所述优化训练英文文本语义理解特征向量通过分类器以得到分类损失函数值;
训练单元,用于基于所述分类损失函数值对所述基于词嵌入层的单词语义嵌入编码器、所述基于独热编码层的词性编码器、所述基于转换器的上下文编码器和所述分类器进行训练。
6.根据权利要求5所述的基于智能AI的英文文本自动校对***,其特征在于,所述分类损失单元,用于:
使用所述分类器对所述优化训练英文文本语义理解特征向量进行处理以得到训练分类结果:
计算所述训练分类结果与真实值之间的交叉熵损失函数值作为所述分类损失函数值。
7.一种基于智能AI的英文文本自动校对方法,其特征在于,包括:
获取待分析英文文本;
对所述待分析英文文本进行分词处理以得到英文单词的序列;
将所述英文单词的序列通过基于词嵌入层的单词语义嵌入编码器以得到英文单词嵌入编码特征向量的序列;
分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列;
以英文单词为单位,对所述英文单词嵌入编码特征向量的序列和所述英文单词词性独热编码特征向量的序列进行整合以得到英文单词词义和词性双重编码特征向量的序列;
对所述英文单词词义和词性双重编码特征向量的序列进行上下文语义关联编码以得到英文文本语义理解特征;
基于所述英文文本语义理解特征,确定是否存在语法错误;
其中,分别对所述英文单词的序列中的各个英文单词进行词性标注和独热编码以得到英文单词词性独热编码特征向量的序列,包括:
词性标注单元,用于分别对所述英文单词的序列中的各个英文单词进行词性标注以得到英文单词词性描述的序列;
英文单词词性描述独热编码单元,用于使用基于独热编码层的词性编码器分别对所述英文单词词性描述的序列中的各个英文单词词性描述进行编码以得到所述英文单词词性独热编码特征向量的序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410178708.XA CN117744635B (zh) | 2024-02-12 | 2024-02-12 | 基于智能ai的英文文本自动校对***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410178708.XA CN117744635B (zh) | 2024-02-12 | 2024-02-12 | 基于智能ai的英文文本自动校对***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117744635A CN117744635A (zh) | 2024-03-22 |
CN117744635B true CN117744635B (zh) | 2024-04-30 |
Family
ID=90278049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410178708.XA Active CN117744635B (zh) | 2024-02-12 | 2024-02-12 | 基于智能ai的英文文本自动校对***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117744635B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN116681061A (zh) * | 2023-05-31 | 2023-09-01 | 哈尔滨工业大学 | 一种基于多任务学习和注意力机制的英文语法纠正技术 |
CN116975199A (zh) * | 2023-03-30 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种文本预测方法、装置、设备和存储介质 |
-
2024
- 2024-02-12 CN CN202410178708.XA patent/CN117744635B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN116975199A (zh) * | 2023-03-30 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种文本预测方法、装置、设备和存储介质 |
CN116681061A (zh) * | 2023-05-31 | 2023-09-01 | 哈尔滨工业大学 | 一种基于多任务学习和注意力机制的英文语法纠正技术 |
Also Published As
Publication number | Publication date |
---|---|
CN117744635A (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580292B (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN114153971B (zh) | 一种含错中文文本纠错识别分类设备 | |
CN116610803B (zh) | 基于大数据的产业链优企信息管理方法及*** | |
CN112560484A (zh) | 一种改进bert训练模型及一种命名实体识别方法、*** | |
CN116416480B (zh) | 一种基于多模板提示学习的视觉分类方法和装置 | |
CN114490953B (zh) | 训练事件抽取模型的方法、事件抽取的方法、装置及介质 | |
CN112101009A (zh) | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 | |
CN115186673A (zh) | 科技信息管理***及其管理方法 | |
CN112036169B (zh) | 事件识别模型优化方法、装置、设备及可读存储介质 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、***及电子设备 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及*** | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
Olaleye et al. | Attention-based keyword localisation in speech using visual grounding | |
CN114647730A (zh) | 一种融合图注意力和图卷积网络的事件检测方法 | |
CN117151223B (zh) | 一种基于可学习提示的多模态实体识别和关系抽取方法 | |
CN117744635B (zh) | 基于智能ai的英文文本自动校对***及方法 | |
CN116187304A (zh) | 一种基于改进bert的自动文本纠错算法及*** | |
CN114021561A (zh) | 一种数学公式相似度计算方法及*** | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和*** | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |