CN115630645B - 一种文本纠错方法、装置、电子设备及介质 - Google Patents
一种文本纠错方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN115630645B CN115630645B CN202211552883.8A CN202211552883A CN115630645B CN 115630645 B CN115630645 B CN 115630645B CN 202211552883 A CN202211552883 A CN 202211552883A CN 115630645 B CN115630645 B CN 115630645B
- Authority
- CN
- China
- Prior art keywords
- phrase
- proprietary
- target
- sentence
- error correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种文本纠错方法、装置、电子设备及介质,方法包括:将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语;若不存在,则确定纠错结果为所述目标句子中不存在专有短语;若存在,则确定出所述目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段;当判断目标片段与专有短语标签相同时,确定纠错结果为所述目标句子中专有短语正确;当判断目标片段与专有短语标签不一致时,确定目标句子中的专有短语错误,并确定纠错结果为专有短语标签和目标片段;本申请考虑句子语义识别出句子的专有短语是否错误,精确度高,且计算量小。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种文本纠错方法、装置、电子设备及介质。
背景技术
文本内容审核中,专有短语是指表述必须严格按照规定的表述方式,不允许有任何修改的短语。比如在医学领域中,表达病人病症时有一个专用表述“雷诺五联征”,不能写作“雷诺五连症”。比如在法律领域,表达善意第三人,不能写作“善意对三人”、“善意的第三人”,盈利和营利所表达的意思完全不同;专有短语中的错别字、多字、少字、谐音字等错误,都会导致文本内容有瑕疵,严重的甚至会改变文本内容的意思。
现有的文本内容审查中的纠错方法是构建一个专有短语词典,将待检测句子切分成不同长度的片段,每个片段分别和专有短语词典中的每个专有短语计算编辑距离,当编辑距离小于一定阈值,并且待检测句子中没有该专有短语时,认为待检测句子错误使用了专有短语。这种方法完全基于编辑距离匹配,没有考虑句子语义;同时检测过程中需要计算每个片段和专有短语词典中的每个专有短语的编辑距离,计算量大。
发明内容
有鉴于此,本申请的目的在于提供一种文本纠错方法、装置、电子设备及介质,考虑句子语义识别出该句子中的专有短语是否错误,同时无需计算每个片段和专有短语词典中的每个专有短语的编辑距离,计算量小。
本申请实施例提供的一种文本纠错方法,包括:
将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语;其中,所述专有短语纠错模型是基于目标业务领域的、携带专有短语的样本句子训练得到的;
若不存在,则确定纠错结果为所述目标句子中不存在专有短语;
若存在,则确定出所述目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段;
当判断目标片段与专有短语标签相同时,确定纠错结果为所述目标句子中专有短语正确;
当判断目标片段与专有短语标签不一致时,确定目标句子中的专有短语错误,并确定纠错结果为专有短语标签和目标片段;其中,所述专有短语标签表征错误的目标片段对应的正确专有短语。
在一些实施例中,所述的文本纠错方法中,将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语,包括:
将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型中的分类模块分析所述目标句子的语义,识别出目标句子的分类标签;其中,所述分类标签包括专有短语标签和不存在专有短语标签;
当目标句子的分类标签为不存在专有短语标签时,判断所述目标句子中不存在专有短语;
当目标句子的分类标签为专有短语标签,判断所述目标句子中存在专有短语。
在一些实施例中,所述的文本纠错方法中,根据专有短语标签从所述目标句子中确定出目标片段,包括:
基于专有短语标签,将所述目标句子划分为多个片段;
比对专有短语标签和目标句子中每一片段的编辑距离,确定出专有短语标签匹配的目标片段。
在一些实施例中,所述的文本纠错方法中,将目标业务领域的目标句子输入至训练好的专有短语纠错模型之前,所述方法还包括:
将目标业务领域的目标文本输入至预处理模块,通过预处理模块清洗所述目标文本,得到清洗后的目标文本;
将清洗后的目标文本划分为至少一个目标句子。
在一些实施例中,所述的文本纠错方法中,所述专有短语纠错模型中的分类模块,是基于以下训练方法训练得到的:
构建基于目标业务领域的训练样本集;所述训练样本集中包括携带专有短语的样本句子,每一样本句子对应一分类标签;
将所述训练样本集中的样本句子输入至专有短语纠错模型中的分类模块,识别出样本句子的分类标签,以训练所述专有短语纠错模型,直至满足训练结束条件。
在一些实施例中,所述的文本纠错方法中,所述构建基于目标业务领域的训练样本,包括:
获取文本数据源,将文本数据源中的样本文本进行分句,得到样本句子集;所述样本句子集中包括样本句子;
从样本句子集中筛选出携带一个专有短语的第一样本句子和不携带含专有短语的第二样本句子;
确定第一样本句子的分类标签为该样本句子携带的专有短语,第二样本句子的分类标签为不存在专有短语;
第一次更新样本句子集,得到第一次更新后的样本句子集;
按照预设的修改规则修改第一样本句子中的专有短语,扩增出多个携带错误专有短语的、分类标签为该专有短语的第一样本句子;
第二次更新样本句子集,得到训练样本集。
在一些实施例中,所述的文本纠错方法中,按照预设的修改规则修改第一样本句子中的专有短语,包括:
对第一样本句子的专有短语进行多种类型的修改,确定出多种类型的错误专有短语;
其中,所述多种类型的修改包括:增、删、音近字替换、形近字替换。
在一些实施例中还提供一种文本纠错装置,所述装置包括:
判断模块,用于将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语;其中,所述专有短语纠错模型是基于目标业务领域的、携带专有短语的样本句子训练得到的;
第一确定模块,用于在判断目标句子中不存在专有短语时,确定纠错结果为所述目标句子中不存在专有短语;
第二确定模块,用于在判断目标句子中存在专有短语时,确定出所述目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段;
第三确定模块,用于当判断目标片段与专有短语标签相同时,确定纠错结果为所述目标句子中专有短语正确;
第四确定模块,用于当判断目标片段与专有短语标签不一致时,确定目标句子中的专有短语错误,并确定纠错结果为专有短语标签和目标片段;其中,所述专有短语标签表征错误的目标片段对应的正确专有短语。
在一些实施例中还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行所述的文本纠错方法的步骤。
在一些实施例中还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的文本纠错方法的步骤。
本申请实施中提供一种文本纠错方法、装置、电子设备及介质,将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型分析目标句子的语义,判断所述目标句子中是否存在专有短语;当存在时,基于句子的语义输出目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段,再根据目标片段判断出专有短语是否错误,如果错误,则同时输出错误的专有短语和正确的专有短语,便于纠错;在所述纠错方法中,基于句子语义分析有无专有短语,以及识别出句子对应的目标专有短语,准确度更高且计算量少;同时,还基于目标专有短语精确识别出句子中的错误专有短语,同时输出正确的和错误的专有短语,便于用户修改。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所述文本纠错方法的方法流程图;
图2示出了本申请实施例所述将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语;
图3示出了本申请实施例所述根据专有短语标签从所述目标句子中确定出目标片段,根据专有短语标签从所述目标句子中确定出目标片的方法示意图;
图4示出了本申请实施例所述另一种文本纠错方法的方法流程图;
图5示出了本申请实施例所述专有短语纠错模型中的分类模块的训练方法示意图;
图6示出了本申请实施例所述文本纠错装置的结构示意图;
图7示出了本申请实施例所述电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
文本内容审核中,专有短语是指表述必须严格按照规定的表述方式,不允许有任何修改的短语。比如在医学领域中,表达病人病症时有一个专用表述“雷诺五联征”,不能写作“雷诺五连症”。比如在法律领域,表达善意第三人,不能写作“善意对三人”、“善意的第三人”,专有短语中的错别字、多字、少字、谐音字等错误,都会导致文本内容有瑕疵,严重的甚至会改变文本内容的意思;比如盈利和营利所表达的意思完全不同,营利:指主观上谋取利润,但客观上可能没有获得利润;盈利:指客观上获得利润,即客观上扣除成本后获得利润;在进行表述时,例如以营利为目的,若写作以盈利为目的,则差异很大,还很容易由于惯性思维检查不出来这个错误。
现有的文本内容审查中的纠错方法是构建一个专有短语词典,将待检测句子切分成不同长度的片段,每个片段分别和专有短语词典中的每个专有短语计算编辑距离,当编辑距离小于一定阈值,并且待检测句子中没有该专有短语时,认为待检测句子错误使用了专有短语。这种方法完全基于编辑距离匹配,没有考虑句子语义;同时检测过程中需要计算每个片段和专有短语词典中的每个专有短语的编辑距离,计算量大。
基于此,本申请实施中提供一种文本纠错方法、装置、电子设备及介质,将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型分析目标句子的语义,判断所述目标句子中是否存在专有短语;当存在时,基于句子的语义输出目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段,再根据目标片段判断出专有短语是否错误,如果错误,则同时输出错误的专有短语和正确的专有短语,便于纠错;在所述纠错方法中,基于句子语义分析有无专有短语,以及识别出句子对应的目标专有短语,准确度更高且计算量少;同时,还基于目标专有短语精确识别出句子中的错误专有短语,同时输出正确的和错误的专有短语,便于用户修改。
示例性的,现有技术完全基于编辑距离匹配,没有考虑句子语义;比如“经过检验发现,该病人为雷诺五连症。”现有检测技术,完全根据字符串距离来进行判断,无法从句子语义角度,先判断出该句是医学相关话题。现有技术中检测需要计算多次编辑距离,计算量大。仍以上句为例,为了检测出专用短语的错误使用,因为不知道该句是否存在错误使用医学专项表述,以及错误的可能位置。所以需要计算句子中多个ngram片段和专有短语中词典中正确表述“雷诺五联征”“唐氏综合征”等的编辑距离,如“经过检验发”,“该病人为雷”,“雷诺五连症”,等,分别和每个专有短语计算编辑距离,计算量较大。
请参照图1,图1示出了本申请实施例所述文本纠错方法的方法流程图,具体的,所述方法包括以下步骤S101-S105;
S101、将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语;其中,所述专有短语纠错模型是基于目标业务领域的、携带专有短语的样本句子训练得到的;
S102、若不存在,则确定纠错结果为所述目标句子中不存在专有短语;
S103、若存在,则确定出所述目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段;
S104、当判断目标片段与专有短语标签相同时,确定纠错结果为所述目标句子中专有短语正确;
S105、当判断目标片段与专有短语标签不一致时,确定目标句子中的专有短语错误,并确定纠错结果为专有短语标签和目标片段;其中,所述专有短语标签表征错误的目标片段对应的正确专有短语。
本申请实施中提供一种文本纠错方法,将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型分析目标句子的语义,判断所述目标句子中是否存在专有短语;当存在时,基于句子的语义输出目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段,再根据目标片段判断出专有短语是否错误,如果错误,则同时输出错误的专有短语和正确的专有短语,便于纠错;在所述纠错方法中,基于句子语义分析有无专有短语,以及识别出句子对应的目标专有短语,准确度更高且计算量少;同时,还基于目标专有短语精确识别出句子中的错误专有短语,同时输出正确的和错误的专有短语,便于用户修改。
在所述步骤S101中,将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语。
具体的,请参照图2,所述将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语,包括以下步骤S201-S203;
S201、将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型中的分类模块分析所述目标句子的语义,识别出目标句子的分类标签;其中,所述分类标签包括专有短语标签和不存在专有短语标签;
S202、当目标句子的分类标签为不存在专有短语标签时,判断所述目标句子中不存在专有短语;
S203、当目标句子的分类标签为专有短语标签,判断所述目标句子中存在专有短语。
具体的,将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型中的分类模块分析所述目标句子的语义,识别出目标句子的分类标签,包括:将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型中的分类模块,将所述目标句子转换为目标语义向量,处理所述目标语义向量,识别出目标句子的分类标签。
这里,所述专有短语纠错模型中的分类模块采用textCNN模型,所述分类模块的结构包括:嵌入层、卷积层、池化层、全连接层、softmax层。textCNN是一个利用卷积神经网络进行文本分类的模型。所述嵌入层将输入至分类模型中的句子表示为文本向量,并将句子的文本向量输入至卷积层。卷积层,也可以称之为卷积神经网络。卷积神经网络可以很好地提取文本向量的特征,从而提取文本的局部片段特征,通过叠加多层的卷积网络,可以提取到整个句子的语义特征。另外,卷积运算非常高效,可以有效利用GPU的并行性,推理速度非常快。
本申请实施例中,所述专有短语纠错模型是基于目标业务领域的、携带专有短语的样本句子训练得到的;所述携带有专有短语的样本句子,包括携带有正确专有短语的样本句子和多个携带有错误专有短语的样本句子;多个错误专有短语的样本句子不同。也即,多个错误专有短语的样本句子中,错误专有短语不同。
通过所述专有短语纠错模型中的分类模块分析所述目标句子的语义,识别出目标句子的分类标签,这里,所述目标句子的分类标签包括专有短语标签和不存在专有短语标签;针对目标领域中的K个专有短语来说,所述分类模块有K+1个标签,也就是说,目标句子的分类标签共有K+1个类别;其中一个标签为不存在专有短语,其他K个标签均为专有短语。
这里,分类模块可以输出具体的类别标签,也可以输出类别标签编号,例如当识别到不存在专有短语标签时,输出不存在专有短语标签的编号K+1;当识别到专有短语标签-善意第三人时,输出不存在专有短语标签的编号J, J的取值为1-K。
也就是说,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语,也就是将所述目标句子进行分类,得到目标句子的分类标签,根据目标句子的分类标签确定目标句子是否存在专有短语。
示例性的,假设目标领域仅有一个专有短语“雷诺五联征”,则训练出的textCNN模型(分类模块)是一个二分类模型。如果输入句子“通过病人各项指标,可以看到,病人属于雷诺五联症”,textCNN模型输出为(0.91, 0.09),表示该句中存在“雷诺五联征”的概率为0.91,不存在专有短语的概率为0,09,确定该句子中存在专有短语“雷诺五联征”。
本申请实施例中,通过对句子语义进行分析,能够更加准确的识别出句子是否存在专有短语,以及对应的专有短语标签;因为专业领域中的专有短语在使用时,往往有特定的语境;例如,船舶、航空器和机动车等的物权的设立、变更、转让和消灭,未经登记,不得对抗善意第三人;在textCNN模型识别句子类别的过程中,当识别到“船舶、航空器和机动车等的物权的设立、变更、转让和消灭,未经登记,不得对抗善人”时,根据语境,船舶、航空器和机动车等的物权的设立、变更、转让和消灭,未经登记,不得对抗后面,有很大概率就应该是善意第三人。因此,即使输入句子为“即使善人”和“善意第三人” 差别较大,依然能够识别出,输入的目标句子的类别标签为“善意第三人”。
在所述步骤S102中,若不存在,则确定纠错结果为所述目标句子中不存在专有短语。
具体的,当目标句子的分类标签为不存在专有短语标签时,判断所述目标句子中不存在专有短语,则输出纠错结果为所述目标句子中不存在专有短语。
实际中,输出的纠错结果不一定为“不存在专有短语”,可以为“不存在”,或者“不存在专有短语”对应的编号K+1,等等;甚至可以输出“句子正常”等纠错结果。
在所述步骤S103中,确定出所述目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段。
这里,输入目标句子至专有短语纠错模型后,专有短语纠错模型的分类模块输出句子的专有短语标签。例如“通过病人各项指标,可以看到,病人属于雷诺五联症”对应的专有短语标签为“雷诺五联征”。
请参照图3,根据专有短语标签从所述目标句子中确定出目标片段,根据专有短语标签从所述目标句子中确定出目标片段,包括以下步骤S301-S302;
S301、基于专有短语标签,将所述目标句子划分为多个片段;
S302、比对专有短语标签和目标句子中每一片段的编辑距离,确定出专有短语标签匹配的目标片段。
这里,基于专有短语标签,将所述目标句子划分为多个片段,有多种方式。
在一些实施例中,基于专有短语标签中的词语、字,与目标句子中的词语、字进行匹配,快速定位出目标片段的位置,从而在目标片段的位置处划分处多个片段,大大减少了目标句子划分出的片段的数量。
例如,专有短语标签-善意第三人,从“船舶、航空器和机动车等的物权的设立、变更、转让和消灭,未经登记,不得对抗善意的人”;根据“善意第三人”中的“善意”,快速匹配到句子中的“善意”,从而划分出“不得对抗”、“对抗善意”、“善意的人”、“不得对抗善”、“对抗善意的”、“抗善意的人”等多个片段;大大减少了目标句子划分出的片段的数量。
划分出片段后,也仅仅比对专有短语标签和目标句子中每一片段的编辑距离,即可确定出专有短语标签匹配的目标片段时,无需将划分出的片段与专有短语词典中的每个专有短语进行编辑距离计算,计算量大大减少。例如,“不得对抗”、“对抗善意”、“善意的人”、“不得对抗善”、“对抗善意的”、“抗善意的人”仅仅需要计算与“善意第三人”的编辑距离即可,无需计算与“不当得利”、“善意取得”等的编辑距离,计算量大大减少。
比对专有短语标签和目标句子中每一片段的编辑距离,确定编辑距离最小的片段为专有短语标签匹配的目标片段。例如,确定“善意的人”为“善意第三人”的目标片段,“雷诺五联症”为“雷诺五联征”的目标片段。
步骤S104、当判断目标片段与专有短语标签相同时,确定纠错结果为所述目标句子中专有短语正确。
也就是说,当目标片段与专有短语标签相同,例如划分出的“善意第三人”与分类标签“善意第三人”完全相同,则可以确定目标句子中的专有短语是正确的。
确定纠错结果为所述目标句子中专有短语正确,不一定要输出“专有短语正确”,还可以输出“正确”、“正常”等。
在所述步骤S105中,当判断目标片段与专有短语标签不一致时,确定目标句子中的专有短语错误,并确定纠错结果为专有短语标签和目标片段;其中,所述专有短语标签表征错误的目标片段对应的正确专有短语。
在判断出目标句子中的专有短语错误时,仅仅输出“专有短语错误”这一结果,还得麻烦工作人员再次检查哪里有错误,如何改正;本申请实施例中,确定纠错结果为专有短语标签和目标片段,并且同时输出专有短语标签和目标片段,专有短语标签表征错误的目标片段对应的正确专有短语,工作人员可以快速确定出哪个专有词汇错误,以及如何修改。例如,“善意的人”为“善意第三人”的目标片段,同时输出“善意的人”、“善意第三人”,则可以快速看出,善意的人应该修改为“善意第三人”;同时输出“雷诺五联症”、“雷诺五联征”,快速确定“雷诺五联症”应修改为“雷诺五联征”。
在输出纠错结果时,可以按照预设模板输出,例如输出的纠错结果为“善意的人”错误,建议修改为“善意第三人”。
请参照图4,在本申请实施例中,将目标业务领域的目标句子输入至训练好的专有短语纠错模型之前,所述方法还包括以下步骤S401-S402;
S401、将目标业务领域的目标文本输入至预处理模块,通过预处理模块清洗所述目标文本,得到清洗后的目标文本;
S402、将清洗后的目标文本划分为至少一个目标句子。
也就是说,在实际使用中,也可以直接输入目标文本,先通过预处理模块划分出目标文本中的目标句子,再通过专有短语纠错模型检测出目标句子的错误专有短语,效率更快。
通过预处理模块清洗所述目标文本,即,只保留数字、汉字、英文、标点,而去除其他的东西(比如表情)等;或者,还去除目标文本中的停用词。
在一些实施例中,也可以先划分出目标句子,再对目标句子进行清洗。
请参照图5,本申请实施例所述的文本纠错方法中,所述专有短语纠错模型中的分类模块,是基于以下训练方法训练得到的,所述训练方法包括以下步骤S501-S502;
S501、构建基于目标业务领域的训练样本集;所述训练样本集中包括携带专有短语的样本句子,每一样本句子对应一分类标签;
S502、将所述训练样本集中的样本句子输入至专有短语纠错模型中的分类模块,识别出样本句子的分类标签,以训练所述专有短语纠错模型,直至满足训练结束条件。
这里,所述训练结束条件为达到预设训练次数,或者分类模块的损失函数输出值符合预设阈值条件。
将所述训练样本集中的样本句子输入至专有短语纠错模型中的分类模块,识别出样本句子的分类标签后,将识别出的分类标签和样本句子对应的分类标签输入损失函数,判断分类模块的损失函数输出值符合预设阈值条件,若符合,则停止训练,得到训练好的专有短语纠错模型中的分类模块;若不符合,则重复训练过程。
需要说明的是,所述专有短语纠错模型中的分类模块可以单独训练,也可以与所述专有短语纠错模型一并训练。
所述构建基于目标业务领域的训练样本,包括:
获取文本数据源,将文本数据源中的样本文本进行分句,得到样本句子集;所述样本句子集中包括样本句子;
从样本句子集中筛选出携带一个专有短语的第一样本句子和不携带含专有短语的第二样本句子;
确定第一样本句子的分类标签为该样本句子携带的专有短语,第二样本句子的分类标签为不存在专有短语;
第一次更新样本句子集,得到第一次更新后的样本句子集;
按照预设的修改规则修改第一样本句子中的专有短语,扩增出多个携带错误专有短语的、分类标签为该专有短语的第一样本句子;
第二次更新样本句子集,得到训练样本集。
具体的,按照预设的修改规则修改第一样本句子中的专有短语,包括:
对第一样本句子的专有短语进行多种类型的修改,确定出多种类型的错误专有短语;
其中,所述多种类型的修改包括:增、删、音近字替换、形近字替换。
所述获取文本数据源,具体的,可以收集网络上开源的文本数据集,使用爬虫爬取目标领域相关网站的文本数据等。
将收集到的文本数据源中的样本文本进行分句,并且进一步过滤,保留含有一个专有短语的样本句子和完全不含专有短语的样本句子。若句子中含有两个或两个以上专有短语,则筛除该句子。此时,所有的样本句子的标签都是正常的,保留含有一个专有短语的样本句子的分类标签为该专有短语,完全不含专有短语的样本句子的分类标签为不存在专有短语。
按照预设的修改规则修改第一样本句子中的专有短语,扩增出多个携带错误专有短语的、分类标签为该专有短语的第一样本句子;即对含有一个专有短语的句子,进行修改,获得多条标签为该专有短语的句子;具体修改方式有如下四种。
一:增。在句子中的专有短语中随机选择一个字,该字不应是专有短语的首字和尾字,在该字前面随机增加一个字。
二:删。在句子中的专有短语中随机选择一个字并删除。
三:音近字替换。在该句子中的专有短语中随机选择一个字,并使用该字的音近字替换改字。
四:形近字替换。在该句子中的专有短语中随机选择一个字,并使用改字的形近字替换改字。
具体操作上,假设样本句子中的专有短语为s,s的长度为L,则最多修改的字符数为 max(L/3, 1)。每个句子修改生成5条分类标签为s的句子。每次生成扩增的样本句子时,从(1,2,...,L/3)中随机选择一个数字n,作为修改操作的字符数量,然后,从上面的四种修改操作中随机选取n个修改操作,同时从样本句子中随机选择n个字符对应选取的n个操作,对样本句子进行修改,修改得到的样本句子加入到样本句子集,以更新样本句子集。
这里,如果修改得到的样本句子已经生成过,则重复上面的修改操作,直到得到的样本句子可用。
本申请实施例中,在基于目标业务领域的、携带专有短语的样本句子训练专有短语纠错模型时,不仅用携带正确专有短语的样本句子进行训练,还扩增出多个携带错误专有短语的样本句子进行训练,从而使得训练好的专有短语纠错模型,能够精确识别出错误使用专有短语的句子的类别标签,提高了文本的纠错精度。
基于同一发明构思,本申请实施例中还提供了与文本纠错方法对应的文本纠错装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本纠错方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参照图6,图6示出了本申请实施例所述文本纠错装置的结构示意图;具体的,一种文本纠错装置,包括:
判断模块601,用于将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语;其中,所述专有短语纠错模型是基于目标业务领域的、携带专有短语的样本句子训练得到的;
第一确定模块602,用于在判断目标句子中不存在专有短语时,确定纠错结果为所述目标句子中不存在专有短语;
第二确定模块603,用于在判断目标句子中存在专有短语时,确定出所述目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段;
第三确定模块604,用于当判断目标片段与专有短语标签相同时,确定纠错结果为所述目标句子中专有短语正确;
第四确定模块605,用于当判断目标片段与专有短语标签不一致时,确定目标句子中的专有短语错误,并确定纠错结果为专有短语标签和目标片段;其中,所述专有短语标签表征错误的目标片段对应的正确专有短语。
基于此,本申请实施中提供一种文本纠错装置,将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型分析目标句子的语义,判断所述目标句子中是否存在专有短语;当存在时,基于句子的语义输出目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段,再根据目标片段判断出专有短语是否错误,如果错误,则同时输出错误的专有短语和正确的专有短语,便于纠错;在所述纠错方法中,基于句子语义分析有无专有短语,以及识别出句子对应的目标专有短语,准确度更高且计算量少;同时,还基于目标专有短语精确识别出句子中的错误专有短语,同时输出正确的和错误的专有短语,便于用户修改。
在一些实施例中,所述的文本纠错装置中,所述判断模块,在将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型判断所述目标句子中是否存在专有短语时,具体用于:
将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型中的分类模块分析所述目标句子的语义,识别出目标句子的分类标签;其中,所述分类标签包括专有短语标签和不存在专有短语标签;
当目标句子的分类标签为不存在专有短语标签时,判断所述目标句子中不存在专有短语;
当目标句子的分类标签为专有短语标签,判断所述目标句子中存在专有短语。
在一些实施例中,所述的文本纠错装置中所述第二确定模块,在根据专有短语标签从所述目标句子中确定出目标片段时,具体用于:
基于专有短语标签,将所述目标句子划分为多个片段;
比对专有短语标签和目标句子中每一片段的编辑距离,确定出专有短语标签匹配的目标片段。
在一些实施例中,所述的文本纠错装置中,还包括预处理模块,所述预处理模块,用于在将目标业务领域的目标句子输入至训练好的专有短语纠错模型之前,将目标业务领域的目标文本输入至预处理模块,通过预处理模块清洗所述目标文本,得到清洗后的目标文本;
将清洗后的目标文本划分为至少一个目标句子。
在一些实施例中,所述的文本纠错装置中还包括训练模块,所述训练模块用于基于以下训练方法训练所述专有短语纠错模型中的分类模块;
构建基于目标业务领域的训练样本集;所述训练样本集中包括携带专有短语的样本句子,每一样本句子对应一分类标签;
将所述训练样本集中的样本句子输入至专有短语纠错模型中的分类模块,识别出样本句子的分类标签,以训练所述专有短语纠错模型,直至满足训练结束条件。
在一些实施例中,所述的文本纠错装置中的训练模块,在构建基于目标业务领域的训练样本时,具体用于:
获取文本数据源,将文本数据源中的样本文本进行分句,得到样本句子集;所述样本句子集中包括样本句子;
从样本句子集中筛选出携带一个专有短语的第一样本句子和不携带含专有短语的第二样本句子;
确定第一样本句子的分类标签为该样本句子携带的专有短语,第二样本句子的分类标签为不存在专有短语;
第一次更新样本句子集,得到第一次更新后的样本句子集;
按照预设的修改规则修改第一样本句子中的专有短语,扩增出多个携带错误专有短语的、分类标签为该专有短语的第一样本句子;
第二次更新样本句子集,得到训练样本集。
在一些实施例中,所述的文本纠错装置中的训练模块,在按照预设的修改规则修改第一样本句子中的专有短语时,具体用于:
对第一样本句子的专有短语进行多种类型的修改,确定出多种类型的错误专有短语;
其中,所述多种类型的修改包括:增、删、音近字替换、形近字替换。
基于同一发明构思,本申请实施例中还提供了与文本纠错方法对应的电子设备,由于本申请实施例中的电子设备解决问题的原理与本申请实施例上述文本纠错方法相似,因此电子设备的实施可以参见方法的实施,重复之处不再赘述。
请参照图7,图7示出了本申请实施例所述电子设备的结构示意图,具体的,所述电子设备700包括:处理器701、存储器702和总线,所述存储器702存储有所述处理器701可执行的机器可读指令,当电子设备700运行时,所述处理器701与所述存储器702之间通过总线通信,所述机器可读指令被所述处理器701执行时执行所述的文本纠错方法的步骤。
基于同一发明构思,本申请实施例中还提供了与文本纠错方法对应的计算机可读存储介质,由于本申请实施例中的计算机可读存储介质解决问题的原理与本申请实施例上述文本纠错方法相似,因此计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的文本纠错方法的步骤。
在本申请实施例中,所述文本纠错方法可以运行于终端设备或者是服务器;其中,终端设备可以为本地终端设备,当文本纠错方法运行于服务器时,该文本纠错方法则可以基于云交互***来实现与执行,其中,云交互***至少包括服务器和客户端设备(也即终端设备)。
具体的,以应用于终端设备为例,当文本纠错方法运行于终端设备上时,文本纠错方法用于识别出句子中错误的专有短语,并且同时确定出该错误的专有短语对应的正确专有短语。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种文本纠错方法,其特征在于,所述方法包括:
将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型中的分类模块分析所述目标句子的语义,识别出目标句子的分类标签;其中,所述分类标签包括专有短语标签和不存在专有短语标签;所述专有短语纠错模型是基于目标业务领域的、携带专有短语的样本句子训练得到的;
当目标句子的分类标签为不存在专有短语标签时,判定所述目标句子中不存在专有短语;
当目标句子的分类标签为专有短语标签,判定所述目标句子中存在专有短语;
若不存在,则确定纠错结果为所述目标句子中不存在专有短语;
若存在,则确定出所述目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段;
当判断目标片段与专有短语标签相同时,确定纠错结果为所述目标句子中专有短语正确;
当判断目标片段与专有短语标签不一致时,确定目标句子中的专有短语错误,并确定纠错结果为专有短语标签和目标片段;其中,所述专有短语标签表征错误的目标片段对应的正确专有短语。
2.根据权利要求1所述的文本纠错方法,其特征在于,根据专有短语标签从所述目标句子中确定出目标片段,包括:
基于专有短语标签,将所述目标句子划分为多个片段;
比对专有短语标签和目标句子中每一片段的编辑距离,确定出专有短语标签匹配的目标片段。
3.根据权利要求1所述的文本纠错方法,其特征在于,将目标业务领域的目标句子输入至训练好的专有短语纠错模型之前,所述方法还包括:
将目标业务领域的目标文本输入至预处理模块,通过预处理模块清洗所述目标文本,得到清洗后的目标文本;
将清洗后的目标文本划分为至少一个目标句子。
4.根据权利要求1所述的文本纠错方法,其特征在于,所述专有短语纠错模型中的分类模块,是基于以下训练方法训练得到的:
构建基于目标业务领域的训练样本集;所述训练样本集中包括携带专有短语的样本句子,每一样本句子对应一分类标签;
将所述训练样本集中的样本句子输入至专有短语纠错模型中的分类模块,识别出样本句子的分类标签,以训练所述专有短语纠错模型,直至满足训练结束条件。
5.根据权利要求4所述的文本纠错方法,其特征在于,所述构建基于目标业务领域的训练样本,包括:
获取文本数据源,将文本数据源中的样本文本进行分句,得到样本句子集;所述样本句子集中包括样本句子;
从样本句子集中筛选出携带一个专有短语的第一样本句子和不携带含专有短语的第二样本句子;
确定第一样本句子的分类标签为该样本句子携带的专有短语,第二样本句子的分类标签为不存在专有短语;
第一次更新样本句子集,得到第一次更新后的样本句子集;
按照预设的修改规则修改第一样本句子中的专有短语,扩增出多个携带错误专有短语的、分类标签为该专有短语的第一样本句子;
第二次更新样本句子集,得到训练样本集。
6.根据权利要求5所述的文本纠错方法,其特征在于,按照预设的修改规则修改第一样本句子中的专有短语,包括:
对第一样本句子的专有短语进行多种类型的修改,确定出多种类型的错误专有短语;
其中,所述多种类型的修改包括:增、删、音近字替换、形近字替换。
7.一种文本纠错装置,其特征在于,所述装置包括:
判断模块,用于将目标业务领域的目标句子输入至训练好的专有短语纠错模型,通过所述专有短语纠错模型中的分类模块分析所述目标句子的语义,识别出目标句子的分类标签;其中,所述分类标签包括专有短语标签和不存在专有短语标签;所述专有短语纠错模型是基于目标业务领域的、携带专有短语的样本句子训练得到的;
当目标句子的分类标签为不存在专有短语标签时,判断所述目标句子中不存在专有短语;
当目标句子的分类标签为专有短语标签,判断所述目标句子中存在专有短语;
第一确定模块,用于在判断目标句子中不存在专有短语时,确定纠错结果为所述目标句子中不存在专有短语;
第二确定模块,用于在判断目标句子中存在专有短语时,确定出所述目标句子对应的专有短语标签,并根据专有短语标签从所述目标句子中确定出目标片段;
第三确定模块,用于当判断目标片段与专有短语标签相同时,确定纠错结果为所述目标句子中专有短语正确;
第四确定模块,用于当判断目标片段与专有短语标签不一致时,确定目标句子中的专有短语错误,并确定纠错结果为专有短语标签和目标片段;其中,所述专有短语标签表征错误的目标片段对应的正确专有短语。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任意一项所述的文本纠错方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任意一项所述的文本纠错方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211552883.8A CN115630645B (zh) | 2022-12-06 | 2022-12-06 | 一种文本纠错方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211552883.8A CN115630645B (zh) | 2022-12-06 | 2022-12-06 | 一种文本纠错方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115630645A CN115630645A (zh) | 2023-01-20 |
CN115630645B true CN115630645B (zh) | 2023-04-07 |
Family
ID=84911241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211552883.8A Active CN115630645B (zh) | 2022-12-06 | 2022-12-06 | 一种文本纠错方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115630645B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926306A (zh) * | 2021-03-08 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、设备以及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11222185B2 (en) * | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
CN111507104B (zh) * | 2020-03-19 | 2022-03-25 | 北京百度网讯科技有限公司 | 建立标签标注模型的方法、装置、电子设备和可读存储介质 |
CN112580324B (zh) * | 2020-12-24 | 2023-07-25 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备以及存储介质 |
CN114118067A (zh) * | 2021-12-02 | 2022-03-01 | 北京百度网讯科技有限公司 | 术语名词纠错方法及装置、电子设备和介质 |
CN115033773A (zh) * | 2022-06-27 | 2022-09-09 | 浙江工业大学 | 一种基于在线搜索辅助的中文文本纠错方法 |
-
2022
- 2022-12-06 CN CN202211552883.8A patent/CN115630645B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926306A (zh) * | 2021-03-08 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115630645A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
CN106897439B (zh) | 文本的情感识别方法、装置、服务器以及存储介质 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及*** | |
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
RU2607975C2 (ru) | Построение корпуса сравнимых документов на основе универсальной меры похожести | |
CN112836052B (zh) | 一种汽车评论文本观点挖掘方法、设备及存储介质 | |
US20180025121A1 (en) | Systems and methods for finer-grained medical entity extraction | |
EP3591539A1 (en) | Parsing unstructured information for conversion into structured data | |
CN112926345B (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
CN110705262A (zh) | 一种改进的应用于医技检查报告的智能纠错方法 | |
CN115062148A (zh) | 一种基于数据库的风险控制方法 | |
EP1471440A2 (en) | System and method for word analysis | |
Agustiningsih et al. | Sentiment analysis of COVID-19 vaccine on Twitter social media: systematic literature review | |
Hashmi et al. | Feedback learning: Automating the process of correcting and completing the extracted information | |
Oo et al. | An analysis of ambiguity detection techniques for software requirements specification (SRS) | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN112784601A (zh) | 关键信息提取方法、装置、电子设备和存储介质 | |
Kumar et al. | Design and implementation of nlp-based spell checker for the tamil language | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN115630645B (zh) | 一种文本纠错方法、装置、电子设备及介质 | |
CN114117082B (zh) | 用于对待校正数据校正的方法、设备和介质 | |
CN115034209A (zh) | 文本分析方法、装置、电子设备以及存储介质 | |
CN115908027A (zh) | 一种金融长文本复核***的金融数据一致性审核模块 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |