CN115983266A - 用于银行征信数据审核的拼音变体文本识别方法及*** - Google Patents
用于银行征信数据审核的拼音变体文本识别方法及*** Download PDFInfo
- Publication number
- CN115983266A CN115983266A CN202310018963.3A CN202310018963A CN115983266A CN 115983266 A CN115983266 A CN 115983266A CN 202310018963 A CN202310018963 A CN 202310018963A CN 115983266 A CN115983266 A CN 115983266A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- recognized
- character string
- target text
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种用于银行征信数据审核的拼音变体文本识别方法及***,包括:基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到目标待识别文本的转换拼音字符串;拼音置信度模型用于:当任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对拼音变体进行转换;基于文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到拼接拼音字符串;当拼接拼音字符串中包含敏感词拼音串时,确定目标待识别文本为违规文本。本发明能够有效检测出拼音变体,提升拼音变体文本识别准确率,并有效地提升银行征信数据审核的效率。
Description
技术领域
本发明涉及文本识别技术领域,尤其涉及一种用于银行征信数据审核的拼音变体文本识别方法及***。
背景技术
目前,在用户提交的征信数据中一部分需要用户进行填写,包括家庭住址,单位信息等。部分用户没有贷款意图,但会通过这部分内容表达对银行的不满,以及个人情绪的发泄。这部分违规数据需要在数据审核阶段检出并将其剔除,若数据存在审核不严露出的情况,银行会收到央行严重处罚,严重的会被取消调取征信的权利,使贷款业务受到影响。
通常为了提升效率,会使用机器审核结合人工审核的方式。常规的违规信息检测可以通过敏感词匹配以及语义模型识别实现,对于违规内容中的变体内容识文本识别的难点,特别是拼音变体,一方面要跟汉字产生关联,一方面要区分英语以及英文字母的干扰,正确识别相对较困难。
因此,亟需提供一种技术方案解决上述技术问题。
发明内容
为解决上述技术问题,本发明提供了一种用于银行征信数据审核的拼音变体文本识别方法及***。
本发明的用于银行征信数据审核的拼音变体文本识别方法的技术方案如下:
基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串;其中,所述拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换;
当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;
获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。
本发明的用于银行征信数据审核的拼音变体文本识别方法的有益效果如下:
本发明的方法能够有效检测出拼音变体,提升了拼音变体文本识别的准确率,并有效地提升了银行征信数据审核的效率。
在上述方案的基础上,本发明的用于银行征信数据审核的拼音变体文本识别方法还可以做如下改进。
进一步,还包括:
获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
进一步,还包括:
基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量;
当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串;当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。
进一步,所述基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取的步骤,包括:
基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每个第一拼音字符串的判断结果;
当任一第一拼音字符串的判断结果为是时,将该第一拼音字符串确定为原始拼音字符串;当任一第一拼音字符串的判断结果为否时,将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串,直至得到所述目标待识别文本中的每个原始拼音字符串。
进一步,所述拼音置信度模型为预训练的n-gram模型。
进一步,所述NER模型为:预训练的基于transformer的深度学习模型。
本发明的用于银行征信数据审核的拼音变体文本识别***的技术方案如下:
包括:转换模块、处理模块和识别模块;
所述转换模块用于:基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串;其中,所述拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换;
所述处理模块用于:当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;
所述识别模块用于:获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。
本发明的用于银行征信数据审核的拼音变体文本识别***的有益效果如下:
本发明的***能够有效检测出拼音变体,提升了拼音变体文本识别的准确率,并有效地提升了银行征信数据审核的效率。
在上述方案的基础上,本发明的用于银行征信数据审核的拼音变体文本识别***还可以做如下改进。
进一步,还包括:预处理模块;
所述预处理模块用于:获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
进一步,还包括:提取模块;所述提取模块用于:
基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量;
当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串;当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。
进一步,所述提取模块具体用于:
基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每个第一拼音字符串的判断结果;
当任一第一拼音字符串的判断结果为是时,将该第一拼音字符串确定为原始拼音字符串;当任一第一拼音字符串的判断结果为否时,将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串,直至得到所述目标待识别文本中的每个原始拼音字符串。
附图说明
图1示出了本发明提供的用于银行征信数据审核的拼音变体文本识别方法的实施例的流程示意图;
图2示出了本发明提供的用于银行征信数据审核的拼音变体文本识别***的实施例的结构示意图。
具体实施方式
图1示出了本发明提供的用于银行征信数据审核的拼音变体文本识别方法的实施例的流程示意图。如图1所示,该方法包括如下步骤:
步骤110:基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串。
其中,①目标待识别文本为:从银行征信数据审核过程提取的文本数据,该文本是经过数据预处理后所得到的文本。转换拼音字符串为:由汉字转换为拼音所生成的字符串。例如,汉字为:“你好”,对应的转换拼音字符串为:“ni hao”。②拼音置信度模型为:预训练的n-gram模型。该模型的训练语料为文本和对应人工标注拼音的对应关系数据。③拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换。
需要说明的是,由于训练n-gram模型的语料为汉字拼音的组合,这里如果出现多音字,则把每个多音字结合到前序的字符串中,包括文字和发音,进入n-gram模型进行计算,即可到困惑度得分,经过转换即可得到置信度得分。
步骤120:当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串。
其中,①原始拼音字符串为:目标待识别文本中原始存在的拼音字符串。②按照目标待识别文本的文本内容顺序,对每个转换拼音字符串和每个原始拼音字符串进行拼接。例如,目标待识别文本的文本内容顺序为:字符串1→字符串2→字符串3→字符串4→字符串5;其中,字符串2和字符串3进行了转换,得到第一转换拼音字符串和第二转换拼音字符串,字符串1、字符串4、字符串5分别为第一原始拼音字符串、第二原始拼音字符串和第三原始拼音字符串,此时拼接拼音字符串为:第一原始拼音字符串→第一转换拼音字符串→第二转换拼音字符串→第二原始拼音字符串→第三原始拼音字符串。
步骤130:获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。
其中,①敏感词库中包括多个敏感词,敏感词可以是由汉字构成,也可以是由拼音构成,还可以是由汉字与拼音的组合构成,在此不设限制。②获取敏感词拼音串的过程与获目标待识别文本中的拼音串的过程相同,在此不过多赘述。例如,敏感词为“滚蛋”时,其对应的敏感词拼音串为“gun dan”。
需要说明的是,在本实施例中,基于字典树的串匹配计算拼接拼音字符串中是否包含敏感词拼音串。
较优地,还包括:
获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
其中,①原始待识别文本为:从银行征信数据审核过程中获取的未经任何处理的文本。②文本预处理的过程包括但不限于:a.全角转半角;b.大写转小写;c.繁体转简体;d.删除汉字和英文字母以外其他内容。
较优地,还包括:
基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量。
其中,NER模型为:预训练的基于transformer的深度学习模型。该模型采用CRF作为损失,训练数据为人工标注的拼音串语料。
当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串。
具体地,当目标待识别文本的原始拼音字符串的数量为至少一个时,则判定目标待识别文本中存在原始拼音字符串,执行当目标待识别文本中存在原始拼音字符串时,基于目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到目标待识别文本的拼接拼音字符串的步骤。
当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。
具体地,当目标待识别文本的原始拼音字符串的数量为零时,则判定目标待识别文本中不存在原始拼音字符串,执行当目标待识别文本中不存在原始拼音字符串时,基于目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到目标待识别文本的拼接拼音字符串。
较优地,所述基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取的步骤,包括:
基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每个第一拼音字符串的判断结果。
其中,①第一拼音字符串为:NER模型从目标待识别文本中提取的拼音字符串。②第二拼音字符串为:根据最大前向匹配算法所提取的拼音字符串。③依次提取的过程为:从目标待识别文本的首个字符串开始到最后一个字符串为止。
当任一第一拼音字符串的判断结果为是时,将该第一拼音字符串确定为原始拼音字符串;当任一第一拼音字符串的判断结果为否时,将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串,直至得到所述目标待识别文本中的每个原始拼音字符串。
需要说明的是,根据NER模型得到首个第一拼音字符串,根据拼音字典使用最大前向匹配算法得到首个第二拼音字符串,判断首个第一拼音字符串的置信度是否大于预设置信度阈值,若是,则将首个第一拼音字符串确定为原始拼音字符串;若否,则将首个第二拼音字符串确定为原始拼音字符串。此时,从上一个识别结尾开始,重复上述过程,直至得到目标待识别文本中所有的原始拼音字符串。
本实施例的技术方案能够有效检测出拼音变体,提升了拼音变体文本识别的准确率,并有效地提升了银行征信数据审核的效率。
图2示出了本发明提供的用于银行征信数据审核的拼音变体文本识别***的实施例的结构示意图。如图2所示,该***200包括:转换模块210、处理模块220和识别模块230。
所述转换模块210用于:基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串;其中,所述拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换;
所述处理模块220用于:当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;
所述识别模块230用于:获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。
较优地,还包括:预处理模块;
所述预处理模块用于:获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
较优地,还包括:提取模块;所述提取模块用于:
基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量;
当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串;当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。
较优地,所述提取模块具体用于:
基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每个第一拼音字符串的判断结果;
当任一第一拼音字符串的判断结果为是时,将该第一拼音字符串确定为原始拼音字符串;当任一第一拼音字符串的判断结果为否时,将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串,直至得到所述目标待识别文本中的每个原始拼音字符串。
本实施例的技术方案能够有效检测出拼音变体,提升了拼音变体文本识别的准确率,并有效地提升了银行征信数据审核的效率。
上述关于本实施例的用于银行征信数据审核的拼音变体文本识别***200中的各参数和各个模块实现相应功能的步骤,可参考上文中关于用于银行征信数据审核的拼音变体文本识别方法的实施例中的各参数和步骤,在此不做赘述。
在此处所提供的说明书中,说明了大量具体细节。然而能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。类似地,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。其中,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种用于银行征信数据审核的拼音变体文本识别方法,其特征在于,包括:
基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串;其中,所述拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换;
当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;
获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。
2.根据权利要求1所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,还包括:
获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
3.根据权利要求1所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,还包括:
基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量;
当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串;当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。
4.根据权利要求3所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,所述基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取的步骤,包括:
基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每个第一拼音字符串的判断结果;
当任一第一拼音字符串的判断结果为是时,将该第一拼音字符串确定为原始拼音字符串;当任一第一拼音字符串的判断结果为否时,将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串,直至得到所述目标待识别文本中的每个原始拼音字符串。
5.根据权利要求1所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,所述拼音置信度模型为预训练的n-gram模型。
6.根据权利要求3或4所述的用于银行征信数据审核的拼音变体文本识别方法,其特征在于,所述NER模型为:预训练的基于transformer的深度学习模型。
7.一种用于银行征信数据审核的拼音变体文本识别***,其特征在于,包括:转换模块、处理模块和识别模块;
所述转换模块用于:基于拼音字典和拼音置信度模型,将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音,得到所述目标待识别文本的每个转换拼音字符串;其中,所述拼音置信度模型用于:当所述目标待识别文本的任一汉字为多音字时,基于该汉字对应的前一字符串,将该汉字的发音置信度最高的拼音作为该汉字的拼音,以实现对所述目标待识别文本中的拼音变体进行转换;
所述处理模块用于:当所述目标待识别文本中存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串和每个原始拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;或,当所述目标待识别文本中不存在原始拼音字符串时,基于所述目标待识别文本的文本内容顺序,将每个转换拼音字符串进行拼接,得到所述目标待识别文本的拼接拼音字符串;
所述识别模块用于:获取敏感词库中的每个敏感词对应的敏感词拼音串,当所述拼接拼音字符串中包含任一敏感词拼音串时,确定所述目标待识别文本为违规文本。
8.根据权利要求7所述的用于银行征信数据审核的拼音变体文本识别***,其特征在于,还包括:预处理模块;
所述预处理模块用于:获取银行征信数据审核过程中的原始待识别文本,并对所述原始待识别文本进行文本预处理,得到所述目标待识别文本。
9.根据权利要求7所述的用于银行征信数据审核的拼音变体文本识别***,其特征在于,还包括:提取模块;所述提取模块用于:
基于NER模型和最大前向匹配算法,对所述目标待识别文本中的原始拼音字符串进行提取,并判断所述目标待识别文本中所提取到的原始拼音字符串的数量;
当所述目标待识别文本的原始拼音字符串的数量为至少一个时,则判定所述目标待识别文本中存在原始拼音字符串;当所述目标待识别文本的原始拼音字符串的数量为零时,则判定所述目标待识别文本中不存在原始拼音字符串。
10.根据权利要求9所述的用于银行征信数据审核的拼音变体文本识别***,其特征在于,所述提取模块具体用于:
基于所述NER模型,依次提取所述目标待识别文本中的每个第一拼音字符串,并基于所述最大前向匹配算法,提取所述目标待识别文本中的每个第二拼音字符串,并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值,得到每个第一拼音字符串的判断结果;
当任一第一拼音字符串的判断结果为是时,将该第一拼音字符串确定为原始拼音字符串;当任一第一拼音字符串的判断结果为否时,将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串,直至得到所述目标待识别文本中的每个原始拼音字符串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310018963.3A CN115983266A (zh) | 2023-01-06 | 2023-01-06 | 用于银行征信数据审核的拼音变体文本识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310018963.3A CN115983266A (zh) | 2023-01-06 | 2023-01-06 | 用于银行征信数据审核的拼音变体文本识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115983266A true CN115983266A (zh) | 2023-04-18 |
Family
ID=85962858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310018963.3A Pending CN115983266A (zh) | 2023-01-06 | 2023-01-06 | 用于银行征信数据审核的拼音变体文本识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115983266A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892724A (zh) * | 2024-03-15 | 2024-04-16 | 成都赛力斯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
-
2023
- 2023-01-06 CN CN202310018963.3A patent/CN115983266A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892724A (zh) * | 2024-03-15 | 2024-04-16 | 成都赛力斯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
CN117892724B (zh) * | 2024-03-15 | 2024-06-04 | 成都赛力斯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
JP3950535B2 (ja) | データ処理方法及び装置 | |
CN110188781B (zh) | 一种基于深度学习的古诗文自动识别方法 | |
CN112287684A (zh) | 融合变体词识别的短文本审核方法及装置 | |
US20090070095A1 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN109271524B (zh) | 知识库问答***中的实体链接方法 | |
CN110070853B (zh) | 一种语音识别转化方法及*** | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN105095196B (zh) | 文本中新词发现的方法和装置 | |
CN105760359B (zh) | 问句处理***及其方法 | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN109086274B (zh) | 基于约束模型的英文社交媒体短文本时间表达式识别方法 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、***和装置 | |
CN115983266A (zh) | 用于银行征信数据审核的拼音变体文本识别方法及*** | |
CN111209373A (zh) | 基于自然语义的敏感文本识别方法和装置 | |
CN111079384B (zh) | 一种用于智能质检服务禁语的识别方法及*** | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN113822052A (zh) | 一种文本错误检测方法、装置、电子设备及存储介质 | |
CN115309899B (zh) | 一种文本中特定内容识别存储方法及*** | |
CN116432659A (zh) | 基于标题正文相似度和作者隐含情感的虚假新闻检测方法 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及*** | |
CN115858733A (zh) | 跨语言实体词检索方法、装置、设备及存储介质 | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
CN108255806B (zh) | 一种人名识别方法及装置 | |
CN113887239A (zh) | 基于人工智能的语句分析方法、装置、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |