CN110516125B - 识别异常字符串的方法、装置、设备及可读存储介质 - Google Patents

识别异常字符串的方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110516125B
CN110516125B CN201910802851.0A CN201910802851A CN110516125B CN 110516125 B CN110516125 B CN 110516125B CN 201910802851 A CN201910802851 A CN 201910802851A CN 110516125 B CN110516125 B CN 110516125B
Authority
CN
China
Prior art keywords
character string
deep learning
feature vector
abnormal
standardized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910802851.0A
Other languages
English (en)
Other versions
CN110516125A (zh
Inventor
陆青
姜敏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN201910802851.0A priority Critical patent/CN110516125B/zh
Publication of CN110516125A publication Critical patent/CN110516125A/zh
Application granted granted Critical
Publication of CN110516125B publication Critical patent/CN110516125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

识别异常字符串的方法、装置、设备及可读存储介质,所述方法包括:获取原始字符串并分别转换为对应的图片和音标串;将所述原始字符串、图片和音标串分别输入第一深度学习模型、第二深度学习模型和第三深度学习模型中,获得对应的第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量;基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串;将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串,并输出识别结果。上述方案,实现自动识别异常字符串,提升识别的效率,提高精确度和准确度。

Description

识别异常字符串的方法、装置、设备及可读存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及识别异常字符串的方法、装置、设备及可读存储介质。
背景技术
现今,人们日常离不开互联网,用户在购物、聊天、学习和工作等场景都会产生文本内容,往往用户在书写过程中会主观或者无意地输入异常内容。为了减少这些异常内容的传播,需要对用户输入的内容进行识别,目前一般采用两种方法:1、人工识别;2、正则表达式匹配识别。
然而,随着科技的快速发展,用户使用互联网的频率急剧上升,需要耗费更多的人力和时间去识别异常的内容,若仅仅依靠人工识别,成本高、速度慢,无法适应互联网的海量业务数据处理需求。而正则表达式的匹配是通过将获取的文本内容和设定为异常的字符进行相似匹配,识别出其中异常的文字或符号等。但是,这种方法对变形字符识别度低,对用户故意通过变形字符输入的字符串难以识别。
发明内容
有鉴于此,本发明实施例提供一种识别异常字符串的方法、装置、设备及可读存储介质,可以实现自动识别异常字符串,提升异常字符串识别的效率,提高识别精确度和准确度。
本发明实施例提供了一种识别异常字符串的方法,所述方法包括:
获取原始字符串;将所述原始字符串分别转换为对应的图片和音标串;将所述原始字符串输入预设的第一深度学习模型中,获得第一深度学习特征向量,将所述图片输入预设的第二深度学习模型中,获得第二深度学习特征向量,将所述音标串输入预设的第三深度学习模型中,获得第三深度学习特征向量;基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串;将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串;输出识别结果。
进一步地,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,包括:融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量;将所述融合特征向量输入预设的第四深度学习模型中,获得所述原始字符串对应的标准化字符串。
进一步地,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,包括:分别基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,得到所述原始字符串对应的第一标准化字符串、第二标准化字符串和第三标准化字符串;
所述将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串,包括:将所述第一标准化字符串、第二标准化字符串和第三标准化字符串分别与预设的异常数据库中的字符串进行匹配,识别出所述第一标准化字符串、第二标准化字符串和第三标准化字符串中的异常字符串。
进一步地,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,还包括:融合所述第一深度学习特征向量、所述第二深度学习特征向量和所述第三深度学习特征向量,获得融合特征向量;将所述融合特征向量输入预设的第四深度学习模型中,获得所述原始字符串对应的第四标准化字符串;
所述将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串,还包括:将所述第四标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第四标准化字符串中的异常字符串。
进一步地,所述融合所述第一深度学习特征向量、所述第二深度学习特征向量和所述第三深度学习特征向量,包括:将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量首尾连接。
进一步地,所述第一深度学习模型包括第一循环神经网络模型,所述第二深度学习模型包括卷积神经网络模型,所述第三深度学习模型包括第二循环神经网络模型。
进一步地,所述将所述原始字符串转换为音标串,包括:基于所述原始字符串的主体语言类型,将所述原始字符串转换为所述主体语言类型对应的音标串。
本发明实施例还提供了一种识别异常字符串的装置,所述装置包括:原始字符串获取单元,适于获取原始字符串;第一原始字符串转换单元,适于将所述原始字符串转换为对应的图片;第二原始字符串转换单元,适于将所述原始字符串转换为对应的音标串;第一深度学习单元,适于将所述原始字符串输入预设的第一深度学习模型中,获得第一深度学习特征向量;第二深度学习单元,适于将所述图片输入预设的第二深度学习模型中,获得第二深度学习特征向量;第三深度学习单元,适于将所述音标串输入预设的第三深度学习模型中,获得第三深度学习特征向量;标准化字符串生成单元,适于根据所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串;异常字符串识别单元,适于将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串;结果输出单元,适于输出识别结果。
本发明实施例还提供了一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时执行上述任一实施例所述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一实施例所述方法的步骤。
采用本发明实施例的识别异常字符串的方案,先将获取的原始字符串分别转换为对应的图片和音标串,然后,将所述原始字符串、图片和音标串分别输入第一深度学习模型、第二深度学习模型和第三深度学习模型中,获得对应的第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,之后,基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,并将所述标准化字符串与预设的异常数据库中的字符串进行匹配,即可识别出所述标准化字符串中的异常字符串。上述字符串识别过程,通过将原始字符串转换为图片和音标串,然后分别进行深度学习,获得相应的特征向量,通过多个维度的特征向量还原所述原始字符串对应的标准化字符串,再进行异常字符串识别,可以极大地提高变形字符的识别率,从而可以提高异常字符串识别的精确度和准确度。并且,整个识别过程不需要人工参与和调整,而是自动化识别,故可以提升异常字符串识别的效率,大幅降低人力成本。
进一步地,将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量进行融合,获得融合特征向量,再将所述融合特征向量输入第四深度学习模型中,可以获得所述原始字符串对应的标准化字符串,然后进行识别和输出。采用上述方案,通过将所述原始字符串、图片和音标串对应的特征向量进行融合和二次深度学习,可以进一步加深特征向量之间的联系,获得更加准确的标准化字符串,提高异常字符串的识别广度及准确度,增强识别出异常字符串的能力。
进一步地,可以分别确定所述第一深度学习特征向量、第二深度学习特征向量、第三深度学习特征向量和第四深度学习特征向量对应的准化字符串,并同时识别所述第一标准化字符串、第二标准化字符串、第三标准化字符串和第四标准化字符串中的异常字符串,当其中至少一个准化字符串中存在异常字符串时,就输出存在异常字符串的识别结果,实现多维度地识别,可以降低异常字符串识别的漏检率。
进一步地,由于输入的原始字符串中可能包含各种语言文字、数字、甚至是符号,所以,在将原始字符串转换成的音标串时,基于所述原始字符串的主体语言类型,将原始字符串转换为对应的音标串后进行识别,可以扩大异常字符串识别的应用范围。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中一种识别异常字符串的方法的流程图。
图2是本发明实施例中一种确定原始字符串对应的标准化字符串的方法的流程图。
图3是本发明实施例中另一种识别异常字符串的方法的流程图。
图4是本发明实施例中一种识别异常字符串的装置的结构示意图。
图5是本发明实施例中一种标准化字符串生成单元的结构示意图。
图6是本发明实施例中一种异常字符串识别单元的结构示意图。
图7是本发明实施例中另一种标准化字符串生成单元的结构示意图。
图8是本发明实施例中原始字符串转换为图片的示意图。
具体实施方式
如前所述,目前互联网的业务数据庞大,若仅仅依靠人工识别,不但成本高,而且处理速度慢。而通过正则表达式进行异常字符匹配的方法,对变形字符识别度低,无法准确识别出所有的异常字符。比如,某用户在一应用服务平台上通过其他手机号注册新用户享受优惠,然后在备注中用错别字、字母及无序的符号等组合文本形式告知服务平台上的服务方真实手机号;又比如,在商品评论中为自家店铺打广告,用错别字、字母及无序的符号等组合文本留下个人联系方式。因而,无论是人工识别还是正则表达式匹配识别,都无法满足现有互联网的海量业务的数据处理需求。
针对上述问题,本发明实施例提供了一种识别异常字符串的方法,先将获取的原始字符串分别转换为对应的图片和音标串,然后,将所述原始字符串、图片和音标串分别输入第一深度学习模型、第二深度学习模型和第三深度学习模型中,获得对应的第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,之后,基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,并将所述标准化字符串与预设的异常数据库中的字符串进行匹配,即可识别出所述标准化字符串中的异常字符串。
为使本领域技术技术人员更好地理解本发明实施例的构思、实现方案及优点,以下参照附图,通过具体应用场景进行详细说明。
参照图1所示的本发明实施例中一种识别异常字符串的方法的流程图,在本发明实施例中,识别异常字符串可以采用如下步骤:
S11,获取原始字符串。
在具体实施中,所述原始字符串可以来源于互联网上任何想要识别异常字符串的平台,所述原始字符串的数据格式由平台的***编码所决定,其中,所述***编码可以采用现有的任何字符集编码,例如ASCII编码、GB2312编码、BIG5编码、GB18030编码等;也可以采用自定义的字符集编码。以电子商务平台为例,用户可以在下单的备注栏或者点评界面输入文本内容,电子商务平台可以获取所述用户输入的文本内容,作为原始字符串。
S12,将所述原始字符串分别转换为对应的图片和音标串。
在具体实施中,可以采用多种方式将所述原始字符串转换为对应的图片和音标串。
在本发明一实施例中,可以通过编解码的转换方式将原始字符串转换为对应的黑白图片或者彩色图片。例如,对原始字符串进行Base64格式的编解码,转换成相应的图片。
对于音标串,在本发明一实施例中,可以在数据库中预设音标对照表,然后,通过比对音标对照表,将原始字符串转换为音标串。其中,音标对照表可以包括任意主体语言类型与主体语言音标的对照关系,例如,英文字母与英文音标的对照关系、数字与英文音标的对照关系、中文文字与拼音的对照关系、符号与音标的对照关系等,具体可以根据实际情况设定。
此外,为了简化转换过程及缩短转换时间,可以设置专门的图片和音标串的转化模块或工具,也可以采用现有的转化工具进行图片和音标串的转化。
S13,将所述原始字符串输入预设的第一深度学习模型中,获得第一深度学习特征向量,将所述图片输入预设的第二深度学习模型中,获得第二深度学习特征向量,将所述音标串输入预设的第三深度学习模型中,获得第三深度学习特征向量。
在具体实施中,预设的第一深度学习模型、第二深度学习模型和第三深度学习模型均可以包括一种或多种完成训练的神经网络模型,具体采用的模型的类型可以根据所转换数据的特点进行选择及设置。
例如,所述第一深度学习模型可以包括循环神经网络(Recurrent NeuralNetwork,RNN)体系下的各种模型,用于在一段时间序列内处理原始字符串的词汇信息和语义信息,从而可以获得包含词汇和语义等信息的第一深度学习特征向量。
又如,所述第二深度学习模型可以包括卷积神经网络(Convolutional NeuralNetworks,CNN)体系下的各种模型,用于处理图片中每个部分的特征信息,从而可以获得包含字符相关特征信息的第二深度学习特征向量。其中,特征信息可以包括文字、符号、字母和数字等形状信息。
再如,所述第三深度学习模型可以包括循环神经网络体系下的各种模型,用于在一段时间序列内处理音标串的读音信息和语义信息,从而可以获得包含词汇和语义等信息的第三深度学习特征向量。
S14,基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串。
在具体实施中,可以对所述第一深度学习特征向量和第二深度学习特征向量进行字符形状的反向解析,而对所述第三深度学习特征向量进行字符读音的反向解析,进而可以确定所述原始字符串对应的标准化字符串。例如,可以在数据库中预设相关的标准字符形状对照表和标准字符读音对照表,所述第一深度学习特征向量和第二深度学习特征向量与所述标准字符形状对照表进行匹配,所述第三深度学习特征向量与所述标准字符读音对照表进行匹配。其中,标准字符形状对照表和标准字符读音对照表可以根据实际情况设定。
S15,将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串。
在具体实施中,预设的异常数据库可以根据实际情况设定。由于获得了原始字符串对应的标准化字符串,与预设的异常数据库中的字符串进行匹配更加便捷。
S16,输出识别结果。
在具体实施中,若识别结果是有异常字符串,则可以根据预先设置,可以对用户进行提醒,以避免异常字符串的产生,也可以将识别结果输出至后端监控人员,向其发出异常提示,便于监控人员及时发现异常,并执行相应的处理操作。
通过上述实施例的识别异常字符串的方法,通过将原始字符串转换为图片和音标串,然后分别进行深度学习,获得相应的特征向量,通过原始字符串、图片和音标串等多个维度的特征向量还原所述原始字符串对应的标准化字符串,再进行异常字符串识别,可以极大地提高变形字符的识别率,从而可以提高异常字符串识别的精确度和准确度。并且,整个识别过程不需要人工参与和调整,而是自动化识别,故可以提升异常字符串识别的效率,大幅降低人力成本。
为使本领域技术人员更好地理解和实现本发明实施例,以下通过具体的应用场景详细说明如何识别出异常字符串。
在本发明一实施例中,一应用服务平台需要识别出原始字符串中用户留下的异常内容为邮箱地址的数据。假设所述用户在评论或备注中输入经过字符变形的内容为:“①贰三艾特qq。c0m”。所述应用服务平台的***编码采用ASCII编码,因此可以获得“①贰三艾特qq。c0m”对应的ASCII十六进制编码格式的数据为:“2460 8d30 4e09 827e 7279 00710071 3002 0063 0030 006d”,以空格作为分隔符,上述ASCII十六进制编码数据即为原始字符串。
然后,通过解码的转换方式可以将所述原始字符串转换为包含“①贰三艾特qq。c0m”内容的图片,本实施例中采用Base64编解码,所述原始字符串转换为对应的图片,如图8中图片80所示。
并且,根据预设的音标对照表可以将原始字符串转换为对应的音标串,即“yi ersan ai te kju:kju:ju hao si:ling em”。
如前所述,在步骤S13中所采用的深度学习模型可以根据所输入的数据特点采用相应的神经网络模型。在本实施例中,所述第一深度学习模型可以包括第一循环神经网络模型,所述第二深度学习模型可以包括卷积神经网络模型,所述第三深度学习模型可以包括第二循环神经网络模型。
经过上述数据处理后,将所述原始字符串输入所述第一深度学习模型,经过循环神经网络处理后输出N1维第一深度学习特征向量[Xi],其中,i=1,2,3……N1,N1为不小于1的自然数;Xi表示根据所述原始字符串预测第i个输出的最大概率,Xi的数值在[0,1]之间。
可以理解的是,根据实际使用情景采用不同的训练数据进行训练,可以得到不同功能的第一深度学习模型。例如,所述第一深度学习模型可以用于筛查所述原始字符串中不符合语法规则的干扰数据,则可以获取标准语法的训练数据,对所述第一深度学习模型进行训练。完成训练后,所述第一深度学习模型可以对输入的数据进行语法筛查处理,然后输出根据所述原始字符串预测的符合语法规则的最大概率数组,由此作为第一深度学习特征向量。
如前所述,将所述图片输入所述第二深度学习模型,经过卷积神经网络处理后输出N2维第二深度学习特征向量[Yi],其中,i=1,2,3……N2,N2为不小于1的自然数;Yi表示根据所述图片预测第i个输出的最大概率,Yi的数值在[0,1]之间。
可以理解的是,根据实际使用情景采用不同的训练数据进行训练,可以得到不同功能的第二深度学习模型,例如,所述第二深度学习模型用于提取所述图片中的字符串,则可以获取标注字符串标签的训练数据进行训练。完成训练后,所述第二深度学习模型可以对输入的图片进行字符串提取处理,然后输出根据所述图片预测的字符串最大概率数组,由此作为第二深度学习特征向量。
如前所述,将所述音标串输入所述第三深度学习模型,经过卷积神经网络处理后输出N3维第三深度学习特征向量[Zi],其中,i=1,2,3……N3,N3为不小于1的自然数;Zi表示根据所述音标串预测第i个输出的最大概率,Zi的数值在[0,1]之间。
可以理解的是,根据实际使用情景采用不同的训练数据进行训练,可以得到不同功能的第三深度学习模型,例如,所述第三深度学习模型用于筛查所述音标串中的不符合音标规则的干扰数据,则可以获取标注音标标签的训练数据进行训练。完成训练后,所述第三深度学习模型可以对输入的音标串进行音标规则筛查处理,然后输出根据所述音标串预测的音标串最大概率数组,由此作为第三深度学习特征向量。
之后,可以根据所述应用服务平台所在***的数据库中预设的相关的标准字符形状对照表和标准字符读音对照表,分别对所述第一深度学习特征向量[Xi]、第二深度学习特征向量[Yi]和第三深度学习特征向量[Zi]进行反相解析,从而得到所述原始字符串对应的第一标准化字符串、第二标准化字符串和第三标准化字符串。
其中,标准字符形状对照表可以包括文字、符号、字母、数字的标准形状等其中至少一种字符与不大于1的非负数之间的对照关系,标准字符读音对照表可以包括文字、符号、字母、数字的标准读音等其中至少一种与不大于1的非负数之间的对照关系。此外,标准字符形状对照表还可以包括偏旁部首标准形状与不大于1的非负数之间的对照关系,标准字符读音对照表还可以包含文字、符号、字母、数字的模糊读音与不大于1的非负数之间的对照关系。
反相解析的具体过程如下:
1)将所述第一深度学习特征向量[Xi]与所述标准字符形状对照表进行匹配,可以识别出与数字“1”形状相似的变形数字“①”,以及,与标点符号“.”形状相似的标点符号“。”,因此,获得的第一标准化字符串为:“1贰三艾特qq.c0m”。
2)将所述第二深度学习特征向量[Yi]与所述标准字符形状对照表进行匹配,可以识别出与数字“1”形状相似的变形数字“①”,与字母“o”形状相似的数字“0”,与标点符号“.”形状相似的标点符号“。”,甚至可以识别出数字“3”形状相似的变形文字“三”,获得的第二标准化字符串为:“1贰3艾特qq.com”。
3)将所述第三深度学习特征向量[Zi]与所述标准字符读音对照表进行匹配,可以识别出与标点符号“.”(ju hao)读音相同的“。”(ju hao),与数字“2”(er)读音相同的文字“贰”(er),与数字“3”(san)读音相同的文字“三”(san),以及与符号“@”(ai te)读音相同的文字“艾特”(ai te)。获得的第三标准化字符串为:“[email protected]”。
再将所述第一标准化字符串、第二标准化字符串和第三标准化字符串分别与预设的异常数据库中的字符串进行匹配,识别出其中的异常字符串,当所述第一标准化字符串、第二标准化字符串和第三标准化字符串中至少一个标准化字符串识别出异常字符串时,输出有异常字符串的识别结果。
例如,所述第一标准化字符串和第三标准化字符串分别与预设的异常数据库中的字符串进行匹配后,未识别出邮箱相关的异常字符串“qq.com”,但是,所述第二标准化字符串“1贰3艾特qq.com”与预设的异常数据库中的字符串进行匹配,识别出邮箱相关的异常字符串“qq.com”。
采用上述方案,通过多个特征向量还原所述原始字符串对应的标准化字符串,再进行异常字符串识别,分别从字符、图片和音标三个方面识别变形的异常字符串。
在具体实施中,分别从字符、图片和音标三个方面识别变形的异常字符串仍然可能具有无法识别出异常字符串、识别错误的异常字符串等问题,例如,设置的邮箱相关的异常字符串为“@qq.com”,则所述第一至三标准化字符串均无法分别识别出邮箱相关的异常字符串。为此,可以对步骤S14作进一步地扩展和优化,从而确定标准化字符串。以下通过具体实施例进行详细描述。
在本发明实施例中,参照图2所示的一种确定所述原始字符串对应的标准化字符串的方法的流程图,具体可以包括如下步骤:
S21,融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量。
在具体实施中,融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量的方法可以采用以下至少一种方式:
1、将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量首尾连接,获得N1+N2+N3维融合特征向量[Xi,Yi,Zi]。
2、将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量随机组合,获得N1+N2+N3维融合特征向量[Ri],其中Ri∈集合{Xi,Yi,Zi}。
3、分别将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量进行转置并组合,获得N1+N2+N3维融合特征向量[XiT,YiT,ZiT]或[Hi],其中Hi∈集合{XiT,YiT,ZiT}。
可以理解的是,实际融合的方法不限于上述几种,还可以根据其他不同的维度,将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量进行融合处理。
S22,将所述融合特征向量输入预设的第四深度学习模型中,获得所述原始字符串对应的第四标准化字符串。
其中,所述预设的第四深度学习模型可以采用一种或多种完成训练的神经网络模型例如,RNN体系下的各种模型和多层感知机(Multi Layer Perceptron,MLP),RNN模型能提升特征向量的获取速度,MLP能提升特征向量的输出准确率。
在具体实施中,第四深度学习模型的训练集可以包括各种变形字符形状和对应的标准字符形状的训练数据,以及各种变形字符读音和对应的标准字符读音的训练数据,第四深度学习模型经过训练集训练完成后,将所述融合特征向量输入完成训练的第四深度学习模型中,通过形状匹配和读音匹配获得对应的第四标准化字符串“[email protected]”,然后,可以将所述第四标准化字符串与预设的异常数据库中的字符串进行匹配,识别出其中的异常字符串“@qq.com”并输出识别结果。
结合上述实施例,如图3所示,为本发明实施例中另一种识别异常字符串的方法的流程图,方法步骤如下:
S31,获取原始字符串。
S32-1,将原始字符串转换为图片。
S32-2,将原始字符串转换为音标串。
S33-1,将原始字符串输入第一深度学习模型。
S33-2,将图片输入第二深度学习模型。
S33-3,将音标串输入第三深度学习模型。
S34-1,获得第一深度学习特征向量。
S34-2,获得第二深度学习特征向量。
S34-3,获得第三深度学习特征向量。
S35,融合第一至第三深度学习特征向量。
S36,将融合的第一至第三深度学习特征向量输入第四深度学习模型中。
S37,经第四深度学习模型处理后,可以获得第四标准化字符串。
S38,识别第四标准化字符串中的异常字符串。
S39,输出识别结果。
采用上述方案,通过将所述原始字符串、图片和音标串对应的特征向量进行融合和二次深度学习,可以进一步加深特征向量之间的联系,获得更加准确的标准化字符串,提高异常字符串的识别广度及准确度,增强识别出异常字符串的能力。
在具体实施中,还可以对步骤S15作进一步地扩展和优化,从而确定标准化字符串。以下通过具体实施例进行详细描述。
在本发明实施例中,可以将所述第一标准化字符串、第二标准化字符串、第三标准化字符串和第四标准化字符串分别与预设的异常数据库中的字符串进行匹配,只要识别出所述第一标准化字符串、第二标准化字符串、第三标准化字符串和第四标准化字符串中至少一种存在异常字符串,就输出存在异常字符串的识别结果,实现多维度地识别,可以降低异常字符串识别的漏检率。
在具体实施中,由于输入的原始字符串中可能包含各种语言文字、数字、甚至是符号,所以,在将原始字符串转换成的音标串时,基于所述原始字符串的主体语言类型,将原始字符串转换为对应的音标串后进行识别,可以扩大异常字符串识别的应用范围。
本发明实施例还提供了与上述识别异常字符串的方法相应的识别异常字符串的装置,为使本领域技术人员更好地理解和实现本发明实施例,以下参照附图,通过具体实施例进行详细介绍。
参照图4所示的本发明实施例中一种识别异常字符串的装置的结构示意图,在本发明实施例中,所述识别异常字符串的装置400可以包括:
原始字符串获取单元401,适于获取原始字符串;
第一原始字符串转换单元402,适于将所述原始字符串转换为对应的图片;
第二原始字符串转换单元403,适于将所述原始字符串转换为对应的音标串;
第一深度学习单元404,适于将所述原始字符串输入预设的第一深度学习模型中,获得第一深度学习特征向量;
第二深度学习单元405,适于将所述图片输入预设的第二深度学习模型中,获得第二深度学习特征向量;
第三深度学习单元406,适于将所述音标串输入预设的第三深度学习模型中,获得第三深度学习特征向量;
标准化字符串生成单元407,适于根据所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串;
异常字符串识别单元408,适于将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串;
结果输出单元409,适于输出识别结果。
采用上述方案,通过将原始字符串转换为图片和音标串,然后分别进行深度学习,获得相应的特征向量,通过多个维度的特征向量还原所述原始字符串对应的标准化字符串,再进行异常字符串识别,可以极大地提高变形字符的识别率,从而可以提高异常字符串识别的精确度和准确度。并且,整个识别过程不需要人工参与和调整,而是自动化识别,故可以提升异常字符串识别的效率,大幅降低人力成本。
在本发明一实施例中,如图5所示,所述标准化字符串生成单元407可以包括:
第一标准化字符串生成子单元501,适于根据所述第一深度学习特征向量,得到所述原始字符串对应的第一标准化字符串;
第二标准化字符串生成子单元502,适于根据所述第二深度学习特征向量,得到所述原始字符串对应的第二标准化字符串;
第三标准化字符串生成子单元503,适于根据所述第三深度学习特征向量,得到所述原始字符串对应的第三标准化字符串。
如图6所示,所述异常字符串识别单元408可以包括:
第一异常字符串识别子单元601,适于将所述第一标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第一标准化字符串中的异常字符串;
第二异常字符串识别子单元602,适于将所述第二标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第二标准化字符串中的异常字符串;
第三异常字符串识别子单元603,适于将所述第三标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第三标准化字符串中的异常字符串。
在具体实施中,还可以对装置400作进一步地扩展和优化,从而确定标准化字符串。以下通过具体实施例进行详细描述。
在本发明一实施例中,可以将所述原始字符串、图片和音标串对应的特征向量进行融合和二次深度学习,进一步加深特征向量之间的联系,结合图4和图7做进一步的说明,如图7所示,所述标准化字符串生成单元407可以包括:
特征向量融合子单元701,适于融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量。
深度学习子单元702,适于将所述融合特征向量输入预设的第四深度学习模型中,确定所述原始字符串对应的第四标准化字符串。
然后,所述异常字符串识别单元408可以将所述第四标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串,最后,所述结果输出单元409输出识别结果。
采用上述方案,通过将所述原始字符串、图片和音标串对应的特征向量进行融合和二次深度学习,可以进一步加深特征向量之间的联系,获得更加准确的标准化字符串,提高异常字符串的识别广度及准确度,增强识别出异常字符串的能力。
在本发明又一实施例中,可以分别识别所述第一标准化字符串、第二标准化字符串、第三标准化字符串和第四标准化字符串,结合图4、图5和图6做进一步的说明。
如图5所示,所述标准化字符串生成单元407除第一标准化字符串生成子单元501、第二标准化字符串生成子单元502和第三标准化字符串生成子单元503外,还可以包括:
特征向量融合子单元701,适于融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量。
深度学习子单元702,适于将所述融合特征向量输入预设的第四深度学习模型中,确定所述原始字符串对应的第四标准化字符串。
如图6所示,所述异常字符串识别单元408除第一异常字符串识别子单元601、第二异常字符串识别子单元602和第三异常字符串识别子单元603外,还可以包括:
第四异常字符串识别子单元604,适于将所述第四标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第四标准化字符串中的异常字符串。
在具体实施中,将所述第一标准化字符串、第二标准化字符串、第三标准化字符串和第四标准化字符串分别与预设的异常数据库中的字符串进行匹配,只要识别出所述第一标准化字符串、第二标准化字符串、第三标准化字符串和第四标准化字符串中至少一种存在异常字符串,就输出存在异常字符串的识别结果,实现多维度地识别,可以降低异常字符串识别的漏检率。
在具体实施中,融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量的方法可以包括以下至少一种:
1、将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量首尾连接。
2、将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量随机组合。
3、分别将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量进行转置并组合。
可以理解的是,实际融合的方法不限于上述几种,还可以根据其他不同的维度,将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量进行处理。
在具体实施中,所述预设的第一至四深度学习模型可以采用一种或多种神经网络模型训练而成。其中,所述第一深度学习模型可以包括第一循环神经网络模型,所述第二深度学习模型可以包括卷积神经网络模型,所述第三深度学习模型可以包括第二循环神经网络模型,所述预设的第四深度学习模型可以包括循环神经网络模型和卷积神经网络模型。
在具体实施中,由于输入的原始字符串中可能包含各种语言文字、数字、甚至是符号,所以,在将原始字符串转换成的音标串时,所述第二原始字符串转换单元基于所述原始字符串的主体语言类型,将原始字符串转换为所述主体语言类型对应的音标串后进行识别,可以扩大异常字符串识别的应用范围。
本发明实施例还提供了一种数据处理设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时可以执行本发明上述任一实施例所述的识别异常字符串的方法的步骤。所述计算机指令运行时执行的识别异常字符串的方法具体实现可以参照上述实施例中的识别异常字符串的方法的步骤,不再赘述。
所述数据处理设备可以为手机等手持终端、平板电脑、个人台式电脑等。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行本发明上述任一实施例方法的步骤。
其中,所述计算机可读存储介质可以是光盘、机械硬盘、固态硬盘等各种适当的可读存储介质。所述计算机可读存储介质上存储的指令执行的识别异常字符串的方法,具体可参照上述各识别异常字符串的方法的实施例,不再赘述。
综上,本发明实施例公开了A1实施例,一种识别异常字符串的方法,包括:
获取原始字符串;
将所述原始字符串分别转换为对应的图片和音标串;
将所述原始字符串输入预设的第一深度学习模型中,获得第一深度学习特征向量,将所述图片输入预设的第二深度学习模型中,获得第二深度学习特征向量,将所述音标串输入预设的第三深度学习模型中,获得第三深度学习特征向量;
基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串;
将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串;
输出识别结果。
本发明实施例公开了A2实施例,如A1实施例所述的识别异常字符串的方法,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,包括:
融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量;
将所述融合特征向量输入预设的第四深度学习模型中,获得所述原始字符串对应的标准化字符串。
本发明实施例公开了A3实施例,如A1实施例所述的识别异常字符串的方法,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,包括:
分别基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,得到所述原始字符串对应的第一标准化字符串、第二标准化字符串和第三标准化字符串;
所述将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串,包括:
将所述第一标准化字符串、第二标准化字符串和第三标准化字符串分别与预设的异常数据库中的字符串进行匹配,识别出所述第一标准化字符串、第二标准化字符串和第三标准化字符串中的异常字符串。
本发明实施例公开了A4实施例,如A3实施例所述的识别异常字符串的方法,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,还包括:
融合所述第一深度学习特征向量、所述第二深度学习特征向量和所述第三深度学习特征向量,获得融合特征向量;
将所述融合特征向量输入预设的第四深度学习模型中,获得所述原始字符串对应的第四标准化字符串;
所述将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串,还包括:
将所述第四标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第四标准化字符串中的异常字符串。
本发明实施例公开了A5实施例,如A2实施例或A4实施例所述的识别异常字符串的方法,所述融合所述第一深度学习特征向量、所述第二深度学习特征向量和所述第三深度学习特征向量,包括:
将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量首尾连接。
本发明实施例公开了A6实施例,如A1实施例所述的识别异常字符串的方法,所述第一深度学习模型包括第一循环神经网络模型,所述第二深度学习模型包括卷积神经网络模型,所述第三深度学习模型包括第二循环神经网络模型。
本发明实施例公开了A7实施例,如A1至A4任一项实施例或A6实施例所述的识别异常字符串的方法,所述将所述原始字符串转换为音标串,包括:
基于所述原始字符串的主体语言类型,将所述原始字符串转换为所述主体语言类型对应的音标串。
本发明实施例公开了B1实施例,一种识别异常字符串的装置,包括:
原始字符串获取单元,适于获取原始字符串;
第一原始字符串转换单元,适于将所述原始字符串转换为对应的图片;
第二原始字符串转换单元,适于将所述原始字符串转换为对应的音标串;
第一深度学习单元,适于将所述原始字符串输入预设的第一深度学习模型中,获得第一深度学习特征向量;
第二深度学习单元,适于将所述图片输入预设的第二深度学习模型中,获得第二深度学习特征向量;
第三深度学习单元,适于将所述音标串输入预设的第三深度学习模型中,获得第三深度学习特征向量;
标准化字符串生成单元,适于根据所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串;
异常字符串识别单元,适于将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串;
结果输出单元,适于输出识别结果。
本发明实施例公开了B2实施例,如B1实施例所述的识别异常字符串的装置,所述标准化字符串生成单元包括:
特征向量融合子单元,适于融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量;
深度学习子单元,适于将所述融合特征向量输入预设的第四深度学习模型中,确定所述原始字符串对应的标准化字符串。
本发明实施例公开了B3实施例,如B1实施例所述的识别异常字符串的装置,所述标准化字符串生成单元包括:
第一标准化字符串生成子单元,适于根据所述第一深度学习特征向量,得到所述原始字符串对应的第一标准化字符串;
第二标准化字符串生成子单元,适于根据所述第二深度学习特征向量,得到所述原始字符串对应的第二标准化字符串;
第三标准化字符串生成子单元,适于根据所述第三深度学习特征向量,得到所述原始字符串对应的第三标准化字符串;
所述异常字符串识别单元包括:
第一异常字符串识别子单元,适于将所述第一标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第一标准化字符串中的异常字符串;
第二异常字符串识别子单元,适于将所述第二标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第二标准化字符串中的异常字符串;
第三异常字符串识别子单元,适于将所述第三标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第三标准化字符串中的异常字符串。
本发明实施例公开了B4实施例,如B3实施例所述的识别异常字符串的装置,所述标准化字符串生成单元还包括:
特征向量融合子单元,适于融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量;
深度学习子单元,适于将所述融合特征向量输入预设的第四深度学习模型中,确定所述原始字符串对应的第四标准化字符串;
所述异常字符串识别单元还包括:
第四异常字符串识别子单元,适于将所述第四标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第四标准化字符串中的异常字符串。
本发明实施例公开了B5实施例,如B2或B4任一实施例所述的识别异常字符串的装置,所述特征向量融合子单元,适于将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量首尾连接。
本发明实施例公开了B6实施例,如B1实施例所述的识别异常字符串的装置,所述第一深度学习模型包括第一循环神经网络模型,所述第二深度学习模型包括卷积神经网络模型,所述第三深度学习模型包括第二循环神经网络模型。
本发明实施例公开了B7实施例,如B1至B4任一实施例或B6实施例所述的识别异常字符串的装置,所述第二原始字符串转换单元,适于根据所述原始字符串的主体语言类型,将所述原始字符串转换为所述主体语言类型对应的音标串。
本发明实施例公开了C1实施例,一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时执行A1至A7任一实施例所述方法的步骤。
本发明实施例公开了D1实施例,一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行A1至A7任一实施例所述方法的步骤。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (16)

1.一种识别异常字符串的方法,其特征在于,包括:
获取原始字符串;
将所述原始字符串分别转换为对应的图片和音标串;
将所述原始字符串输入预设的第一深度学习模型中,获得第一深度学习特征向量,将所述图片输入预设的第二深度学习模型中,获得第二深度学习特征向量,将所述音标串输入预设的第三深度学习模型中,获得第三深度学习特征向量;
基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串;
将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串;
输出识别结果。
2.根据权利要求1所述的识别异常字符串的方法,其特征在于,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,包括:
融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量;
将所述融合特征向量输入预设的第四深度学习模型中,获得所述原始字符串对应的标准化字符串。
3.根据权利要求1所述的识别异常字符串的方法,其特征在于,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,包括:
分别基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,得到所述原始字符串对应的第一标准化字符串、第二标准化字符串和第三标准化字符串;
所述将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串,包括:
将所述第一标准化字符串、第二标准化字符串和第三标准化字符串分别与预设的异常数据库中的字符串进行匹配,识别出所述第一标准化字符串、第二标准化字符串和第三标准化字符串中的异常字符串。
4.根据权利要求3所述的识别异常字符串的方法,其特征在于,所述基于所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串,还包括:
融合所述第一深度学习特征向量、所述第二深度学习特征向量和所述第三深度学习特征向量,获得融合特征向量;
将所述融合特征向量输入预设的第四深度学习模型中,获得所述原始字符串对应的第四标准化字符串;
所述将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串,还包括:
将所述第四标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第四标准化字符串中的异常字符串。
5.根据权利要求2或4所述的识别异常字符串的方法,其特征在于,所述融合所述第一深度学习特征向量、所述第二深度学习特征向量和所述第三深度学习特征向量,包括:
将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量首尾连接。
6.根据权利要求1所述的识别异常字符串的方法,其特征在于,所述第一深度学习模型包括第一循环神经网络模型,所述第二深度学习模型包括卷积神经网络模型,所述第三深度学习模型包括第二循环神经网络模型。
7.根据权利要求1至4任一项或权利要求6所述的识别异常字符串的方法,其特征在于,所述将所述原始字符串转换为音标串,包括:
基于所述原始字符串的主体语言类型,将所述原始字符串转换为所述主体语言类型对应的音标串。
8.一种识别异常字符串的装置,其特征在于,包括:
原始字符串获取单元,适于获取原始字符串;
第一原始字符串转换单元,适于将所述原始字符串转换为对应的图片;
第二原始字符串转换单元,适于将所述原始字符串转换为对应的音标串;
第一深度学习单元,适于将所述原始字符串输入预设的第一深度学习模型中,获得第一深度学习特征向量;
第二深度学习单元,适于将所述图片输入预设的第二深度学习模型中,获得第二深度学习特征向量;
第三深度学习单元,适于将所述音标串输入预设的第三深度学习模型中,获得第三深度学习特征向量;
标准化字符串生成单元,适于根据所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,确定所述原始字符串对应的标准化字符串;
异常字符串识别单元,适于将所述标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述标准化字符串中的异常字符串;
结果输出单元,适于输出识别结果。
9.根据权利要求8所述的识别异常字符串的装置,其特征在于,所述标准化字符串生成单元包括:
特征向量融合子单元,适于融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量;
深度学习子单元,适于将所述融合特征向量输入预设的第四深度学习模型中,确定所述原始字符串对应的标准化字符串。
10.根据权利要求8所述的识别异常字符串的装置,其特征在于,所述标准化字符串生成单元包括:
第一标准化字符串生成子单元,适于根据所述第一深度学习特征向量,得到所述原始字符串对应的第一标准化字符串;
第二标准化字符串生成子单元,适于根据所述第二深度学习特征向量,得到所述原始字符串对应的第二标准化字符串;
第三标准化字符串生成子单元,适于根据所述第三深度学习特征向量,得到所述原始字符串对应的第三标准化字符串;
所述异常字符串识别单元包括:
第一异常字符串识别子单元,适于将所述第一标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第一标准化字符串中的异常字符串;
第二异常字符串识别子单元,适于将所述第二标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第二标准化字符串中的异常字符串;
第三异常字符串识别子单元,适于将所述第三标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第三标准化字符串中的异常字符串。
11.根据权利要求10所述的识别异常字符串的装置,其特征在于,所述标准化字符串生成单元还包括:
特征向量融合子单元,适于融合所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量,获得融合特征向量;
深度学习子单元,适于将所述融合特征向量输入预设的第四深度学习模型中,确定所述原始字符串对应的第四标准化字符串;
所述异常字符串识别单元还包括:
第四异常字符串识别子单元,适于将所述第四标准化字符串与预设的异常数据库中的字符串进行匹配,识别出所述第四标准化字符串中的异常字符串。
12.根据权利要求9或11所述的识别异常字符串的装置,其特征在于,所述特征向量融合子单元,适于将所述第一深度学习特征向量、第二深度学习特征向量和第三深度学习特征向量首尾连接。
13.根据权利要求8所述的识别异常字符串的装置,其特征在于,所述第一深度学习模型包括第一循环神经网络模型,所述第二深度学习模型包括卷积神经网络模型,所述第三深度学习模型包括第二循环神经网络模型。
14.根据权利要求8至11任一项或权利要求13所述的识别异常字符串的装置,其特征在于,所述第二原始字符串转换单元,适于根据所述原始字符串的主体语言类型,将所述原始字符串转换为所述主体语言类型对应的音标串。
15.一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至7任一项所述方法的步骤,且在识别结果是有异常字符串时,根据预先设置,输出异常提示信息。
16.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至7任一项所述方法的步骤。
CN201910802851.0A 2019-08-28 2019-08-28 识别异常字符串的方法、装置、设备及可读存储介质 Active CN110516125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910802851.0A CN110516125B (zh) 2019-08-28 2019-08-28 识别异常字符串的方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910802851.0A CN110516125B (zh) 2019-08-28 2019-08-28 识别异常字符串的方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110516125A CN110516125A (zh) 2019-11-29
CN110516125B true CN110516125B (zh) 2020-05-08

Family

ID=68628417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910802851.0A Active CN110516125B (zh) 2019-08-28 2019-08-28 识别异常字符串的方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110516125B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113382000A (zh) * 2021-06-09 2021-09-10 北京天融信网络安全技术有限公司 一种ua字符串的异常检测方法、装置、设备及介质
CN113792820B (zh) * 2021-11-15 2022-02-08 航天宏康智能科技(北京)有限公司 用户行为日志异常检测模型的对抗训练方法和装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03141484A (ja) * 1989-10-26 1991-06-17 Nec Corp 文字切り出し方法及びその装置
CN103000176A (zh) * 2012-12-28 2013-03-27 安徽科大讯飞信息科技股份有限公司 语音识别方法和***
CN107633343A (zh) * 2017-08-09 2018-01-26 杭州洋驼网络科技有限公司 交易数据变化风险识别***及方法
CN108108732A (zh) * 2016-11-25 2018-06-01 财团法人工业技术研究院 字符辨识***及其字符辨识方法
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及***
CN109522558A (zh) * 2018-11-21 2019-03-26 金现代信息产业股份有限公司 一种基于深度学习的中文错字校正方法
CN109547455A (zh) * 2018-12-06 2019-03-29 南京邮电大学 工业物联网异常行为检测方法、可读存储介质和终端
CN109739370A (zh) * 2019-01-10 2019-05-10 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置
CN109753987A (zh) * 2018-04-18 2019-05-14 新华三信息安全技术有限公司 文件识别方法和特征提取方法
CN109816118A (zh) * 2019-01-25 2019-05-28 上海深杳智能科技有限公司 一种基于深度学习模型的创建结构化文档的方法及终端
CN110083819A (zh) * 2018-01-26 2019-08-02 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备
CN110110577A (zh) * 2019-01-22 2019-08-09 口碑(上海)信息技术有限公司 识别菜名的方法及装置、存储介质、电子装置
CN110135414A (zh) * 2019-05-16 2019-08-16 京北方信息技术股份有限公司 语料库更新方法、装置、存储介质及终端
CN110135261A (zh) * 2019-04-15 2019-08-16 北京易华录信息技术股份有限公司 一种训练道路异常识别模型、道路异常识别的方法及***

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03141484A (ja) * 1989-10-26 1991-06-17 Nec Corp 文字切り出し方法及びその装置
CN103000176A (zh) * 2012-12-28 2013-03-27 安徽科大讯飞信息科技股份有限公司 语音识别方法和***
CN108108732A (zh) * 2016-11-25 2018-06-01 财团法人工业技术研究院 字符辨识***及其字符辨识方法
CN107633343A (zh) * 2017-08-09 2018-01-26 杭州洋驼网络科技有限公司 交易数据变化风险识别***及方法
CN110083819A (zh) * 2018-01-26 2019-08-02 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备
CN109753987A (zh) * 2018-04-18 2019-05-14 新华三信息安全技术有限公司 文件识别方法和特征提取方法
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及***
CN109522558A (zh) * 2018-11-21 2019-03-26 金现代信息产业股份有限公司 一种基于深度学习的中文错字校正方法
CN109547455A (zh) * 2018-12-06 2019-03-29 南京邮电大学 工业物联网异常行为检测方法、可读存储介质和终端
CN109739370A (zh) * 2019-01-10 2019-05-10 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置
CN110110577A (zh) * 2019-01-22 2019-08-09 口碑(上海)信息技术有限公司 识别菜名的方法及装置、存储介质、电子装置
CN109816118A (zh) * 2019-01-25 2019-05-28 上海深杳智能科技有限公司 一种基于深度学习模型的创建结构化文档的方法及终端
CN110135261A (zh) * 2019-04-15 2019-08-16 北京易华录信息技术股份有限公司 一种训练道路异常识别模型、道路异常识别的方法及***
CN110135414A (zh) * 2019-05-16 2019-08-16 京北方信息技术股份有限公司 语料库更新方法、装置、存储介质及终端

Also Published As

Publication number Publication date
CN110516125A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
WO2020186778A1 (zh) 错词纠正方法、装置、计算机装置及存储介质
US20190278846A1 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
CN111523306A (zh) 文本的纠错方法、装置和***
CN101133411A (zh) 非罗马字符的容错罗马化输入方法
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
WO2023108994A1 (zh) 一种语句生成方法及电子设备、存储介质
CN111382261B (zh) 摘要生成方法、装置、电子设备及存储介质
CN113205160B (zh) 模型训练、文本识别方法、装置、电子设备和介质
CN110880324A (zh) 语音数据的处理方法、装置、存储介质及电子设备
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
JP2023012522A (ja) クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN111400454A (zh) 摘要生成方法、装置、电子设备及存储介质
CN111159394A (zh) 一种文本摘要生成方法和装置
CN110990527A (zh) 自动问答方法及装置、存储介质及电子设备
WO2019149065A1 (zh) 绘文字兼容显示方法、装置、终端及计算机可读存储介质
CN108090044B (zh) 联系方式的识别方法和装置
CN113345409B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN113272799A (zh) 编码信息提取器
CN115294581A (zh) 错误字符的识别方法、装置、电子设备及存储介质
JP2019145023A (ja) 文書校閲装置およびプログラム
Huang et al. A Homophone-based Chinese Text Steganography Scheme for Chatting Applications.
CN113066498B (zh) 信息处理方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant