CN115757764A - 一种信息识别方法、装置、设备及计算机可读存储介质 - Google Patents

一种信息识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115757764A
CN115757764A CN202110996527.4A CN202110996527A CN115757764A CN 115757764 A CN115757764 A CN 115757764A CN 202110996527 A CN202110996527 A CN 202110996527A CN 115757764 A CN115757764 A CN 115757764A
Authority
CN
China
Prior art keywords
link
information
data
link data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110996527.4A
Other languages
English (en)
Inventor
孙祥训
程宝平
谢小燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110996527.4A priority Critical patent/CN115757764A/zh
Publication of CN115757764A publication Critical patent/CN115757764A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息识别方法、装置、设备及计算机可读存储介质,该方法包括:获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果,能够基于端到端思想,在对待处理信息的文本数据和链接数据进行特征提取后,再进行融合得到识别结果,简化识别过程,并提升识别方法的普适性以及识别准确率。

Description

一种信息识别方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及信息处理领域,涉及但不限于一种信息识别方法、装置、设备及计算机可读存储介质。
背景技术
随着移动终端的不断普及,移动终端已经成为人们日常生活中必不可少的一部分,在移动终端带来高效、便捷的同时,也存在一些安全隐患,举例来说,手机短信成为接收银行、支付软件、云盘以及其他各种平台信息的重要通道,诈骗短信模仿官方机构通过发送包含诈骗网络链接的手机短信的方式对用户的金钱、支付密码及其他重要隐私进行诈骗。
在相关技术中,一些使用已知短信文本特征向量及其对应诈骗类别训练出一个文本多分类模型,并使用该模型对诈骗短信进行识别,该方法只利用了诈骗短信的文本信息特征,对文本信息和官方短信极为相似的诈骗短信容易漏判,从而影响诈骗短信的识别准确率;另一些使用Word2Vec将分词后的词语转换成词向量,对短信文本进行特征抽取,该方法只利用了诈骗短信的文本信息特征,并未利用诈骗短信的网络链接特征,从而影响诈骗短信的识别精度,且该方法使用长短期记忆(Long Short-Term Memory,LSTM)神经网络对文本进行处理,速度较慢,无法适用第五代移动通信技术(5th Generation MobileCommunication Technology,5G)海量数据场景下的诈骗短信识别;还有一些相关技术除短信文本外还需要获取包括发送侧地址、发送基站、发送频率、接收侧地址等等多个维度的特征,这些特征获取难度较大、成本较高,且未利用诈骗短信中的网络链接特征,从而导致诈骗短信识别过程复杂、识别速度慢、识别准确率低下的问题。
发明内容
有鉴于此,本申请实施例提供一种信息识别方法、装置、设备及计算机可读存储介质。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信息识别方法,包括:
获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;
分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;
基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;
基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果。
本申请实施例提供一种信息识别装置,所述信息识别装置包括:
获取模块,用于获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;
特征提取模块,用于分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;
第一确定模块,用于基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;
第二确定模块,用于基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果。
本申请实施例提供一种电子设备,所述电子设备包括:
处理器;以及
存储器,用于存储可在所述处理器上运行的计算机程序;
其中,所述计算机程序被处理器执行时实现上述信息识别方法。
本申请实施例提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,该计算机可执行指令配置为执行上述信息识别方法。
本申请实施例提供一种信息识别方法、装置、设备及计算机可读存储介质,先对获取到的待处理信息进行分离处理,得到该待处理信息的文本数据和链接数据;然后,再对文本数据进行特征提取,得到文本特征,还对链接数据也进行特征提取,得到链接特征;接着,确定链接数据与预先构建好的链接知识库之间的相似度属性信息;最后,基于文本特征、链接特征以及相似度属性信息确定待处理信息的识别结果。在识别过程中,不仅对文本数据进行特征提取,而且还对链接数据进行特征提取,并确定相似度属性信息,从而获取到针对待处理信息更全面的特征;最后基于文本特征、链接特征和相似度属性信息确定出待处理信息的识别结果,从而实现快速、高效地端到端识别,并能够基于更多的特征提升识别准确率。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本申请实施例提供的信息识别方法的一种实现流程示意图;
图2为本申请实施例提供的训练模型方法的一种实现流程示意图;
图3为本申请实施例提供的特征提取方法的一种实现流程示意图;
图4为本申请实施例提供的文本特征提取方法的一种实现流程示意图;
图5为本申请实施例提供的相似度属相信息确定方法的一种实现流程示意图;
图6为本申请实施例提供的各个相似度值确定方法的一种实现流程示意图;
图7为本申请实施例提供的信息识别方法的另一种实现流程示意图;
图8为本申请实施例提供的链接知识库确定方法的一种实现流程示意图;
图9为本申请实施例提供的信息识别方法的再一种实现流程示意图;
图10为本申请实施例提供的识别模型架构示意图;
图11为本申请实施例提供的信息识别装置的一种组成结构示意图;
图12为本申请实施例提供的电子设备的组成结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
基于相关技术所存在的问题,本申请实施例提供一种信息识别方法,本申请实施例提供的方法可以通过计算机程序来实现,该计算机程序在执行的时候,完成本申请实施例提供的信息识别方法中各个步骤。在一些实施例中,该计算机程序可以在电子设备中的处理器执行。图1为本申请实施例提供的信息识别方法的一种实现流程,该方法可应用于电子设备,该电子设备可以是智能手机、电脑、智能穿戴式设备等等,如图1所示,该信息识别方法包括:
步骤S101,获取待处理信息,对待处理信息进行分离处理,得到文本数据和链接数据。
这里,以电子设备为智能手机为例,待处理信息可以是该智能手机基于所携带通信卡接收到的信息,也可以是该智能手机的即时通信应用程序基于网络通信链路接收到的信息,本申请实施例对待处理信息的来源并不做限定。其中,该待处理信息包括文本数据和链接数据,也即,待处理信息中既包括文本内容还包括链接内容。
在本申请实施例中,可以通过关键词抽取算法对待处理信息进行分离处理,从而得到待处理信息中的文本数据以及链接数据,从而实现对待处理信息的分离处理。
步骤S102,分别对文本数据和链接数据进行特征提取,得到对应的文本特征和链接特征。
这里,可通过训练好的文本特征提取子模型对文本数据进行特征提取,得到文本特征,该训练好的文本特征提取子模型可以是神经网络、支持向量机、遗传算法等人工智能模型。在实现时,可通过对文本数据进行规范化、向量化、卷积以及池化处理,从而得到文本特征,其中,可以是进行一次卷积和池化处理,也可以是进行多次卷积和池化处理,进行卷积和池化处理的次数可根据实际文本数据情况而定,本申请实施例并不做限定。举例来说,在对文本数据进行特征提取时,可通过词语级卷积神经网络进行特征抽取,卷积核大小分别为3、5、7,数量可以为128个。
可通过训练好的链接特征提取子模型对链接数据进行特征提取,得到链接特征,同样地,该训练好的链接特征提取子模型可以是神经网络、支持向量机、遗传算法等人工智能模型。在实现时,可通过对链接数据进行卷积和池化处理实现对链接数据的特征提取,其中,可以是进行一次卷积和池化处理,也可以是进行多次卷积和池化处理,进行卷积和池化处理的次数可根据实际链接数据情况而定,本申请实施例并不做限定。举例来说,在进行链接数据特征提取时,可通过字符集卷积神经网络进行特征提取,其中,卷积神经网络的卷积核大小共三种,分别为3、5、7,数量可以为64个。
步骤S103,基于链接数据和预先构建好的链接知识库确定链接数据的相似度属性信息。
这里,预先构建好的链接知识库中可以包括多个正常链接数据和多个异常链接数据,其中,正常链接数据是指合规链接数据,而异常链接数据是指不合规链接数据或者存在欺骗性的链接数据,如果误点该异常链接数据对应的链接,会给用户带来安全或者财产损失。
在本申请实施例中,可通过训练好的相似度处理子模型对链接数据和链接知识库进行相似度处理,从而得到相似度属性信息。在实际实现时,先判断链接数据与链接知识库是否满足匹配条件,在链接数据与链接知识库满足匹配条件的情况下,确定链接知识库中满足匹配条件的目标参考链接数据,并获取该目标参考链接数据的第一标签信息;接着,将链接数据与链接知识库之间的相似度值设置为预设值;最后,将第一标签信息和预设值确定为相似度属性信息。
而在链接数据与链接知识库不满足匹配条件的情况下,也即,无法通过匹配条件确定出目标参考链接数据,则确定链接数据与链接知识库中各个链接之间的相似度值,并将最大相似度值对应的链接数据确定为目标参考链接数据;接着,获取该目标参考链接数据的第二标签信息,并将最大相似度值和第二标签信息确定为相似度属性信息。
步骤S104,基于文本特征、链接特征和相似度属性信息确定待处理信息的识别结果。
这里,可以将文本特征、链接特征以及相似度属性信息输入至训练好的融合特征子模型,对文本特征、链接特征以及相似度属性信息进行融合处理,从而得到待处理信息的识别结果,其中,该训练好的融合特征子模型可以是神经网络、支持向量机、遗传算法等人工智能模型。在实际实现时,可以先对文本特征、链接特征以及相似度属性信息进行全连接处理,将分布式特征表示映射到样本标记空间,实现分类的目的,得到全连接结果;接着,对全连接结果进行归一化处理,从而得到待处理信息是否为异常信息的结果,其中,在进行归一化处理时可通过softmax层来实现。
本申请实施例提供一种信息识别方法,先对获取到的待处理信息进行分离处理,得到该待处理信息的文本数据和链接数据;然后,再对文本数据进行特征提取,得到文本特征,还对链接数据也进行特征提取,得到链接特征;接着,确定链接数据与预先构建好的链接知识库之间的相似度属性信息;最后,基于文本特征、链接特征以及相似度属性信息确定待处理信息的识别结果。在识别过程中,不仅对文本数据进行特征提取,而且还对链接数据进行特征提取,并确定相似度属性信息,从而获取到针对待处理信息更全面的特征;最后基于文本特征、链接特征和相似度属性信息确定出待处理信息的识别结果,从而实现快速、高效地端到端识别,并能够基于更多的特征提升识别准确率。
在一些实施例中,在步骤S101“获取待处理信息,对待处理信息进行分离处理,得到文本数据和链接数据”之前,还可以执行以下步骤:
步骤S001,获取训练好的识别模型。
其中,该训练好的识别模型用于对待处理信息的文本数据和链接数据进行识别,识别出该待处理信息是正常信息还是异常信息。该训练好的识别模型包括训练好的文本特征提取子模型、训练好的链接特征提取子模型、训练好的相似度处理子模型和训练好的融合特征子模型,其中:
训练好的文本特征提取子模型用于对文本数据进行特征提取,得到对应文本特征;训练好的链接特征提取子模型用于对链接数据进行特征提取,得到对应的链接特征;训练好的相似度处理子模型用于对链接数据和链接知识库进行相似度处理,得到链接数据的相似度属性信息;训练好的融合特征子模型用于对文本特征、链接特征以及相似度属性信息进行融合处理,从而得到该待处理信息的识别结果。
在本申请实施例中,训练好的识别模型可以为神经网络模型、支持向量机模型、贝叶斯网络模型等人工智能模型。以训练好的识别模型为神经网络模型为例,训练好的文本特征提取子模型可以为词语级卷积神经网络,训练好的链接特征提取子模型可以为字符级卷积神经网络。
在其他一些实施例中,训练好的识别模型是通过对预设的识别模型的训练而得到的,如图2所示,可通过如下步骤S0011至步骤S0014来获得训练好的识别模型:
步骤S0011,获取预设的识别模型、样本信息、样本信息对应的样本标签信息。
这里,预设的识别模型可以为神经网络模型、支持向量机模型、贝叶斯网络模型等人工智能模型,样本信息也即训练信息,该样本信息的标签已知,记为样本标签信息。
步骤S0012,利用预设的识别模型对样本信息进行识别处理,得到样本信息对应的预测识别结果。
这里,将样本信息输入至预设的识别模型,利用预设的识别模型对样本信息进行识别处理,将预设的识别模型的输出作为样本信息对应的预测识别结果。
步骤S0013,获取样本标签信息和预测识别结果之间的误差信息。
示例地,样本标签信息可以为样本信息为异常信息的概率为100%,预测识别结果为样本信息为异常信息的概率为80%,那么,此时误差信息为20%。
步骤S0014,基于误差信息和误差阈值对预设的识别模型进行反向传播训练,得到训练好的识别模型。
这里,误差阈值可以为10%、5%、3%等,比较误差信息与误差阈值,在误差信息大于误差阈值的情况下,基于该误差信息对预设的识别模型中的参数权重进行调整,直至误差信息小于误差阈值,从而得到训练好的识别模型,用于对信息的识别。
基于训练好的识别模型的组成结构,如图3所示,上述步骤S102“分别对文本数据和链接数据进行特征提取,得到对应的文本特征和链接特征”可通过以下步骤S1021和步骤S1022来实现:
步骤S1021,利用训练好的文本特征提取子模型,对文本数据进行特征提取,得到文本特征。
在实际实现时,如图4所示,步骤S1021可通过以下步骤S211至步骤S213来实现:
步骤S211,对文本数据进行文本规范化处理,得到处理后的文本数据。
这里,为达到较为精确的识别结果的目的,则需要确保待处理信息用词规范,那么,可通过字典映射、文本纠错、统计机器翻译等规范化方法对文本数据进行规范化处理,获得用词规范的文本数据,也即,处理后的文本数据。
步骤S212,对处理后的文本数据进行向量化处理,得到文本向量。
这里,可先基于最大匹配法、最少分词法、最大概率法等分词方法对处理后的文本数据进行分词处理,得到分词后的文本数据;接着,可通过基于矩阵的分布式表示、基于聚类的分布式表示、基于神经网络的分布式表示等方法实现向量化处理,将分词后的文本数据转换为向量,也即,得到文本向量。
步骤S213,对文本向量进行卷积、池化处理,得到文本特征。
这里,可通过卷积层实现对文本向量的卷积处理,该卷积层是由多个卷积单元组成,经过一次卷积,能够提取到一些低级的特征,例如边缘、线条和角等,再通过多次卷积迭代,便能够从这些低级特征中迭代提取更复杂的特征;接着,将卷积得到的较为复杂的特征输入至池化层进行池化处理,实现对较为复杂的特征进行形式上的降采样,得到文本特征。以最大池化举例来说,最大池化是将输入划分为若干个矩形区域,对每个区域输出最大值,组成文本特征,如此,能够减小数据的空间大小,同时降低数据的数量以及计算量,同时也能够控制了过拟合。
步骤S1022,利用训练好的链接特征提取子模型,对链接数据进行特征提取,得到链接特征。
在实际实现时,可通过以下步骤S221和步骤S222来实现步骤S1022(图中未示出):
步骤S221,对链接数据进行卷积处理,得到卷积结果。
这里,步骤S221中的卷积处理与步骤S213中的卷积处理相类似,那么,步骤S221的实现过程可参考步骤S213中的卷积处理过程。在实现时,不同之处在于步骤S213是对文本向量进行卷积处理,而步骤S221是对链接数据进行卷积处理,此外,步骤S213和步骤S221卷积核、卷积单元个数可以相同,也可以不同。
步骤S222,对卷积结果进行池化处理,得到链接特征。
这里,步骤S222的实现过程与步骤S213中池化处理过程相类似,那么,步骤S222的实现过程可参考步骤S213中的池化过程。
在本申请实施例中,通过以上步骤S1021和步骤S1022,利用训练好的文本特征提取子模型对文本数据进行文本规范化、向量化、卷积以及池化处理,从而得到文本特征;利用训练好的链接特征提取子模型对链接数据进行卷积和池化处理,得到链接特征,从而实现对文本数据和链接数据的特征提取,实现从多维度获取待处理信息的特征,更好地为后续识别做好准备工作。
基于上述实施例,链接知识库中包括多个参考链接数据,步骤S103“基于链接数据和预先构建好的链接知识库确定链接数据的相似度属性信息”在实现时,可以是利用训练好的相似度处理子模型对链接数据和链接知识库进行相似度处理,得到相似度属性信息,如图5所示,可通过以下步骤S31至步骤S38实现“利用训练好的相似度处理子模型对链接数据和链接知识库进行相似度处理,得到相似度属性信息”:
步骤S31,判断链接知识库中是否包括与链接数据满足匹配条件的目标参考链接数据。
这里,与链接数据满足匹配条件满足这匹配条件是指,链接知识库中包括与链接数据保持相同的参考链接数据,将该参考链接数据记为目标参考链接数据,其中,保持相同是指字符个数相同且相同位置的字符也相同。在判断出链接知识库中包括与链接数据满足匹配条件的目标参考链接数据的情况下,进入步骤S32,也即,获取目标参考链接数据的第一标签数据;在判断出链接知识库中不包括与链接数据满足匹配条件的目标参考链接数据的情况下,进入步骤S35,也即,获取链接数据与链接知识库中各个参考链接数据之间的各个相似度值。
步骤S32,获取目标参考链接数据的第一标签信息。
这里,目标参考链接数据的第一标签信息用于表征该目标参考链接数据是否为正常链接数据或者异常链接数据,由于链接知识库中各个参考链接数据的正常与否是已知的,也即,针对链接数据知识库中任一参考链接数据,该参考链接数据的标签信息是确定的,要么为正常链接数据,要么为异常链接数据。那么,在本申请实施例中,则可通过读取指令获得目标参考链接数据的第一标签信息。
步骤S33,将链接数据和链接知识库之间的相似度值设置为预设值。
这里,预设值可以为0.5、1、2等值,该预设值可以为默认值,也可以为自定义设置值,此时,链接数据和链接知识库之间的相似度值则为该预设值。
步骤S34,将预设值和第一标签信息确定为相似度属性信息。
这里,可对预设值和第一标签信息进行拼接处理,将拼接后得到的信息作为链接数据的相似度属性信息。
步骤S35,确定链接数据和链接知识库各个参考链接数据之间的各个相似度值。
此时,链接知识库中不包括与链接数据满足匹配条件的目标链接数据,则确定链接数据与链接知识库中各个参考链接数据之间的各个相似度值,在确定各个相似度值的过程中,如图6所示,步骤S35可通过以下步骤S351至步骤S353来实现:
步骤S351,获取链接数据的第一数据长度与各个参考链接数据的各个第二数据长度。
这里,数据长度是指链接数据中的字符个数,可通过字符长度读取指令获取链接数据的第一数据长度,还可通过字符长度读取指令获取链接知识库中各个参考链接数据的各个第二数据长度。
步骤S352,确定链接数据与各个参考链接数据之间的各个编辑距离。
这里,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符。
在本申请实施例中,统一按照最小处理方法,确定链接数据与各个参考链接数据之间的各个编辑距离。
步骤S353,基于第一数据长度、各个第二数据长度和各个编辑距离确定各个相似度值。
这里,各个编辑距离与各个相似度值负相关,也即,编辑距离越小表征链接数据与参考链接数据越相似,相似度值也就越大。
这里,以确定链接数据与一个参考链接数据的相似度值为例,可以通过大小比较确定第一数据长度和该参考相似度数据对应的第二数据长度中的较大值和较小值;接着,确定较大值与该参考链接数据对应的编辑距离的差值;最后,将该差值与较小值的比值确定为链接数据与该参考链接数据的相似度值。
以此类推,可按照上述方法,确定出链接数据与链接知识库中各个参考链接数据之间的各个相似度值。
步骤S36,确定各个相似度值中的最大相似度值,并将最大相似度值对应的参考链接数据确定为目标参考链接数据。
这里,可通过两两比较的方式确定出各个相似度值中相似度值最大的最大相似度值,并将该最大相似度值对应的参考链接数据确定为目标参考链接数据。
步骤S37,获取目标参考链接数据的第二标签信息。
这里,步骤S37的实现过程与步骤S32的实现过程相类似,因此,步骤S37的实现过程可参考步骤S32的实现过程。
步骤S38,将最大相似度值和第二标签信息确定为相似度属性信息。
这里,步骤S38的实现过程与步骤S34的实现过程相类似,因此,步骤S38的实现过程可参考步骤S34的实现过程。
在本申请实施例中,通过以上步骤S31至步骤S38,在确定出链接知识库中包括与链接数据满足匹配条件的目标参考链接数据的情况下,获取该目标参考链接数据的第一标签信息,并将链接数据与链接知识库之间的相似度值设置为预设值;接着,将预设值和第一标签信息确定为相似度属性信息;而在确定出链接知识库中不包括与链接数据满足匹配条件的目标参考链接数据的情况下,则获取链接数据的第一数据长度和各个参考链接数据的第二数据长度,再确定链接数据与各个参考链接数据之间的各个编辑距离;接着,基于第一数据长度、第二数据长度以及各个编辑距离确定链接数据与各个参考链接数据之间的各个相似度值;然后,从各个相似度值中确定出最大相似度值,并将最大相似度值对应的参考链接数据确定为目标参考链接数据;最后,获取该目标参考链接数据的第二标签信息,并将最大相似度值和第二标签信息确定为相似度属性信息。从而确定出链接数据的链接属性信息。
基于上述实施例,上述步骤S104“基于文本特征、链接特征和相似度属性信息确定待处理信息的识别结果”在实现时,可以是利用训练好的融合特征子模型,对文本特征、链接特征和相似度属性信息进行融合处理,得到待处理信息的识别结果。相应地,“利用训练好的融合特征子模型,对文本特征、链接特征和相似度属性信息进行融合处理,得到待处理信息的识别结果”可通过以下步骤S41和步骤S42来实现(图中未示出):
步骤S41,对文本特征、链接特征和相似度属性信息进行全连接处理,得到全连接结果。
在本申请实施例中,以卷积神将网络的全连接层的为例,可将文本特征、链接特征和相似度属性信息输入至该全连接层,实现全连接处理,对文本特征、链接特征和相似度属性信息进行整合处理,通过每个神经元的激励函数,将分布式特征表示映射到样本标记空间,实现分类的目的。在实际实现时,全连接层可以为多层。
步骤S42,对全连接结果进行归一化处理,得到待处理信息的识别结果。
这里,最后一层全连接层的输出值传递给归一化输出层,对全连接层的输出值进行归一化处理,这里归一化处理相当于分类处理,从而得待处理信息的识别结果,该结果可以通过概率的形式来表示。
在本申请实施例中,通过以上步骤S41和步骤S42对文本特征、链接特征和相似度属性信息进行全连接、归一化处理,便得到待处理信息的识别结果。
在一些实施例中,识别结果包括待处理信息为异常信息的异常概率,如图7所示,在步骤S104之后,还可以执行以下步骤S105至步骤S109,以下结合图7进行说明。
步骤S105,判断异常概率是否大于概率阈值。
这里,概率阈值可以为0.8、0.85、0.9等,该概率阈值可以为默认值,也可以为自定义设置值。如果判断出异常概率大于概率阈值时,则表征该待处理信息为异常信息,则进入步骤S106;如果判断出异常概率小于或者等于概率阈值时,表征该待处理信息不是异常信息,无需输出告警信息,进入步骤S109,正常显示该待处理信息。
步骤S106,确定待处理信息为异常信息。
此时,异常概率大于概率阈值,将待处理信息确定为异常信息。
步骤S107,响应于待处理信息为异常信息,确定告警消息。
这里,告警消息的表现形式可以为振动、语音、提示框等表现形式,本申请实施例并不做限定。示例地,可以将控制电子设备振动5秒确定为告警消息。
步骤S108,输出异常告警消息。
这里,承接上面的距离,可控制电子设备振动5秒,从而以振动的方式输出该告警消息。
步骤S109,显示待处理信息。
此时,异常概率小于或者等于概率阈值,表征待处理信息为正常信息,显示该待处理信息即可,无需确定告警消息。
通过以上步骤S105至步骤S109,在异常概率大于概率阈值的情况下,确定待处理信息为异常信息;接着,确定振动、语音、提示框等异常告警消息;最后,输出该异常告警消息,从而达到提示的目的,丰富电子设备的功能。而在异常概率小于或者等于概率阈值的情况下,确定待处理信息为正常信息,显示该待处理信息即可。
在一些实施例中,在步骤S103之前,需要预先构建好链接知识库,在实际实现时,可以通过图8所示的步骤S801至步骤S803构建链接知识库,下面结合图8对各个步骤进行说明。
步骤S801,获取第一预设数量的正常链接数据和第二预设数量的异常链接数据。
这里,第一预设数量可以为1万、1.5万、2万等,第二预设数量可以为5千、5.5千、3万等,第一预设数量和第二预设数量可以为默认值,也可以为自定义值,第一预设数量和第二预设数量可以相等,也可以不相等,本申请实施例并不做限定。
在本申请实施例中,正常链接数据和异常链接数据可以从公网中获取。
步骤S802,基于正常链接数据和异常链接数据,构建链接知识库。
这里,可对正常链接数据增加“正常”标签信息,对异常链接数据增加“异常”标签信息,由此,增加标签信息后的正常链接数据和增加标签信息后的异常链接数据组成链接知识库。
步骤S803,在达到预设间隔时长时,获取更新后的正常链接数据和更新后的异常链接数据,并基于更新后的正常链接数据和更新后的异常链接数据更新链接知识库,构建更新后的链接知识库。
这里,预设间隔时长可以为1周、2周、3周等,考虑到链接数据存在更新,那么,在每隔预设间隔时长,电子设备则从公网上再次获取更新后的正常链接数据和更新后的异常链接数据,同样对更新后的正常链接数据增加“正常”标签信息,对更新后的异常链接数据增加“异常”标签信息,最后通过更新后且增加标签信息的正常链接数据和更新后且增加标签信息的异常链接数据组成更新后的链接知识库。
在本申请实施例中,通过以上步骤S801至步骤S803,由异常链接数据和正常链接数据构成链接知识库,并定期对链接知识库进行更新,确保链接知识库的准确性。
基于上述实施例,本申请实施例再提供一种信息识别方法,在本申请实施例中,以待处理信息为短信进行说明。利用本申请实施例提供的信息识别方法能够识别出短信是否为诈骗短信(对应其他实施例中的异常信息),图9为本申请实施例提供的信息识别方法的一种实现流程,如图9所示,该信息识别方法包括:
步骤S901,获取待处理短信。
这里,该待处理短信中包括文本数据和链接数据,待处理短信可以是终端基于电话号码接收到的信息,也可以是终端的即时通信应用程序基于网络通信链接接收到的信息。此外,待处理短信还可以是用户输入的信息,本申请实施例对待处理短信的来源并不做限定。
步骤S902,预处理。
这里,是对待处理短信进行预处理,预处理可以指分离处理,是对待处理短信中的文本数据和链接数据分离处理,从而分别得到文本数据9021和链接数据9022。在实际实现时,先读取包含网络链接的待处理短信,然后分别抽取其中的短信文本和网络链接,其中,短信文本也即文本数据,网络链接也即链接数据。在获取到网络链接后,如果网络链接为短链接,则需要将该短链接转换成长度正常的链接。
步骤S903,从公网9031获取链接知识库9032。
这里,可以使用爬虫从公网爬取包括运营商、银行、电商、支付软件、手机厂商、社交网站、游戏厂商、云盘厂商、证券理财、视频网站、出行网站等多个类别网站链接的正常链接9033。在本申请实施例中,链接知识库中包含的正常链接数量可以为1万条,还可以根据网站热度定期对链接知识库进行更新,链接知识库中异常链接9034可以由已发现的异常链接以及钓鱼(phishtank)网站中的部分网址组成。
步骤S904,将网络链接与链接知识库进行对比。
这里,抽取步骤S902中得到待处理短信内网络链接的域名部分,将网络链接的域名部分与链接知识库中的正常链接和异常链接进行对比,如果命中,也即,链接知识库中包含与网络链接域名相同的链接,此时,直接输出链接属性信息对应结果9041;如果未命中,也即,网络链接的域名部分与链接知识库中的链接并不相同,则进入步骤S905,继续确定网络链接与链接知识库之间的相似度属性信息。
步骤S905,确定相似度属性信息。
这里,本申请实施例提供一种改进的相似度计算公式,如公式(1)所示,该改进的相似度计算公式是基于编辑距离、网络链接字符长度以及链接知识库中链接字符长度来确定的,在步骤S905中使用如下公式(1)计算步骤S904中抽取的待处理短信的网络链接域名与链接知识库中各个链接的相似度,并输出其中的最大值,将该最大值确定为相似度属性信息。其中,相似度记为S,相似度S的计算公式为:
Figure BDA0003234308920000171
在公式(1)中,url1指待处理短信的网络链接;url2指链接知识库中的网络链接,由于链接知识库中包括多个链接,那么url2则为集合;len(url1)指待处理短信的网络链接的字符长度,也即网络链接中包含的字符个数;len(url2)指链接知识库中各个链接的字符长度;Lev(url1,url2)指网络链接与链接知识库之间的编辑距离;S的范围为[0,1],url1和url2分别为知识库中正常链接和待处理短信的网络链接,当其完全相同或互相包含时,S为1;完全不同时S为0。
在本申请实施例中,相似度属性信息是通过图10中训练好的相似度属性信息确定模块1002来确定,其中,训练好的相似度属性信息确定模块还可记为训练好的相似度处理子模型。
步骤S906,对网络链接进行特征提取。
这里,将步骤S902中得到的网络链接输入至图10所示的训练好的链接特征抽取网络1001进行深层特征表达抽取,其中,训练好的链接特征抽取网络还可记为训练好的链接特征提取子模型。
在本申请实施例中,链接特征抽取网络使用字符级卷积神经网络进行特征抽取,举例来说,卷积神经网络的卷积核大小共三种,分别为3、5、7,数量均为64个,从而得到链接特征向量。
步骤S907,对文本数据进行特征提取。
这里,对步骤S902中待处理短信的文本数据进行规范化、分词、词向量转换等处理,接着,使用图10中训练好的文本特征抽取网络1003对短信文本进行深层特征表达抽取,其中,训练好的文本特征抽取网络还可以记为训练好的文本特征提取子模型。
在本申请实施例中,文本特征抽取网络使用词语级卷积神经网络进行特征抽取,举例来说,卷积核大小分别为3、5、7,数量均为128个,从而得到文本特征向量。
步骤S908,对链接特征向量、相似度属性信息和文本特征向量进行融合处理,得到待处理短信的处理结果。
这里,如果待处理短信网络链接的域名部分与链接知识库中的链接完全相同,则将步骤S904、步骤S906、步骤S907中输出作为训练好的融合特征网络1004输入,训练好的融合网络模型最后一层为归一化层,举例来说可以为softmax层,输出其为诈骗短信的概率,如果大于阈值,则其为诈骗短信;如果待处理短信网络链接的域名部分与链接知识库中的链接不相同,则将步骤S905、步骤S906、步骤S907中输出作为融合网络模型输入,融合网络模型最后一层为softmax层,输出其为诈骗短信的概率,若大于阈值,则其为诈骗短信。
在本申请实施例中,训练好的融合特征网络可以记为训练好的融合特征子模型,训练好的融合特征网络将短信链接特征向量、相似度特征、文本特征向量拼接起来,通过两层全连接神经网络对诈骗短信多模态特征进行融合,通过softmax函数进行映射,得到短信为诈骗短信的概率值。
在本申请实施例中,通过上述步骤S901至步骤S908,待处理短信识别方法采用了端到端的识别模型,利用了待处理短信的文本特征向量、链接特征向量、网络链接与链接知识库之间的相似度属性信息对待处理短信进行识别,不仅可以针对文本模仿官方文本的诈骗短信,还可以识别链接模仿官方链接的诈骗短信,普适性更强,准确率更高。其中,链接特征抽取网络和文本特征抽取网络都使用了不同尺寸卷积核的卷积神经网络进行深层特征表达抽取,相对于LSTM、预训练模型(Bidirectional Encoder Representation fromTransformers,Bert)等时间序列相关神经网络,其速度更快,适合大规模诈骗短信数据处理,更符合5G业务场景需求。
基于前述的实施例,本申请实施例提供一种信息识别装置,该装置包括的各模块、以及各模块包括的各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central Processing Unit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital SignalProcessing,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
本申请实施例再提供一种信息识别装置,图11为本申请实施例提供的信息识别装置的组成结构示意图,如图11所示,所述信息识别装置1100包括:
获取模块1101,用于获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;
特征提取模块1102,用于分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;
第一确定模块1103,用于基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;
第二确定模块1104,用于基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果。
在一些实施例中,所述获取模块1101还用于获取训练好的识别模型,所述训练好的识别模型包括训练好的文本特征提取子模型、训练好的链接特征提取子模型、训练好的相似度处理子模型和训练好的融合特征子模型;
所述特征提取模块1102包括:
第一提取子模块,用于利用所述训练好的文本特征提取子模型,对所述文本数据进行特征提取,得到所述文本特征;
第二提取子模块,用于利用所述训练好的链接特征提取子模型,对所述链接数据进行特征提取,得到所述链接特征;
所述第一确定模块1103包括:
相似度处理子模块,用于利用所述训练好的相似度处理子模型,对所述链接数据和所述链接知识库进行相似度处理,得到所述相似度属性信息;
所述第二确定模块1104包括:
融合处理子模块,用于利用所述训练好的融合特征子模型,对所述文本特征、所述链接特征和所述相似度属性信息进行融合处理,得到所述待处理信息的识别结果。
在一些实施例中,所述第一特征提取子模块包括:
规范化单元,用于对所述文本数据进行文本规范化处理,得到处理后的文本数据;
向量化单元,用于对所述处理后的文本数据进行向量化处理,得到文本向量;
卷积池化单元,用于对所述文本向量进行卷积、池化处理,得到所述文本特征。
在一些实施例中,所述第二特征提取子模块包括:
卷积单元,用于对所述链接数据进行卷积处理,得到卷积结果;
池化单元,用于对所述卷积结果进行池化处理,得到所述链接特征。
在一些实施例中,相似度处理子模块包括:
第一获取单元,用于确定所述链接知识库中包括与所述链接数据满足匹配条件的目标参考链接数据时,获取所述目标参考链接数据的第一标签信息;
设置单元,用于将所述链接数据和所述链接知识库之间的相似度值设置为预设值;
第一确定单元,用于将所述预设值和所述第一标签信息确定为所述相似度属性信息。
在一些实施例中,相似度处理子模块还包括:
第二确定单元,用于确定所述链接知识库中不包括与所述链接数据满足匹配条件的目标链接数据时,确定所述链接数据和所述链接知识库各个参考链接数据之间的各个相似度值;
第三确定单元,用于确定所述各个相似度值中的最大相似度值,并将所述最大相似度值对应的参考链接数据确定为所述目标参考链接数据;
第二获取单元,用于获取所述目标参考链接数据的第二标签信息;
第四确定单元,用于将所述最大相似度值和所述第二标签信息确定为所述相似度属性信息。
在一些实施例中,第二确定单元包括:
获取子单元,用于获取所述链接数据的第一数据长度与所述各个参考链接数据的各个第二数据长度;
第一确定子单元,用于确定所述链接数据与所述各个参考链接数据之间的各个编辑距离;
第二确定子单元,用于基于所述第一数据长度、所述各个第二数据长度和所述各个编辑距离确定所述各个相似度值,其中,所述各个编辑距离与所述各个相似度值负相关。
在一些实施例中,融合入处理子模块包括:
全连接处理单元,用于对所述文本特征、所述链接特征和所述相似度属性信息进行全连接处理,得到全连接结果;
归一化处理单元,用于对所述全连接结果进行归一化处理,得到所述待处理信息的识别结果。
在一些实施例中,所述识别结果包括结果为异常信息的异常概率,所述信息识别装置1100还包括:
第三确定模块,用于确定所述异常概率大于概率阈值时,确定所述待处理信息为异常信息;
响应模块,用于响应于所述待处理信息为异常信息,确定异常告警消息;
输出模块,用于输出所述异常告警消息。
在一些实施例中,所述获取模块1101,还用于获取第一预设数量的正常链接数据和第二预设数量的异常链接数据;所述信息识别装置1100还包括:
构建模块,用于基于所述正常链接数据和所述异常链接数据,构建所述链接知识库;
更新模块,用于在达到预设间隔时长时,获取更新后的正常链接数据和更新后的异常链接数据,并基于所述更新后的正常链接数据和所述更新后的异常链接数据更新所述链接知识库,构建更新后的链接知识库。
在一些实施例中,所述获取模块1101,还用于获取预设的识别模型、样本信息、所述样本信息对应的样本标签信息;获取所述样本标签信息和所述预测识别结果之间的误差信息;所述信息识别装置1100还包括:
识别模块,用于利用所述预设的识别模型对所述样本信息进行识别处理,得到所述样本信息对应的预测识别结果;
训练模块,用于基于所述误差信息和误差阈值对所述预设的识别模型进行反向传播训练,得到所述训练好的识别模型。
需要说明的是,本申请实施例信息识别装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的信息识别方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的信息识别方法中的步骤。
本申请实施例提供一种电子设备,图12为本申请实施例提供的电子设备的组成结构示意图,如图12所示,所述电子设备1200包括:一个处理器1201、至少一个通信总线1202、用户接口1203、至少一个外部通信接口1204和存储器1205。其中,通信总线1202配置为实现这些组件之间的连接通信。其中,用户接口1203可以包括显示屏,外部通信接口1204可以包括标准的有线接口和无线接口。其中,所述处理器1201配置为执行存储器中存储的信息识别方法的程序,以实现以上述实施例提供的信息识别方法中的步骤。
以上电子设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请电子设备和存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台AC执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种信息识别方法,其特征在于,所述方法包括:
获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;
分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;
基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;
基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果。
2.根据权利要求1中所述的方法,其特征在于,在所述获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据之前,所述方法还包括:
获取训练好的识别模型,所述训练好的识别模型包括训练好的文本特征提取子模型、训练好的链接特征提取子模型、训练好的相似度处理子模型和训练好的融合特征子模型;
所述分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征,包括:利用所述训练好的文本特征提取子模型,对所述文本数据进行特征提取,得到所述文本特征;利用所述训练好的链接特征提取子模型,对所述链接数据进行特征提取,得到所述链接特征;
所述基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息,包括:利用所述训练好的相似度处理子模型,对所述链接数据和所述链接知识库进行相似度处理,得到所述相似度属性信息;
所述基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果,包括:利用所述训练好的融合特征子模型,对所述文本特征、所述链接特征和所述相似度属性信息进行融合处理,得到所述待处理信息的识别结果。
3.根据权利要求2中所述的方法,其特征在于,所述利用所述训练好的文本特征提取子模型,对所述文本数据进行特征提取,得到所述文本特征,包括:
对所述文本数据进行文本规范化处理,得到处理后的文本数据;
对所述处理后的文本数据进行向量化处理,得到文本向量;
对所述文本向量进行卷积、池化处理,得到所述文本特征。
4.根据权利要求2中所述的方法,其特征在于,所述利用所述训练好的链接特征提取子模型,对所述链接数据进行特征提取,得到所述链接特征,包括:
对所述链接数据进行卷积处理,得到卷积结果;
对所述卷积结果进行池化处理,得到所述链接特征。
5.根据权利要求2中所述的方法,其特征在于,所述链接知识库中包括多个参考链接数据,所述利用所述训练好的相似度处理子模型,对所述链接数据和所述链接知识库进行相似度处理,得到所述相似度属性信息,包括:
确定所述链接知识库中包括与所述链接数据满足匹配条件的目标参考链接数据时,获取所述目标参考链接数据的第一标签信息;
将所述链接数据和所述链接知识库之间的相似度值设置为预设值;
将所述预设值和所述第一标签信息确定为所述相似度属性信息。
6.根据权利要求5中所述的方法,其特征在于,所述利用所述训练好的相似度处理子模型,对所述链接数据和所述链接知识库进行相似度处理,得到所述相似度属性信息,还包括:
确定所述链接知识库中不包括与所述链接数据满足匹配条件的目标链接数据时,确定所述链接数据和所述链接知识库各个参考链接数据之间的各个相似度值;
确定所述各个相似度值中的最大相似度值,并将所述最大相似度值对应的参考链接数据确定为所述目标参考链接数据;
获取所述目标参考链接数据的第二标签信息;
将所述最大相似度值和所述第二标签信息确定为所述相似度属性信息。
7.根据权利要求6中所述的方法,其特征在于,所述确定所述链接数据和所述链接知识库各个参考链接数据之间的各个相似度值,包括:
获取所述链接数据的第一数据长度与所述各个参考链接数据的各个第二数据长度;
确定所述链接数据与所述各个参考链接数据之间的各个编辑距离;
基于所述第一数据长度、所述各个第二数据长度和所述各个编辑距离确定所述各个相似度值,其中,所述各个编辑距离与所述各个相似度值负相关。
8.根据权利要求2中所述的方法,其特征在于,所述利用所述训练好的融合特征子模型,对所述文本特征、所述链接特征和所述相似度属性信息进行融合处理,得到所述待处理信息的识别结果,包括:
对所述文本特征、所述链接特征和所述相似度属性信息进行全连接处理,得到全连接结果;
对所述全连接结果进行归一化处理,得到所述待处理信息的识别结果。
9.根据权利要求1中所述的方法,其特征在于,所述识别结果包括结果为异常信息的异常概率,所述方法还包括:
确定所述异常概率大于概率阈值时,确定所述待处理信息为异常信息;
响应于所述待处理信息为异常信息,确定异常告警消息;
输出所述异常告警消息。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
获取第一预设数量的正常链接数据和第二预设数量的异常链接数据;
基于所述正常链接数据和所述异常链接数据,构建所述链接知识库;
在达到预设间隔时长时,获取更新后的正常链接数据和更新后的异常链接数据,并基于所述更新后的正常链接数据和所述更新后的异常链接数据更新所述链接知识库,构建更新后的链接知识库。
11.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
获取预设的识别模型、样本信息、所述样本信息对应的样本标签信息;
利用所述预设的识别模型对所述样本信息进行识别处理,得到所述样本信息对应的预测识别结果;
获取所述样本标签信息和所述预测识别结果之间的误差信息;
基于所述误差信息和误差阈值对所述预设的识别模型进行反向传播训练,得到所述训练好的识别模型。
12.一种信息识别装置,其特征在于,所述信息识别装置包括:
获取模块,用于获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;
特征提取模块,用于分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;
第一确定模块,用于基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;
第二确定模块,用于基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;以及
存储器,用于存储可在所述处理器上运行的计算机程序;
其中,所述计算机程序被处理器执行时实现权利要求1至11任一项所述的信息识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令配置为执行上述权利要求1至11任一项所述的信息识别方法。
CN202110996527.4A 2021-08-27 2021-08-27 一种信息识别方法、装置、设备及计算机可读存储介质 Pending CN115757764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110996527.4A CN115757764A (zh) 2021-08-27 2021-08-27 一种信息识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110996527.4A CN115757764A (zh) 2021-08-27 2021-08-27 一种信息识别方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115757764A true CN115757764A (zh) 2023-03-07

Family

ID=85331933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110996527.4A Pending CN115757764A (zh) 2021-08-27 2021-08-27 一种信息识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115757764A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991874A (zh) * 2023-09-26 2023-11-03 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991874A (zh) * 2023-09-26 2023-11-03 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN116991874B (zh) * 2023-09-26 2024-03-01 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备

Similar Documents

Publication Publication Date Title
CN109117777A (zh) 生成信息的方法和装置
CN107333071A (zh) 视频处理方法、装置、电子设备及存储介质
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN111061874A (zh) 敏感信息检测方法和装置
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN110781407A (zh) 用户标签生成方法、装置及计算机可读存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN114386410A (zh) 预训练模型的训练方法和文本处理方法
CN111460783A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN110737811A (zh) 应用分类方法、装置以及相关设备
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质
CN114398973B (zh) 一种媒体内容标签识别方法、装置、设备及存储介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN115905605A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN115757764A (zh) 一种信息识别方法、装置、设备及计算机可读存储介质
CN112905787B (zh) 文本信息处理方法、短信处理方法、电子设备及可读介质
CN112417874A (zh) 命名实体的识别方法和装置、存储介质、电子装置
CN111477212A (zh) 内容识别、模型训练、数据处理方法、***及设备
CN113011875B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN114492584A (zh) 一种针对安卓中文应用市场的自动内容分级方法
CN114359811A (zh) 数据鉴伪方法、装置、电子设备以及存储介质
CN117591752B (zh) 一种多模态虚假信息检测方法、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination