具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1示出本申请实施例提供的一种用于定位相似实例的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示,该方法可以包括以下步骤。
步骤S10:接收待比对实例的待比对标识。
实例为对具有相同入参、出参以及内部调用结构的所有业务调用的一种表达。待比对实例的待比对标识例如可以包括实例概要,用于表示该实例的部分关键信息。在本步骤前可以通过实时计算框架产生实例,计算实例类别并获取实例状态。
步骤S20:根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息。
步骤S30:在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息。
步骤S40:在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识。
步骤S50:从数据库中获取与所述相似标识对应的相似实例。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例,能够快速定位与待比对实例相似度最高的相似实例,当出现异动实例时能够快速定位与异动实例最相似的实例,以便获取异动的原因。
图2示出本申请实施例提供的一种用于定位相似实例的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示,该方法可以包括以下步骤。
步骤S10:接收待比对实例的待比对标识。
实例为对具有相同入参、出参以及内部调用结构的所有业务调用的一种表达。待比对实例的待比对标识例如可以包括实例概要,用于表示该实例的部分关键信息。在本步骤前可以通过实时计算框架产生实例,计算实例类别并获取实例状态。
在一种可能的实现方式中,待比对实例的标识包括待比对实例的行键。通过前端点击某个具体的实例,发起最相似实例查找动作,并带回当前实例行键(英文:rowkey)。
步骤S20:根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息。
可选地,数据库可以为hbase数据库,根据rowkey从hbase查询当前实例的详情。当然,也可以采用其它非关系型分布式数据库(英文:Not Only SQL,缩写:NoSQL)。
在一种可能的实现方式中,指纹信息可以包括相似哈希值(英文:simHash),simHash为具有特定长度的二进制串,是通常用来进行网页去重的哈希(英文:Hash)方法。
步骤S30:在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息。
搜索服务器例如可以包括ElasticSearch,ElasticSearch是基于检索引擎工具包Lucene的搜索服务器,ElasticSearch提供了一个分布式多用户能力的全文搜索引擎,是企业级搜索引擎,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
在一种可能的实现方式中,本步骤可以利用simHash值作为指纹信息。每个实例的simHash值只和自身的特征相关,不与其他实例特征发生联系,因此即便是有新的实例特征出现也不需要重新计算所有的实例simHash值,从而使本申请实施例能够快速定位相似实例。
在一种可能的实现方式中,本步骤可以包括以下步骤。
步骤S31:根据待比对实例的simHash值,在搜索服务器中获取与待比对实例的simHash值相同的simHash值。
如果搜索服务器中持久化有与待比对实例的simHash值相同的simHash值,将该相同的simHash值作为相似度最高的相似指纹信息。
步骤S32:计算待比对实例的simHash值与搜索服务器中的simHash值之间的海明距离。
如果搜索服务器中不存在与待比对实例的simHash值相同的simHash值,则计算待比对实例的simHash值与搜索服务器中的simHash值之间的海明距离。
在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离。举例如下:10101和00110从第一位开始依次有第一位、第四、第五位不同,则海明距离为3。
simHash值本质上是一个二进制串,所以任意两个simHash值的海明距离计算就是位运算,速度非常快,经测试在纳米级别,使得本申请实施例能够快速定位相似实例。
步骤S33:将与最小的海明距离对应的simHash值设置为相似指纹信息。
步骤S40:在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识。
搜索服务器中持久化有指纹信息与实例标识之间的对应关系,根据相似指纹信息可以在所述搜索服务器中获取相似指纹信息对应的相似实例的相似标识。从搜索服务器中查询历史上最近的具有相似指纹信息的实例。
在一种可能的实现方式中,相似实例的相似标识包相似实例的行键。
步骤S50:从数据库中获取与所述相似标识对应的相似实例。
数据库中持久化有实例的信息,例如实例的详细信息,根据相似实例的相似标识能够从数据库中获取与所述相似标识对应的相似实例,例如获取相似实例的详细信息。此步骤后,还可以包括将当前实例与目标实例对比,并返回给前端对比结果。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例,能够快速定位与待比对实例相似度最高的相似实例,当出现异动实例时能够快速定位与异动实例最相似的实例,以便获取异动的原因。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过在搜索服务器中获取与待比对实例的simHash值相同的simHash值,能够获取到与待比对实例相同的实例。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过计算所述待比对实例的simHash值与所述搜索服务器中的simHash值之间的海明距离;将与最小的所述海明距离对应的所述simHash值设置为所述相似指纹信息,能够获取到与待比对实例相似度最高的实例。
图3示出本申请实施例提供的一种用于定位相似实例的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示,该方法可以包括以下步骤。
步骤S1:获取实例。
在一种可能的实现方式中,可以将所述实例的信息持久化到所述数据库。
步骤S2:计算所述实例的simHash值。
simHash作为实例的指纹,理论就代表了该实例。在一种可能的实现方式中,可以将实例对象转换为js对象简谱json对象,如实例A={a:1,b:{c:3}}。将实例对象对应的json对象设置为以叶子属性的路径字符串为特征。抽取所述特征形成特征集合,如{a@1,b@c@3}。计算特征集合的simHash值。
在另一种可能的实现方式中,可以将实例对象转换为js对象简谱json对象;将所述json对象转换为字符串;将所述字符串通过shingle算法进行分词以抽取实例特征;将所述实例特征的字符串进行集合来计算simHash值。
在一种可能的实现方式中,可以根据所述实例的信息设置所述simHash值的位宽。例如,simHash的位宽取32位,232=4G可以表示7亿左右的实例)。simHash位宽固定,不管一个实例有多少个特征最终都被映射为配置位数的simHash值,因此不会出现高维计算中大量的无效维度出现,由此使得本申请实施例能够快速定位相似实例。
步骤S3:将所述实例的标识和所述实例的simHash值持久化到所述搜索服务器。
可选地,可以将实例的概要信息持久化到搜索服务器,概要信息可以包括:入参的MD5值inputMd5,出参的MD5值outputMd5,rowkey,simHash值等。
步骤S10:接收待比对实例的待比对标识。
实例为对具有相同入参、出参以及内部调用结构的所有业务调用的一种表达。待比对实例的待比对标识例如可以包括实例概要,用于表示该实例的部分关键信息。在本步骤前可以通过实时计算框架产生实例,计算实例类别并获取实例状态。
在一种可能的实现方式中,待比对实例的标识包括待比对实例的行键。
步骤S20:根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息。
在一种可能的实现方式中,指纹信息可以包括simHash,simHash为具有特定长度的二进制串。
步骤S30:在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息。
在一种可能的实现方式中,本步骤可以包括以下步骤。
步骤S31:根据待比对实例的simHash值,在搜索服务器中获取与待比对实例的simHash值相同的simHash值。
如果搜索服务器中持久化有与待比对实例的simHash值相同的simHash值,将该相同的simHash值作为相似度最高的相似指纹信息。
步骤S32:计算待比对实例的simHash值与搜索服务器中的simHash值之间的海明距离。
如果搜索服务器中不存在与待比对实例的simHash值相同的simHash值,则计算待比对实例的simHash值与搜索服务器中的simHash值之间的海明距离。
步骤S33:将与最小的海明距离对应的simHash值设置为相似指纹信息。
步骤S40:在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识。
搜索服务器中持久化有指纹信息与实例标识之间的对应关系,根据相似指纹信息可以在所述搜索服务器中获取相似指纹信息对应的相似实例的相似标识。
在一种可能的实现方式中,相似实例的相似标识包相似实例的行键。
步骤S50:从数据库中获取与所述相似标识对应的相似实例。
数据库中持久化有实例的信息,根据相似实例的相似标识能够从数据库中获取与所述相似标识对应的相似实例。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例,能够快速定位与待比对实例相似度最高的相似实例,当出现异动实例时能够快速定位与异动实例最相似的实例,以便获取异动的原因。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过在搜索服务器中获取与待比对实例的simHash值相同的simHash值,能够获取到与待比对实例相同的实例。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过计算所述待比对实例的simHash值与所述搜索服务器中的simHash值之间的海明距离;将与最小的所述海明距离对应的所述simHash值设置为所述相似指纹信息,能够获取到与待比对实例相似度最高的实例。
图4示出本申请实施例提供的一种用于定位相似实例的装置的结构示意图,该装置100包括:接收模块110、查询模块120、获取模块130和处理模块140。
接收模块110接收待比对实例的待比对标识。查询模块120根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息。获取模块130在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识。处理模块140从数据库中获取与所述相似标识对应的相似实例。
在一种可能的实现方式中,获取模块130根据所述待比对实例的simHash值,在搜索服务器中获取与所述待比对实例的simHash值相同的simHash值。
在一种可能的实现方式中,获取模块130计算所述待比对实例的simHash值与所述搜索服务器中的simHash值之间的海明距离;将与最小的所述海明距离对应的所述simHash值设置为所述相似指纹信息。
在一种可能的实现方式中,获取模块130在接收待比对实例的待比对标识之前,还用于获取实例;计算所述实例的simHash值;将所述实例的标识和所述实例的simHash值持久化到所述搜索服务器。
在一种可能的实现方式中,获取模块130将实例对象转换为js对象简谱json对象;将所述json对象设置为以叶子属性的路径字符串为特征,抽取所述特征形成特征集合;计算所述特征集合的simHash值。
在一种可能的实现方式中,获取模块130将实例对象转换为js对象简谱json对象;将所述json对象转换为字符串;将所述字符串通过shingle算法进行分词以抽取实例特征;将所述实例特征的字符串进行集合来计算simHash值。
在一种可能的实现方式中,处理模块140在所述获取实例之后,将所述实例的信息持久化到所述数据库。
在一种可能的实现方式中,所述待比对实例的标识包括所述待比对实例的行键,所述相似实例的相似标识包括所述相似实例的行键。
在一种可能的实现方式中,获取模块130根据所述实例的信息设置所述simHash值的位宽。
本申请实施例提供的该装置100,可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
图5示出执行本申请实施例提供的一种用于定位相似实例的方法的电子设备的硬件结构示意图,参考该图,在硬件层面,电子设备包括处理器,可选地,包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-AccessMemory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成定位相似用户的装置。处理器,执行存储器所存放的程序,并具体用于执行:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
上述如本申请图1所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,所述计算机可读介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
其中,所述的计算机可读存储介质包括只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,实现以下流程:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
总之,以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。