发明内容
本申请实施例中提供了一种信息检索方法及装置,用以去除过时、重复、无用的信息,提高信息匹配结果的精确度。
本申请实施例中提供了一种信息检索方法,包括如下步骤:
获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;
提取第一匹配结果中的高频关键词;
将所述高频关键词按照关联程度与关联顺序进行排列后,确定核心关键词;
在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;
将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;
将匹配结果作为检索结果。
本申请实施例中还提供了一种信息检索装置,包括:
获取模块,用于获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;
高频关键词模块,用于提取第一匹配结果中的高频关键词;
核心关键词模块,用于将所述高频关键词按照关联程度与关联顺序进行排列后,确定核心关键词;
匹配模块,用于在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;
比对模块,用于将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;
结果确定模块,用于将匹配结果作为检索结果。
本申请有益效果如下:
在本申请实施例提供的技术方案中,先按现有的方式采用信息检索技术将数据层的数据库中的数据与检索词相匹配得到第一次的匹配结果;然后进行二次检索处理,包括:将第一次的匹配结果中的高频关键词按照关联程度与关联顺序进行排列后,确定核心关键词;再采用信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二次的匹配结果;最后将两次的匹配结果进行比对后保留比对匹配结果后才将匹配结果作为检索结果输出。由于在方案中采用了二次过滤的方案,利用数据挖掘算法,在已经获取到的数据中提取重复出现次数和表达频率最高的关键字段,并将此字段设置为检索词,因而可以有效的去除无用信息和关联度较小的信息,如可以去除过多的过时、重复、无用的信息,使得检索结果更为精确。
具体实施中,本方案的目的是为利用数据挖掘算法,利用已经获取到的数据中提取重复出现次数和表达频率最高的关键字段来去除无用信息和关联度较小的信息,因此,采用何种信息检索技术并不影响实施的效果,因此在步骤201中,采用现有技术中已有的信息检索技术即可。
实施中,步骤202中的提取第一匹配结果中的高频关键词,可以采用Association Rules(关联规则)技术进行提取。
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami提出,关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。是数据中一种简单但很实用的规则。因此,实施例中以其为例进行说明,但是,从理论上来说,用其它的技术也是可以的,只要能够提取出高频关键词即可,Association Rules仅用于教导本领域技术人员具体如何实施本申请,但不意味仅能使用Association Rules一种方式,实施过程中可以结合实践需要来确定相应的方式。
关联规则是描述在一个事务中事物之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述一个事物的出现对另一个事物的出现有多大的影响。
关联规则挖掘过程主要包含两个阶段:
第一阶段是先从资料集合中找出高频项目组(Frequent Itemsets);
第二阶段是再由这些高频项目组中产生关联规则(AssociationRules)。
关联规则挖掘的第一阶段是从原始资料集合(也即实施例中的第一匹配结果)中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,可以求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(MinimumSupport)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一阶段的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。
具体实施中,按照不同情况,关联规则可以分类如下:
1、基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
2、基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
3、基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
而采用的相关算法可以包括:使用候选项集找频繁项集的Apriori算法、基于划分的算法、不产生候选挖掘频繁项集的FP-树频集算法等。
那么,具体在实施提取第一匹配结果中的高频关键词时,如何分类、以及采用何种算法等等,可以根据实际需要确定,这是本领域技术人员容易知晓的技术手段,实施例中不再赘述。
实施中,步骤203中的将高频关键词中按照关联程度与关联顺序进行排列后,确定核心关键词,可以采用WORDMAP(文字图)技术来确定。
具体的,众所周知,词语是最小的语义单位,词语和词语之间也是有联系的,在发现这种关系时,可以利用统计模型从语料中分析出任意两个词语之间的相关程度,这种相关程度是通过条件概率来表示的,WordMap就是其中的一种实现。
目前,利用WordMap进行的项目有:文本主题抽取,词语聚类,相关词语推荐等。WordMap的本质在于通过语料中词语出现的情况来揭示词语之间的关系,并由此构建一张表征词语关系的有向图,从而能实现一定限度的语义理解。构建WordMap需要的资源则是关心领域的语料,这些语料能表达所研究领域的知识,在本实施例中该资源即为第一匹配结果中的高频关键词。
但是,从理论上来说,只要是能够确定核心关键词的其它的技术也是可以实施本方案的,WordMap仅用于教导本领域技术人员具体如何实施本申请,但不意味仅能使用WordMap一种方式,实施过程中可以结合实践需要来确定相应的方式。
步骤202与步骤203在实施中,Association Rules是通过计算第一匹配结果中出现频率最高的关键词,找到“高频关键词”,WORDMAP是通过“按照关联程度与关联顺序进行排列”的方法,找到核心关联的关键词,即“高关联关键词”。也即先用关联规则计算出现频率高的关键词,然后用WORDMAP从高频关键词中提取核心关键词。
实施中,将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果,可以是在服务层进行比对的。
具体的,在服务层放置二次过滤,是因为在使用wordmap提取核心关键词时,可能需要对产出的结果人工进行逻辑判断和修改,因此最终确认核心关键词的可能是人,而不是机器。由于在服务层人工判断的过程可能是机器无法代替的,因此将二次过滤放置在服务层可以得到最准确的结果。
实施中,还可以进一步包括:
将检索结果提供给服务层,和/或,将检索结果录入数据库。
具体的,只要将匹配结果输出到服务层即可完成可视化输出;
将检索结果录入数据库后,可以为以后建立准确度更高的信息库提供可能,例如,将这个信息库作为日后进行数据检索的数据层即为其中一种可能的实现方式。
为更好的理解本申请实施例提供的技术方案的实施,下面结合C/S三层情报***结构,以***泄露和银行盗卡信息为例,对本方案的实施进行说明。
图3为C/S三层情报***结构下***泄露和银行盗卡信息检索实施流程示意图,如图所示,可以包括如下步骤:
一、通过C/S三层情报获取***,获取初步***泄露和银行盗卡信息。
二、将初步获取的***泄露和银行盗卡信息录入数据库。
下为二次过滤处理阶段:
三、利用Association Rules数据挖掘算法,将第二步中的信息进行分析,提取其中出现频率最高及关联程度最高的字段。采用Association Rules可以实现从海量数据中挖掘出现频率最高的单位。
四、使用WORDMAP方法,将第三步中获取的字段进行关联排列,获取核心关键字段,形成情报主题。采用WORDMAP可以将关键词按照关联关系排列后,成矩阵分布,寻找核心关键词。
五、将第四步中提取的情报主题返回处理层,重新匹配信息结果。
六、将第五步中的信息匹配结果输出到服务层,与第二步获取的结果进行配比,保留匹配结果。
七、将第六步的匹配结果作为最终结果,建立数据库。
其中,在选用可以完成上述第二、五、六步的、市场上可获取的可在其上实现的数据库时,至少可以选用阿里巴巴现有ODPS(Open Data ProcessingService,阿里云开放数据处理服务)数据库,而选用的、市场上可获取的可在其上实现的语言至少可以是SQL(Structured Query Language,结构化查询语言)语言。当然,本例中的ODPS、SQL仅作为示例而不起限制的作用。
本实施例中,在搜集银行盗卡和欺诈信息的过程中,通过二次需求提问的方式,从而能够获取更加准确的信息检索结果。
进一步的,利用了Association Rules、WORDMAP技术,将已经获取到的银行盗卡或***泄露信息进行二次过滤。二次过滤的结果与已经获取的初步结果进行严格比对,从而能够将重合度最高的信息保留。克服了现有技术在已知数据库中获取所需要的银行盗卡***泄露信息时,获得的信息匹配结果不够精确,有过多的过时、重复、无用信息的问题。
基于同一申请构思,本申请实施例中还提供了一种信息检索装置,由于该装置解决问题的原理与一种信息检索方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图4为信息检索装置结构示意图,如图所示,装置中可以包括:
获取模块401,用于获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;
高频关键词模块402,用于提取第一匹配结果中的高频关键词;
核心关键词模块403,用于将所述高频关键词按照关联程度与关联顺序进行排列后,确定核心关键词;
匹配模块404,用于在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;
比对模块405,用于将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;
结果确定模块406,用于将匹配结果作为检索结果。
实施中,所述高频关键词模块还可以进一步用于采用Association Rules技术提取第一匹配结果中的高频关键词。
实施中,所述核心关键词模块还可以进一步用于采用WORDMAP技术将所述高频关键词中按照关联程度与关联顺序进行排列后确定核心关键词。
实施中,所述比对模块还可以进一步用于在服务层将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果。
实施中,还可以进一步包括:
提供模块407,用于将检索结果提供给服务层,和/或,将检索结果录入数据库。
为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
由上述实施例可见,在本申请实施例提供的技术方案中,通过在服务层设置二次过滤的方式,利用数据挖掘算法,在已经获取到的数据中提取重复出现次数和表达频率最高的关键字段,并将此字段设置为情报主题,可以有效去除无用信息和关联度较小的信息,使获得的最终信息检索结果比现有技术方案更加准确。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。