CN107609020A - 一种基于标注的日志分类的方法和装置 - Google Patents

一种基于标注的日志分类的方法和装置 Download PDF

Info

Publication number
CN107609020A
CN107609020A CN201710666342.0A CN201710666342A CN107609020A CN 107609020 A CN107609020 A CN 107609020A CN 201710666342 A CN201710666342 A CN 201710666342A CN 107609020 A CN107609020 A CN 107609020A
Authority
CN
China
Prior art keywords
daily record
url
parameter
mark
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710666342.0A
Other languages
English (en)
Other versions
CN107609020B (zh
Inventor
刁芹
李友科
张凤娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710666342.0A priority Critical patent/CN107609020B/zh
Publication of CN107609020A publication Critical patent/CN107609020A/zh
Application granted granted Critical
Publication of CN107609020B publication Critical patent/CN107609020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标注的日志分类的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:抓取日志;对所述日志的统一资源定位符进行标注;将标注的日志进行存储。该实施方式将抓取到的日志进行标注之后存储,实现了对抓取的日志的分类,进而测试人员可以快速查找到测试所需的搜索词或者URL,减少测试人员收集数据的工作量。并且保证数据的真实可靠性,进而可提高测试质量。

Description

一种基于标注的日志分类的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于标注的日志分类的方法和装置。
背景技术
为了优化搜索引擎召回的质量以及提高GMV(Gross Merchandise Volume成交总额),搜索引擎每天都有大量新功能或者优化提测需要上线。目前搜索引擎功能的测试,使用的是端到端的黑盒测试,测试输入是搜索最原始的搜索请求,其中以URL(UniformResource Locator统一资源定位符)的形式输入,测试验证的输出是搜索引擎最后的召回结果,其中以JSON(JavaScript Object Notation JS对象标记)串的形式输出。不同的功能需要使用不同的URL,目前进行测试时需要测试人员自己构造URL集合。在该过程中,测试人员需要从相应类目下挑选搜索词或者依赖经验猜测搜索词,然后到搜索页进行搜索,通过对搜索结果的判断以及参数的添加构造出URL集合。该方法不仅存在搜索词收集不全的问题,不能保证构造出的URL集合跟线上真实用户的搜索请求一致,覆盖不到真实用户的情况。而且通过这种方法构造的URL集合具有跟新功能不直接相关的URL参数(通用参数)单一的特点,进而导致测试不到其他功能组合对新功能的影响。
发明内容
有鉴于此,本发明实施例提供一种基于标注的日志分类的方法和装置,能够使测试人员快速查找到所需搜索词或者URL,减少测试人员收集数据的工作量,并且保证数据的真实可靠性,提高测试质量。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于标注的日志分类的方法。
本发明实施例的基于标注的日志分类的方法包括:抓取日志;对所述日志的统一资源定位符进行标注;将标注的日志进行存储。
可选地,所述抓取日志包括:统计抓取的渠道;从所述渠道的搜索引擎入口抓取日志。
可选地,本发明实施例的基于标注的日志分类的方法还包括:所述抓取日志之后,对所述日志进行过滤。
可选地,对所述日志进行过滤包括:根据所述日志的统一资源定位符中的参数确定出干扰请求的日志以及不关注的请求的日志;去掉所述干扰请求的日志和不关注的请求的日志;并且,去掉所述日志的统一资源定位符中对搜索功能没有影响的参数;根据所述日志的统一资源定位符的参数的关系对日志进行合并。
可选地,对所述日志进行过滤还包括:根据所述日志的统一资源定位符的参数key,汇总出所有的搜索词以及所述搜索词的频次;以及统计所述日志的统一资源定位符的频次。
可选地,本发明实施例的基于标注的日志分类的方法还包括:对所述日志的统一资源定位符进行标注之前,将所述日志的统一资源定位符进行回放;进而,根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注。
可选地,根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注包括:根据所述日志的统一资源定位符的参数确定所述日志的搜索词、搜索词的频次、统一资源定位符的频次;根据回放的结果确定出所述日志的高相关分类;将所述搜索词、搜索词的频次、统一资源定位符的频次以及高相关分类标记在所述日志上。
可选地,本发明实施例的基于标注的日志分类的方法还包括:对所述日志的统一资源定位符进行标注之后,以及将标注的日志进行存储之前,按照所述标注以及所述统一资源定位符的参数,对日志进行分类和统计处理。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种基于标注的日志分类的装置。
本发明实施例的基于标注的日志分类的装置包括:抓取模块,用于抓取日志;标注模块,用于对所述抓取模块抓取的日志的统一资源定位符进行标注;存储模块,用于将所述标注模块标注的日志进行存储。
可选地,所述抓取模块还用于统计抓取的渠道;以及,从所述渠道的搜索引擎入口抓取日志。
可选地,本发明实施例的基于标注的日志分类的装置还包括过滤模块,用于所述抓取模块抓取日志之后,对所述日志进行过滤。
可选地,所述过滤模块还用于根据所述日志的统一资源定位符中的参数确定出干扰请求的日志以及不关注的请求的日志;去掉所述干扰请求的日志和不关注的请求的日志;并且,去掉所述日志的统一资源定位符中对搜索功能没有影响的参数;根据所述日志的统一资源定位符的参数的关系对日志进行合并。
可选地,所述过滤模块还用于根据所述日志的统一资源定位符的参数key,汇总出所有的搜索词以及所述搜索词的频次;以及统计所述日志的统一资源定位符的频次。
可选地,本发明实施例的基于标注的日志分类的装置还包括回放模块,用于对所述日志的统一资源定位符进行标注之前,将所述日志的统一资源定位符进行回放;进而,标注模块根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注。
可选地,所述回放模块还用于根据所述日志的统一资源定位符的参数确定所述日志的搜索词、搜索词的频次、统一资源定位符的频次;根据回放的结果确定出所述日志的高相关分类;将所述搜索词、搜索词的频次、统一资源定位符的频次以及高相关分类标记在所述日志上。
可选地,本发明实施例的基于标注的日志分类的装置还包括统计模块,用于对所述日志的统一资源定位符进行标注之后,以及将标注的日志进行存储之前,按照所述标注以及所述统一资源定位符的参数,对日志进行分类和统计处理。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种基于标注的日志分类的终端。
本发明实施例的基于标注的日志分类的终端包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述基于标注的日志分类的方法。
为实现上述目的,根据本发明实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述基于标注的日志分类的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为按照标注的方式将抓取到的日志进行保存,实现日志的分类存储,进而测试人员在查找搜索词时,可以快速提供测试所需搜索词或者URL,减少测试人员收集数据的工作量。并且,保证数据的真实可靠性,提高测试质量,发现更多问题。除了可用于测试外,最终分类存储的数据还可以用于用户行为分析、经营分析。比如自营和非自营召回排序对经营的影响等。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的基于标注的日志分类的方法的主要流程的示意图;
图2是根据本发明实施例的基于标注的日志分类的方法流程的示意图;
图3是根据本发明实施例的基于标注的日志分类的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性***架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
现有技术中,因为没有对搜索日志进行搜集整理的技术方案,所以测试人员在构建URL集合时,只能依靠人力或者经验来完成。例如:新功能“二手商品”,应用于3C商品(电脑、平板电脑、移动电话、数码相机、随身听、电子辞典、影音播放之硬件设备或数字音频播放器等等)。测试人员需要在3C类目里挑选一些搜索词,并且在URL里添加参数oldware=yes,其他参数统一用一些通用参数,就可以构造一批用于测试这个功能的输入URL,然后用这些输入URL访问搜索引擎,最后检查返回的JSON串里是否有召回商品包含OldWareInfo这个字段,如果有则通过,没有则不通过。再例如:搜索排序对二级类目“母婴玩具”做了算法调整,这时候,测试人员需要一批搜索该类目下商品的URL进行测试,他们可能需要从搜索主页的相应类目下去找一批这样的商品或者自己猜测一些,然后去搜索页搜一下,从返回值中确认属于该类目,然后拿着这些搜索词加上通用参数,构造出URL集合用于测试。
图1是根据本发明实施例的基于标注的日志分类的方法的主要流程的示意图。如图1所示,本发明实施例的基于标注的日志分类的方法主要包括:
步骤S101:抓取日志。统计抓取的渠道,从渠道的搜索引擎入口抓取日志,尽可能对搜索的日志进行收集全。抓取的渠道主要有三个渠道,分别为PC(personal computer电脑)、APP(应用程序)和微信,分渠道抓取线上所有服务器上的日志,获取所有的搜索请求。在抓取日志之后,对日志进行过滤。在过滤的过程中,根据日志的统一资源定位符中的参数确定出干扰请求的日志以及不关注的请求的日志;去掉干扰请求的日志和不关注的请求的日志;并且,去掉日志的统一资源定位符中对搜索功能没有影响的参数;根据日志的统一资源定位符的参数的关系对日志进行合并。并且,根据日志的统一资源定位符的参数key,汇总出所有的搜索词以及搜索词的频次出现的频率;以及统计日志的统一资源定位符的频次。
日志里的搜索请求里有很多并非真实用户的搜索,比如爬虫、测试、调试的请求。这些都可以通过检查请求日志(URL)中的某些参数值,把这些请求日志过滤掉。由于URL数量级太大(每个渠道每天有5000万左右的搜索请求),还会采用一些规则,合并去掉一批URL。该过滤的过程是离线进行的,而且数据量大,所以使用Hadoop集群进行离线计算。经过过滤,一个渠道的URL会降低到1000万左右。
步骤S102:对日志的统一资源定位符进行标注。对日志的统一资源定位符进行标注之前,将日志的统一资源定位符进行回放;进而,根据日志的统一资源定位符的参数以及回放的结果,对日志的统一资源定位符进行标注。根据日志的统一资源定位符的参数以及回放的结果,对日志的统一资源定位符进行标注包括:根据日志的统一资源定位符的参数确定日志的搜索词、搜索词的频次、统一资源定位符的频次;根据回放的结果确定出日志的高相关分类;将搜索词、搜索词的频次、统一资源定位符的频次以及高相关分类标记在日志上。
标注是基于URL里的参数和搜索引擎返回的结果(JSON串)里的字段进行的,所以需要日志的URL进行回放。由于数量太大,如果用测试集群回放,耗时会很长,目前测试集群只能支持200QPS(每秒查询率),回放1000万条URL需要13小时;所以需要在线上流量很小的时候,在线上集群进行回放。又因为是生产环境,所以需要控制QPS,即流量控制,以免QPS太高,破坏生产环境。如果使用Hadoop做回放,并且控制流量,势必造成集群资源浪费,因此使用c++开发一套带流量控制的回放,以进行标注代码。如果控制QPS为800,则3.5小时就可标注完一个渠道的URL。
步骤S103:将标注的日志进行存储。对日志的统一资源定位符进行标注之后,以及将标注的日志进行存储之前,按照标注以及统一资源定位符的参数,使用Hadoop集群对日志进行分类和统计处理。并且,使用MySQL将URL及相关标注存储在关系型数据库表中。
利用持续集成平台(Jenkins master),设置执行上述步骤的间断时间,例如将执行的间断时间设置为1周,则每周执行一次上面的步骤,可实现日志数据库的更新。
图2是根据本发明实施例的基于标注的日志分类的方法流程的示意图。
如图2所示,在线上抓取日志的过程中,由于搜索引擎入口会记录每天从该入口访问搜索引擎的所有请求,而且按照每小时一个文件的形式存储在该入口模块部署的服务器上。搜索引起是分布式***,入口模块会在若干服务器上部署,且分布在不同机房,共同承担所有的请求,所以需要抓取所有入口模块上的日志。可从opcenter的***提供的接口获取所有入口模块的IP,并且抓取到日志文件名里加上IP,以区别个服务器上的日志,然后放到HDFS固定目录下,供离线日志过滤使用。
日志过滤是为了过滤掉爬虫、测试、调试等干扰请求;并且去掉列表页搜索、店铺搜索等不关注的请求;最后用URL里主要的几个参数作为key,一般可设置为7个,如果这7个key全部相同的话URL就合并,只保留一条,其它去掉,避免最后存储时出现重复。在本发明实施例中,通过以下表格进一步说明本发明实施例的基于标注的日志分类的方法的实现步骤。并且,为便于陈述该技术方案,本发明的实施例以京东***为例,但在本发明实施例的基于标注的日志分类的方法在根据某些参数进行过滤日志或者进行标注时,该参数并不只是局限京东***或者京东超市等。
去掉如表1所示的干扰请求的日志或URL:
表1
去掉如表2所示的不关注的日志或URL:
URL参数名称 满足条件 取值(PC) 取值(APP) 取值(WX) 操作
page > 2 2 2 丢弃
key ids,,\d+ ids,,\d+ ids,,\d+ 丢弃
key catid_str,,\d+ catid_str,,\d+ catid_str,,\d+ 丢弃
表2
去掉URL中的参数如表3所示:
表3
如果URL中存在相同的参数,且这些参数反映的搜索目的相同,将这些URL进行合并。在本发明实施例中,如果URL中参数key、expression_key、page、pagesize、start、filt_type和sort_type这7个参数全部一样,就认为是同一个URL,只保留一条,其他都去掉,但记录下相同URL的数目。因为这些参数反映的搜索意图基本相同。
搜索词就是URL中参数key的值。离线日志过滤最后会汇总出所有搜索词,以及统计每个搜索词出现的频率(搜索词的频次),进而可以作为是否为热门搜索词的参考。以上抓取、过滤等步骤均在Hadoop集群中进行的,一般每个渠道30分钟以内就可以完成,使得URL数量从5000万减至1000万以下。最后生成格式为“搜索词搜索词频次URL URL频次”的记录,放到固定目录下,供回放使用。
标注就是给URL打上不同的标记,每种标记代表这个URL包含搜索的某个功能。按照功能整理出三大类标记,分别是过滤相关标记,排序相关标记和业务功能相关标记,排序、过滤和业务几乎已经包含所有的逻辑。该过程根据URL里是否包含某些参数及参数取值,还有搜索返回结果(JSON串)里是否包含某些字段及取值来判断的。每种类型的标记用一个bitmap存储,每个bit标识一个标记。
过滤相关标注如表4所示:
表4
表4中“京东配送过滤”的过滤业务可理解为配送方式过滤的配送业务。
排序相关标注如表5所示:
排序业务 URL参数及取值 标记值(STag)
默认排序 0
销量降序 sort_type=sort_totalsales15_desc 1
评论降序 sort_type=sort_commentcount_desc 2
新品降序 sort_type=sort_winsdate_desc 4
价格升序 sort_type=sort_dredisprice_asc 8
价格降序 sort_type=sort_dredisprice_desc 16
表5
业务功能相关标注如表6所示:
表6
高相关分类如表7所示:
高相关分类 JSON字段
高相关分类1 Query->HcCid1s
高相关分类2 Query->HcCid2s
高相关分类3 Query->HcCid3s
表7
可用c++开发的打标的代码:首先,把上面表4-7的表格分成三类,第一类:只检查URL里的参数;第二类:只检查请求返回值(JSON串)中的字段;第三类:两个都检查。按照这个分类,把上面表格的内容添加到配置文件,配置主要说明需要检查的参数名、参数类型(数值型或字符型)、参数执行操作(比如表6中的京东超市,就去参数进行了&262144的操作)、参数取值及是否循环检查(表6中“JSON字段及取值”这列,Paragraph->[i],这个i就表示Paragraph这个字段下是一个召回商品的list,对每个召回商品都检查,只直到其中有一个满足即可);多个参数用&连接。以后如果有新的功能需要进行标注,可以增加一条配置即可,不需要修改c++代码,可扩展性较好。运行一开始,就把这些配置加载到内存中。
对经过回放及标注处理的URL集合,逐条进行配置文件中的所有检查,如果满足就把相应tag(FTag/STag/BTag)的相应bit置成1。此处为了提高效率,采用多线程工作。但需要用线上生产环境回放请求取返回值,以防影响线上环境,需要控制流量。在该过程中,采用线程数可配,根据线上真实环境的性能情况,设了200个线程,QPS控制在800-900之间。除了线程数控制QPS外,还提供使用滑动窗口的方法,控制QPS。设置控制的QPS上限是900,下限是800,当超过900时,暂停一些线程,当低于下限时,会增加一些线程发送请求。最后,生成格式为“搜索词搜索词频次URL URL频次高相关分类1高相关分类2高相关分类3FTagStag BTag”的记录,存放在固定目录下,供下一步标注分类统计使用。
上述过程进行完成之后,可对各种分类的日志出现的频率进行统计。在该统计过程中,具体概述为:1.统计每个搜索词都包含的所有标注;格式为:搜索词FTag Stag BTag;2.统计三大类标注(业务功能相关标注、排序相关标注、过滤相关标注)的覆盖情况;3.统计覆盖的所有高相关分类1、高相关分类2和高相关分类3;4.统计针对每一个标注,覆盖这个标注的请求的条数。该统计的过程是从不同的维度对搜索线上请求做了统计。该过程是离线的,所以采用了hadoop集群中进行,代码可用Python编写。还会加上格式为“搜索词词频高相关分类1高相关分类2高相关分类3FTag Stag BTag”和“[cati info]cati取值”(i=[1,2,3])存在固定目录下,供下一步数据存储使用。统计针对每一个标注,覆盖这个标注的请求的条数在jenkins job中输出。
对于日志的存储,采用MySQL数据存储。数据库分渠道创建,PC/APP/WX分别各一个库。下面以一个渠道为例讲解,其他渠道一致。
导入回放寄标注生成的数据,按dup_count降序排序后导入,如表8的URL表所示:
Field Type Null Key Default
id int(11) NO PRl NULL
URL varchar(1000) NO
dup_count int(11) YES NULL
querykey varchar(500) YES MUL NULL
HcCid1 varchar(255) YES NULL
HcCid2 varchar(255) YES NULL
HcCid3 varchar(255) YES MUL NULL
filter_tag int(11) YES MUL NULL
sort_tag int(11) YES MUL NULL
bz_tag int(11) YES MUL NULL
表8
导入分类和统计处理后生成的搜索词相关的数据,按count降序排序后导入,如表9的query表所示:
Field Type Null Key Default
Id int(11) NO PRI NULL
Querykey varchar(500) NO
count int(11) YES NULL
HcCid1 varchar(255) YES NULL
HcCid2 varchar(255) YES NULL
HcCid3 varchar(255) YES NULL
filter_tag nt(11) YES NULL
sort_tag int(11) YES NULL
bz_tag int(11) YES NULL
表9
导入分类和统计处理后生成的cati相关的数据(i=[1,2,3]),如表10的高相关分类表所示:
Field Type Null Key Default
HcCid1 varchar(255) NO PRl
cat1_count int(11) YES NULL
表10
有了以上表,就可以根据自己的需求获取URL集合或者搜索词集合。例如:需要按价格升序搜索的请求100条,通过select URL from URL where sort_tag&8=8limit 100即可快速找出;需要包含“店铺穿插”功能的搜索词200个,通过select querykey fromquery where bz_tag&8192=8192limit 200即可快速找出。由于表8和表9是按URL频率和搜索词频率降序后导入的,所以被热搜的URL和搜索词会优先select出来。
在本发明实施例中,可使用jenkins job每周自动执行更新数据库。并且以上所有代码的编译、部署,只有修改代码时手动触发。以及,线上日志抓取完成后自动触发离线日志过滤,标注完成自动触发分类统计,再自动触发数据存储。
图3是根据本发明实施例的基于标注的日志分类的装置的主要模块的示意图。
如图3所示,本发明实施例的基于标注的日志分类的装置300包括:抓取模块301、标注模块302和存储模块303。抓取模块301用于抓取日志;标注模块302用于对所述抓取模块抓取的日志的统一资源定位符进行标注;存储模块303用于将所述标注模块标注的日志进行存储。本发明实施例的基于标注的日志分类的装置还包括过滤模块和回放模块。过滤模块用于所述抓取模块抓取日志之后,对所述日志进行过滤。所述过滤模块还用于根据所述日志的统一资源定位符中的参数确定出干扰请求的日志以及不关注的请求的日志;去掉所述干扰请求的日志和不关注的请求的日志;并且,去掉所述日志的统一资源定位符中对搜索功能没有影响的参数;根据所述日志的统一资源定位符的参数的关系对日志进行合并。所述过滤模块还用于根据所述日志的统一资源定位符的参数key,汇总出所有的搜索词以及所述搜索词的频次;以及统计所述日志的统一资源定位符的频次。回放模块用于对所述日志的统一资源定位符进行标注之前,将所述日志的统一资源定位符进行回放;进而,标注模块根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注。回放模块还用于根据所述日志的统一资源定位符的参数确定所述日志的搜索词、搜索词的频次、统一资源定位符的频次;根据回放的结果确定出所述日志的高相关分类;将所述搜索词、搜索词的频次、统一资源定位符的频次以及高相关分类标记在所述日志上。
抓取模块在抓取日志的过程中:统计抓取的渠道,以及从所述渠道的搜索引擎入口抓取日志。分渠道,抓取线上所有服务器上的日志,获取所有搜索请求。本发明实施例的基于标注的日志分类的装置还包括统计模块,用于对所述日志的统一资源定位符进行标注之后,以及将标注的日志进行存储之前,按照所述标注以及所述统一资源定位符的参数,对日志进行分类和统计处理。统计模块使用Hadoop集群对标注完的1000万条URL按照搜索词、高相关分类的维度进行分类和统计。
本发明实施例的基于标注的日志分类的装置抓取搜索引擎线上一天的所有搜索请求日志,过滤掉一些如page太大等不关注日志,和爬虫等干扰日志;然后给每个URL打上各种标注,比如它是按价格降序过滤、按销量升序排序、是京东超市等,并记录相应搜索词所属的1、2、3级类目值;然后把URL和这些标注存入数据库。测试人员可以去数据库里通过过滤URL的标注,选取自己需要的URL集合用于测试。每周会更新一次数据库,保证测试人员使用线上最新、最真实的URL测试。
图4示出了可以应用本发明实施例的基于标注的日志分类的方法或基于标注的日志分类的装置的示例性***架构400。
如图4所示,***架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的基于标注的日志分类的方法一般由服务器405执行,相应地,基于标注的日志分类的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机***500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括抓取模块、标注模块和存储模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,抓取模块还可以被描述为“抓取日志的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:抓取日志;对所述日志的统一资源定位符进行标注;将标注的日志进行存储。
根据本发明实施例的技术方案,案可以快速提供测试所需搜索词或者URL,减少测试人员收集数据的工作量,并且保证数据的真实可靠性,提高测试质量,发现更多问题。除了可用于测试外,最终存储的数据还可以用于用户行为分析、经营分析。比如自营和非自营召回排序对经营的影响等。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (18)

1.一种基于标注的日志分类的方法,其特征在于,包括:
抓取日志;
对所述日志的统一资源定位符进行标注;
将标注的日志进行存储。
2.根据权利要求1所述的方法,其特征在于,所述抓取日志包括:
统计抓取的渠道;
从所述渠道的搜索引擎入口抓取日志。
3.根据权利要求1所述的方法,其特征在于,还包括:
所述抓取日志之后,对所述日志进行过滤。
4.根据权利要求3所述的方法,其特征在于,对所述日志进行过滤包括:
根据所述日志的统一资源定位符中的参数确定出干扰请求的日志以及不关注的请求的日志;
去掉所述干扰请求的日志和不关注的请求的日志;并且,
去掉所述日志的统一资源定位符中对搜索功能没有影响的参数;
根据所述日志的统一资源定位符的参数的关系对日志进行合并。
5.根据权利要求3所述的方法,其特征在于,对所述日志进行过滤还包括:
根据所述日志的统一资源定位符的参数key,汇总出所有的搜索词以及所述搜索词的频次;以及
统计所述日志的统一资源定位符的频次。
6.根据权利要求1所述的方法,其特征在于,还包括:
对所述日志的统一资源定位符进行标注之前,将所述日志的统一资源定位符进行回放;
进而,根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注。
7.根据权利要求6所述的方法,其特征在于,根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注包括:
根据所述日志的统一资源定位符的参数确定所述日志的搜索词、搜索词的频次、统一资源定位符的频次;
根据回放的结果确定出所述日志的高相关分类;
将所述搜索词、搜索词的频次、统一资源定位符的频次以及高相关分类标记在所述日志上。
8.根据权利要求1所述的方法,其特征在于,还包括:
对所述日志的统一资源定位符进行标注之后,以及将标注的日志进行存储之前,按照所述标注以及所述统一资源定位符的参数,对日志进行分类和统计处理。
9.一种基于标注的日志分类的装置,其特征在于,包括:
抓取模块,用于抓取日志;
标注模块,用于对所述抓取模块抓取的日志的统一资源定位符进行标注;
存储模块,用于将所述标注模块标注的日志进行存储。
10.根据权利要求9所述的装置,其特征在于,所述抓取模块还用于统计抓取的渠道;以及,从所述渠道的搜索引擎入口抓取日志。
11.根据权利要求9所述的装置,其特征在于,还包括过滤模块,用于所述抓取模块抓取日志之后,对所述日志进行过滤。
12.根据权利要求11所述的装置,其特征在于,所述过滤模块还用于根据所述日志的统一资源定位符中的参数确定出干扰请求的日志以及不关注的请求的日志;去掉所述干扰请求的日志和不关注的请求的日志;并且,去掉所述日志的统一资源定位符中对搜索功能没有影响的参数;根据所述日志的统一资源定位符的参数的关系对日志进行合并。
13.根据权利要求11所述的装置,其特征在于,所述过滤模块还用于根据所述日志的统一资源定位符的参数key,汇总出所有的搜索词以及所述搜索词的频次;以及统计所述日志的统一资源定位符的频次。
14.根据权利要求9所述的装置,其特征在于,还包括回放模块,用于对所述日志的统一资源定位符进行标注之前,将所述日志的统一资源定位符进行回放;进而,标注模块根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注。
15.根据权利要求14所述的装置,其特征在于,所述回放模块还用于根据所述日志的统一资源定位符的参数确定所述日志的搜索词、搜索词的频次、统一资源定位符的频次;根据回放的结果确定出所述日志的高相关分类;将所述搜索词、搜索词的频次、统一资源定位符的频次以及高相关分类标记在所述日志上。
16.根据权利要求9所述的装置,其特征在于,还包括统计模块,用于对所述日志的统一资源定位符进行标注之后,以及将标注的日志进行存储之前,按照所述标注以及所述统一资源定位符的参数,对日志进行分类和统计处理。
17.一种基于标注的日志分类的终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201710666342.0A 2017-08-07 2017-08-07 一种基于标注的日志分类的方法和装置 Active CN107609020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710666342.0A CN107609020B (zh) 2017-08-07 2017-08-07 一种基于标注的日志分类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710666342.0A CN107609020B (zh) 2017-08-07 2017-08-07 一种基于标注的日志分类的方法和装置

Publications (2)

Publication Number Publication Date
CN107609020A true CN107609020A (zh) 2018-01-19
CN107609020B CN107609020B (zh) 2020-06-05

Family

ID=61064746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710666342.0A Active CN107609020B (zh) 2017-08-07 2017-08-07 一种基于标注的日志分类的方法和装置

Country Status (1)

Country Link
CN (1) CN107609020B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737726A (zh) * 2018-07-03 2020-01-31 北京京东尚科信息技术有限公司 一种确定待测试接口的测试数据的方法和装置
CN117579507A (zh) * 2024-01-17 2024-02-20 云筑信息科技(成都)有限公司 一种自动化提取录制流量的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1963816A (zh) * 2006-12-01 2007-05-16 清华大学 一种搜索引擎性能评价的自动化处理方法
CN102411533A (zh) * 2011-08-08 2012-04-11 浪潮电子信息产业股份有限公司 一种集群存储***的日志管理优化方法
CN103136212A (zh) * 2011-11-23 2013-06-05 北京百度网讯科技有限公司 一种类别新词的挖掘方法及装置
CN103455411A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 日志分类模型的建立、行为日志分类方法及装置
CN104731796A (zh) * 2013-12-19 2015-06-24 北京思博途信息技术有限公司 数据存储计算方法和***
CN106027528A (zh) * 2016-05-24 2016-10-12 微梦创科网络科技(中国)有限公司 一种web水平权限自动化识别的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1963816A (zh) * 2006-12-01 2007-05-16 清华大学 一种搜索引擎性能评价的自动化处理方法
CN102411533A (zh) * 2011-08-08 2012-04-11 浪潮电子信息产业股份有限公司 一种集群存储***的日志管理优化方法
CN103136212A (zh) * 2011-11-23 2013-06-05 北京百度网讯科技有限公司 一种类别新词的挖掘方法及装置
CN103455411A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 日志分类模型的建立、行为日志分类方法及装置
CN104731796A (zh) * 2013-12-19 2015-06-24 北京思博途信息技术有限公司 数据存储计算方法和***
CN106027528A (zh) * 2016-05-24 2016-10-12 微梦创科网络科技(中国)有限公司 一种web水平权限自动化识别的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737726A (zh) * 2018-07-03 2020-01-31 北京京东尚科信息技术有限公司 一种确定待测试接口的测试数据的方法和装置
CN110737726B (zh) * 2018-07-03 2024-04-05 北京京东尚科信息技术有限公司 一种确定待测试接口的测试数据的方法和装置
CN117579507A (zh) * 2024-01-17 2024-02-20 云筑信息科技(成都)有限公司 一种自动化提取录制流量的方法
CN117579507B (zh) * 2024-01-17 2024-05-28 云筑信息科技(成都)有限公司 一种自动化提取录制流量的方法

Also Published As

Publication number Publication date
CN107609020B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
USRE47896E1 (en) System and method for tracking web interactions with real time analytics
CN108416620B (zh) 一种基于大数据的画像数据的智能社交广告投放平台
CN107862022B (zh) 文化资源推荐***
CN105447184B (zh) 信息抓取方法及装置
CN107273436A (zh) 一种推荐模型的训练方法和训练装置
CN109118296A (zh) 活动推送方法、装置及电子设备
CN103218431B (zh) 一种能识别网页信息自动采集的***
CN102354315B (zh) 一种网址导航页面生成方法和装置
CN109684530B (zh) 基于web管理与手机小程序应用的信息推送服务***
CN104217031B (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN109388637A (zh) 数据仓库信息处理方法、装置、***、介质
CN107609890A (zh) 一种订单跟踪的方法和装置
CN110300084B (zh) 基于ip地址的画像方法和装置,电子设备,可读介质
CN107908666A (zh) 一种识别设备标识的方法和装置
CN109976997A (zh) 测试方法和装置
CN110489653A (zh) 舆情信息查询方法和装置、***、电子设备、存储介质
CN102473190A (zh) 为网页分配关键词
CN110019087A (zh) 数据处理方法及其***
CN107679119A (zh) 生成品牌衍生词的方法和装置
CN106663258A (zh) 通过混合的基于统计和用户测量方法测量多屏幕互联网用户概况、交易行为和用户群体结构
CN109933514A (zh) 一种数据测试方法和装置
CN109002440A (zh) 用于大数据多维分析的方法、装置及***
CN107977678A (zh) 用于输出信息的方法和装置
CN109977312A (zh) 一种基于内容标签的知识库推荐***
CN109903105A (zh) 一种完善目标商品属性的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant