CN107832444A

CN107832444A - 基于搜索日志的事件发现方法及装置

Info

Publication number: CN107832444A
Application number: CN201711163308.8A
Authority: CN
Inventors: 陈玉光; 沈剑平; 陈伟娜; 赵斌文; 陈奇石
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-03-23
Anticipated expiration: 2037-11-21
Also published as: CN107832444B

Abstract

本发明提出一种基于搜索日志的事件发现方法及装置，其中方法包括：获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；根据新增搜索词，查询预设的实体词典，获取新增搜索词中包括的实体；对包括实体的新增搜索词进行统计，判断是否存在突发搜索词；若存在，则根据突发搜索词及其搜索结果，确定突发搜索词的特征；将突发搜索词的特征，与突发搜索词所包括的实体对应的至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，事件中包括：类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息；从而能够在有新的数据产生时，及时进行事件发现，提高了事件发现效率，缩短了事件发现时间。

Description

基于搜索日志的事件发现方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于搜索日志的事件发现方法及装置。

背景技术

目前，互联网上的信息呈爆发式的增长，当用户想要关注某个人物或者公司相关的事件时，用户不得不面对大量未经整理的新闻资讯，花费大量的时间从未经整理的新闻资讯中获取某个人物或者公司相关的事件及其进展。

现有技术中，可以通过采用聚类或者波峰检测等方式，从大量未经整理的新闻资讯中提取与人物或者公司相关的事件，提供给用户。然而现有技术中，聚类以及波峰检测等方式，需要基于全量数据进行事件发现，当有新的数据产生时，需要将新的数据合入源数据后重新进行事件发现，降低了事件发现效率，延长了事件发现时间。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于搜索日志的事件发现方法，用于解决现有技术中事件发现效率差，时间长的问题。

本发明的第二个目的在于提出一种基于搜索日志的事件发现装置。

本发明的第三个目的在于提出另一种基于搜索日志的事件发现装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于搜索日志的事件发现方法，包括：

获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；

根据所述新增搜索词，查询预设的实体词典，获取所述新增搜索词中包括的实体；

对所述搜索日志中包括实体的新增搜索词进行统计，判断所述新增搜索词中是否存在突发搜索词；所述突发搜索词为对应的搜索频率大于第一频率阈值的新增搜索词；

若所述新增搜索词中存在突发搜索词，则根据所述突发搜索词以及对应的搜索结果，确定所述突发搜索词的特征；

根据所述突发搜索词中包括的实体，获取预存的与所述实体对应的至少一个事件；所述事件中包括：类簇中的各个搜索词、所述各个搜索词的特征、以及所述类簇的描述信息；

将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件。

进一步的，所述将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，包括：

将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，判断是否存在与所述突发搜索词匹配的搜索词；

若不存在与所述突发搜索词匹配的搜索词，则创建新类簇，将所述突发搜索词以及所述突发搜索词的特征添加到所述新类簇中，并根据所述突发搜索词的搜索结果确定所述新类簇的描述信息，得到新事件。

进一步的，所述将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，判断是否存在与所述突发搜索词匹配的搜索词，包括：

根据所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征，计算所述突发搜索词与所述至少一个事件中各个搜索词之间的相似度；

根据所述突发搜索词与所述至少一个事件中各个搜索词之间的相似度，确定是否存在与所述突发搜索词匹配的搜索词。

进一步的，所述突发搜索词的特征包括以下特征中的任意一种或多种：根据所述搜索词是否能检索出相关新闻；相关新闻的点击数；相关新闻的标题中突发搜索词的出现次数。

进一步的，所述将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，还包括：

若存在与所述突发搜索词匹配的搜索词，则获取包括所述匹配的搜索词的第一事件；

将所述突发搜索词以及所述突发搜索词的特征添加到所述第一事件中。

进一步的，所述若不存在与所述突发搜索词匹配的搜索词，则创建新类簇，将所述突发搜索词以及所述突发搜索词的特征添加到所述新类簇中，并根据所述突发搜索词的搜索结果确定所述新类簇的描述信息，得到新事件之后，还包括：

存储所述实体对应的所述新事件。

进一步的，所述获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果之前，还包括：

获取所述搜索日志中的历史搜索词以及对应的搜索结果；

对包括实体的历史搜索词进行统计，获取所述历史搜索词中的历史突发搜索词；

根据所述历史突发搜索词以及对应的搜索结果，确定所述历史突发搜索词的特征；

针对所述历史突发搜索词中包括的每个实体，根据包括所述实体的第一历史突发搜索词的特征，对所述第一历史突发搜索词进行聚类，得到所述实体对应的至少一个类簇；所述类簇中包括：所述第一历史突发搜索词，以及所述第一历史突发搜索词的特征；

针对每个类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息；

将包括所述类簇的描述信息、所述类簇中各个第一历史突发搜索词、以及各个第一历史突发搜索词的特征的事件，确定为与所述实体对应的事件。

进一步的，所述将包括所述类簇的描述信息、所述类簇中各个第一历史突发搜索词、以及各个所述第一历史突发搜索词的特征的事件，确定为与所述实体对应的事件之后，还包括：

对所述实体对应的至少一个事件，按照时间进行排序，得到与所述实体对应的事件列表。

进一步的，所述针对每个类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息，包括：

针对每个类簇，获取所述类簇中各个第一历史突发搜索词的评分排序特征；所述评分排序特征包括以下特征中的任意一种或多种：所述第一历史突发搜索词的搜索频率；所述第一历史突发搜索词检索出的相关新闻数量；所述第一历史突发搜索词中包括的实体的数量；

根据所述类簇中各个第一历史突发搜索词的评分排序特征，对所述各个第一历史突发搜索词进行评分排序，获取排序在前的第一预设数量的第一历史突发搜索词；

根据所述类簇中排序在前的第一预设数量的第一历史突发搜索词的搜索结果，确定所述类簇的描述信息。

进一步的，所述针对每个类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息之前，还包括：

获取所述实体对应的至少一个类簇的特征；所述类簇的特征包括以下特征中的任意一种或多种：所述类簇中所有第一历史突发搜索词的搜索频率总和；所述类簇中所有第一历史突发搜索词检索出的相关新闻总数量；

根据所述类簇的特征对所述实体对应的至少一个类簇进行评分排序，获取排序在前的第二预设数量的类簇；

对应的，所述针对每个类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息，包括：

针对排序在前的第二预设数量的类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息。

进一步的，所述的方法还包括：

接收用户的搜索请求，所述搜索请求中携带：待处理的搜索词；

根据所述待处理的搜索词，查询预设的实体词典，获取所述待处理的搜索词中包括的实体；

根据所述待处理的搜索词中包括的实体，查询获取与所述实体对应的事件列表；

将所述实体对应的事件列表，提供给所述用户。

本发明实施例的基于搜索日志的事件发现方法，通过获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；根据新增搜索词，查询预设的实体词典，获取新增搜索词中包括的实体；对搜索日志中包括实体的新增搜索词进行统计，判断新增搜索词中是否存在突发搜索词；若存在突发搜索词，则根据突发搜索词以及对应的搜索结果，确定突发搜索词的特征；根据突发搜索词中包括的实体，获取预存的与实体对应的至少一个事件；事件中包括：类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息；将突发搜索词的特征，与至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，从而能够在有新的数据产生时，及时进行事件发现，提高了事件发现效率，缩短了事件发现时间。

为达上述目的，本发明第二方面实施例提出了一种基于搜索日志的事件发现装置，包括：

获取模块，用于获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；

查询模块，用于根据所述新增搜索词，查询预设的实体词典，获取所述新增搜索词中包括的实体；

统计模块，用于对所述搜索日志中包括实体的新增搜索词进行统计，判断所述新增搜索词中是否存在突发搜索词；所述突发搜索词为对应的搜索频率大于第一频率阈值的新增搜索词；

确定模块，用于在所述新增搜索词中存在突发搜索词时，根据所述突发搜索词以及对应的搜索结果，确定所述突发搜索词的特征；

所述获取模块，还用于根据所述突发搜索词中包括的实体，获取预存的与所述实体对应的至少一个事件；所述事件中包括：类簇中的各个搜索词、所述各个搜索词的特征、以及所述类簇的描述信息；

匹配模块，用于将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件。

进一步的，所述匹配模块包括：

匹配单元，用于将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，判断是否存在与所述突发搜索词匹配的搜索词；

创建单元，用于在不存在与所述突发搜索词匹配的搜索词时，创建新类簇，将所述突发搜索词以及所述突发搜索词的特征添加到所述新类簇中，并根据所述突发搜索词的搜索结果确定所述新类簇的描述信息，得到新事件。

进一步的，所述匹配单元，具体用于，

进一步的，所述匹配模块还包括：

获取单元，用于在存在与所述突发搜索词匹配的搜索词时，获取包括所述匹配的搜索词的第一事件；

添加单元，用于将所述突发搜索词以及所述突发搜索词的特征添加到所述第一事件中。

进一步的，所述匹配模块还包括：

存储单元，用于存储所述实体对应的所述新事件。

进一步的，所述的装置还包括：聚类模块；

所述获取模块，还用于获取所述搜索日志中的历史搜索词以及对应的搜索结果；

所述统计模块，还用于对包括实体的历史搜索词进行统计，获取所述历史搜索词中的历史突发搜索词；

所述确定模块，还用于根据所述历史突发搜索词以及对应的搜索结果，确定所述历史突发搜索词的特征；

所述聚类模块，用于针对所述历史突发搜索词中包括的每个实体，根据包括所述实体的第一历史突发搜索词的特征，对所述第一历史突发搜索词进行聚类，得到所述实体对应的至少一个类簇；所述类簇中包括：所述第一历史突发搜索词，以及所述第一历史突发搜索词的特征；

所述确定模块，还用于针对每个类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息；

所述确定模块，还用于将包括所述类簇的描述信息、所述类簇中各个第一历史突发搜索词、以及各个第一历史突发搜索词的特征的事件，确定为与所述实体对应的事件。

进一步的，所述的装置还包括：

排序模块，用于对所述实体对应的至少一个事件，按照时间进行排序，得到与所述实体对应的事件列表。

进一步的，所述确定模块，具体用于，

进一步的，所述的装置还包括：排序模块；

所述获取模块，还用于获取所述实体对应的至少一个类簇的特征；所述类簇的特征包括以下特征中的任意一种或多种：所述类簇中所有第一历史突发搜索词的搜索频率总和；所述类簇中所有第一历史突发搜索词检索出的相关新闻总数量；

所述排序模块，用于根据所述类簇的特征对所述实体对应的至少一个类簇进行评分排序，获取排序在前的第二预设数量的类簇；

对应的，所述确定模块，具体用于针对排序在前的第二预设数量的类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息。

进一步的，所述的装置还包括：接收模块和提供模块；

所述接收模块，用于接收用户的搜索请求，所述搜索请求中携带：待处理的搜索词；

所述查询模块，还用于根据所述待处理的搜索词，查询预设的实体词典，获取所述待处理的搜索词中包括的实体；

所述查询模块，还用于根据所述待处理的搜索词中包括的实体，查询获取与所述实体对应的事件列表；

所述提供模块，用于将所述实体对应的事件列表，提供给所述用户。

本发明实施例的基于搜索日志的事件发现装置，通过获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；根据新增搜索词，查询预设的实体词典，获取新增搜索词中包括的实体；对搜索日志中包括实体的新增搜索词进行统计，判断新增搜索词中是否存在突发搜索词；若存在突发搜索词，则根据突发搜索词以及对应的搜索结果，确定突发搜索词的特征；根据突发搜索词中包括的实体，获取预存的与实体对应的至少一个事件；事件中包括：类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息；将突发搜索词的特征，与至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，从而能够在有新的数据产生时，及时进行事件发现，提高了事件发现效率，缩短了事件发现时间。

为达上述目的，本发明第三方面实施例提出了另一种基于搜索日志的事件发现装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的基于搜索日志的事件发现方法。

为了实现上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于搜索日志的事件发现方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于搜索日志的事件发现方法，所述方法包括：

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种基于搜索日志的事件发现方法的流程示意图；

图2为本发明实施例提供的另一种基于搜索日志的事件发现方法的流程示意图；

图3为本发明实施例提供的另一种基于搜索日志的事件发现方法的流程示意图；

图4为本发明实施例提供的一种基于搜索日志的事件发现装置的结构示意图；

图5为本发明实施例提供的另一种基于搜索日志的事件发现装置的结构示意图；

图6为本发明实施例提供的另一种基于搜索日志的事件发现装置的结构示意图；

图7为本发明实施例提供的另一种基于搜索日志的事件发现装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于搜索日志的事件发现方法及装置。

图1为本发明实施例提供的一种基于搜索日志的事件发现方法的流程示意图。如图1所示，该基于搜索日志的事件发现方法包括以下步骤：

S101、获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果。

本发明提供的基于搜索日志的事件发现方法的执行主体为基于搜索日志的事件发现装置，基于搜索日志的事件发现装置可以为硬件设备，例如服务器等，或者硬件设备上安装的软件。其中，服务器例如可以为搜索引擎对应的后台服务器。

本实施例中的搜索日志可以为流式搜索日志，即按照时间顺序记录有各个时间点的搜索词以及对应的搜索结果。本实施例中，搜索日志中未用于进行事件发现的新增搜索词，指的是步骤101之前，根据搜索日志进行事件发现后，搜索日志中的新增搜索词。例如，若步骤101为对搜索日志的第二次事件发现，则步骤101之前根据搜索日志进行的事件发现，可以为根据搜索日志的所有数据进行的事件发现。若步骤101为对搜索日志的第三次事件发现或者更多次事件发现，则步骤101之前根据搜索日志进行的事件发现，可以为对搜索日志的第二次事件发现、第一次事件发现等。例如，第一次事件发现为根据搜索日志中的所有搜索词进行的事件发现；第二次事件发现为根据当时搜索日志中的新增搜索词进行的事件发现。

S102、根据新增搜索词，查询预设的实体词典，获取新增搜索词中包括的实体。

本实施例中，实体词典可以指以下词典中的任意一个或者多个：人物词典、公司词典等等。

S103、对搜索日志中包括实体的新增搜索词进行统计，判断新增搜索词中是否存在突发搜索词；突发搜索词为对应的搜索频率大于第一频率阈值的新增搜索词。

本实施例中，基于搜索日志的事件发现装置可以结合泊松分布，即Poisson分布确定突发搜索词对应的第一频率阈值，具体过程为，基于搜索日志的事件发现装置可以先设定突发搜索词的搜索概率需要满足的概率阈值，然后结合泊松分布的公式计算突发搜索词需要满足的第一频率阈值，即单位时间内的搜索次数；当搜索词的搜索频率满足第一频率阈值时，确定该搜索词为突发搜索词。单位时间例如可以为一小时、一天等。

其中，泊松分布的公式可以如以下公式(1)所示，

p(x)＝Poisson(x；q) (1)

其中，p(x)为搜索词的搜索概率；x为搜索词的搜索频率；参数q可以根据该搜索词的历史数据估算得到。

S104、若新增搜索词中存在突发搜索词，则根据突发搜索词以及对应的搜索结果，确定突发搜索词的特征。

本实施例中，突发搜索词的特征包括以下特征中的任意一种或多种：根据搜索词是否能检索出相关新闻；相关新闻的点击数；相关新闻的标题中突发搜索词的出现次数。

其中，上述各特征可以用特征向量表示，例如，根据搜索词是否能检索出相关新闻可以用newsurl向量：{url，0/1}表示。其中，url表示相关新闻的链接地址；1表示根据搜索词能检索出相关新闻的链接地址；0表示根据搜索词不能检索出相关新闻的链接地址。相关新闻的点击数可以用urlclick向量：{url，点击数}表示。相关新闻的标题中突发搜索词的出现次数可以用titleword向量：{新闻title词，词出现次数}表示。新闻title词为新闻的标题。

S105、根据突发搜索词中包括的实体，获取预存的与实体对应的至少一个事件；事件中包括：类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息。

本实施例中，基于搜索日志的事件发现装置可以预先保存有步骤101之前，根据搜索日志进行事件发现后得到的各个实体对应的至少一个事件。其中，各个实体对应的至少一个事件可以为按照时间进行排序得到的事件列表。

S106、将突发搜索词的特征，与至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件。

本实施例中，若存在新事件，则基于搜索日志的事件发现装置将突发搜索词以及突发搜索词的特征添加到新事件中，并存储实体对应的所述新事件。若不存在新事件，则基于搜索日志的事件发现装置将突发搜索词以及突发搜索词的特征添加到相应的事件中，以便查询。

本实施例中，在搜索日志中存在新增搜索词时，不需要对搜索日志的所有搜索词重新进行事件发现，只需要根据新增搜索词以及之前进行事件发现得到的与各个实体对应的至少一个事件进行分析即可，减少了计算量，提高了计算效率，缩短了计算时间。

图2为本发明实施例提供的另一种基于搜索日志的事件发现方法的流程示意图，如图2所示，在图1所示实施例的基础上，步骤106具体可以包括以下步骤：

S1061、将突发搜索词的特征，与至少一个事件中各个搜索词的特征进行匹配，判断是否存在与突发搜索词匹配的搜索词。

本实施例中，基于搜索日志的事件发现装置执行步骤1061的过程具体可以为，根据突发搜索词的特征，与至少一个事件中各个搜索词的特征，计算突发搜索词与至少一个事件中各个搜索词之间的相似度；根据突发搜索词与至少一个事件中各个搜索词之间的相似度，确定是否存在与突发搜索词匹配的搜索词。

本实施例中，突发搜索词与至少一个事件中各个搜索词之间的相似度的计算公式具体可以如以下公式(2)所示，

sim(query1,query2)＝a*cos(urlclick1,urlclick2)+b*cos(newsrul1,newsurl2)+c*cos(titleword1,titleword2) (2)

其中，sim(query1,query2)表示突发搜索词与至少一个事件中其中一个搜索词之间的相似度；query1表示突发搜索词；query2表示至少一个事件中其中一个搜索词；urlclick1、newsrul1、titleword1依次表示突发搜索词的相关新闻的点击数、根据搜索词是否能检索出相关新闻、以及相关新闻的标题中突发搜索词的出现次数；urlclick2、newsurl2、titleword2依次表示至少一个事件中其中一个搜索词的相关新闻的点击数、根据搜索词是否能检索出相关新闻、以及相关新闻的标题中搜索词的出现次数。

若实体对应的至少一个事件中存在对应的相似度大于预设相似度阈值的搜索词，则确定实体对应的至少一个事件中存在与突发搜索词匹配的搜索词；若实体对应的至少一个事件中不存在对应的相似度大于预设相似度阈值的搜索词，则确定实体对应的至少一个事件中不存在与突发搜索词匹配的搜索词。

S1062、若不存在与突发搜索词匹配的搜索词，则创建新类簇，将突发搜索词以及突发搜索词的特征添加到新类簇中，并根据突发搜索词的搜索结果确定新类簇的描述信息，得到新事件。

本实施例中，基于搜索日志的事件发现装置根据突发搜索词的搜索结果确定新类簇的描述信息的过程具体可以为，获取突发搜索词的搜索结果中的相关新闻；从相关新闻的标题title中提取适合的短句；根据从各个相关新闻中提取的短句，确定新类簇的描述信息。

S1063、若存在与突发搜索词匹配的搜索词，则获取包括匹配的搜索词的第一事件；将突发搜索词以及突发搜索词的特征添加到第一事件中。

本实施例中，需要说明的是，将突发搜索词以及突发搜索词的特征添加到第一事件中之后，基于搜索日志的事件发现装置还可以根据突发搜索词的搜索结果对第一事件中类簇的描述信息进行一定调整。

本发明实施例的基于搜索日志的事件发现方法，通过获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；根据新增搜索词，查询预设的实体词典，获取新增搜索词中包括的实体；对搜索日志中包括实体的新增搜索词进行统计，判断新增搜索词中是否存在突发搜索词；若存在突发搜索词，则根据突发搜索词以及对应的搜索结果，确定突发搜索词的特征；根据突发搜索词中包括的实体，获取预存的与实体对应的至少一个事件；事件中包括：类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息；将突发搜索词的特征，与至少一个事件中各个搜索词的特征进行匹配，判断是否存在与突发搜索词匹配的搜索词；若不存在与突发搜索词匹配的搜索词，则创建新类簇，将突发搜索词以及突发搜索词的特征添加到新类簇中，并根据突发搜索词的搜索结果确定新类簇的描述信息，得到新事件；若存在与突发搜索词匹配的搜索词，则获取包括匹配的搜索词的第一事件；将突发搜索词以及突发搜索词的特征添加到第一事件中，从而能够在有新的数据产生时，及时进行事件发现，提高了事件发现效率，缩短了事件发现时间。

图3为本发明实施例提供的另一种基于搜索日志的事件发现方法的流程示意图，如图3所示，在图1所示实施例的基础上，步骤101之前还可以包括：

S107、获取搜索日志中的历史搜索词以及对应的搜索结果。

本实施例中，若步骤101为对搜索日志的第二次事件发现或者更多次事件发现，则该步骤可以为对搜索日志的第一次事件发现。该步骤中的历史搜索词，可以为搜索日志中的所有搜索词，或者较长时间段内的所有搜索词，例如1年、2年等。

S108、对包括实体的历史搜索词进行统计，获取历史搜索词中的历史突发搜索词。

S109、根据历史突发搜索词以及对应的搜索结果，确定历史突发搜索词的特征。

S110、针对历史突发搜索词中包括的每个实体，根据包括实体的第一历史突发搜索词的特征，对第一历史突发搜索词进行聚类，得到实体对应的至少一个类簇；类簇中包括：第一历史突发搜索词，以及第一历史突发搜索词的特征。

本实施例中，基于搜索日志的事件发现装置根据包括实体的第一历史突发搜索词的特征，对第一历史突发搜索词进行聚类的过程具体可以为，根据各个第一历史突发搜索词的特征，计算任意两个第一历史突发搜索词之间的相似度，根据任意两个第一历史突发搜索词之间的相似度，对各个第一历史突发搜索词进行划分，得到多个类簇，每个类簇中包括：之前相似度差值小于预设差值阈值的多个第一历史突发搜索词。其中，相似度的计算公式可以如公式(2)所示。

S111、针对每个类簇，根据类簇中各个第一历史突发搜索词的搜索结果，确定类簇的描述信息。

其中，基于搜索日志的事件发现装置执行步骤111的过程具体可以为，针对每个类簇，获取类簇中各个第一历史突发搜索词的评分排序特征；评分排序特征包括以下特征中的任意一种或多种：第一历史突发搜索词的搜索频率；第一历史突发搜索词检索出的相关新闻数量；第一历史突发搜索词中包括的实体的数量；根据类簇中各个第一历史突发搜索词的评分排序特征，对各个第一历史突发搜索词进行评分排序，获取排序在前的第一预设数量的第一历史突发搜索词；根据类簇中排序在前的第一预设数量的第一历史突发搜索词的搜索结果，确定类簇的描述信息。

其中，根据类簇中各个第一历史突发搜索词的评分排序特征，计算各个第一历史突发搜索词的评分的公式可以如以下公式(3)所示，

score(query)＝a*query_pv_num(Normalized)+

b*query_news_num(Normalized)+c*query_pepole_num(Normalized) (3)

其中，score(query)表示第一历史突发搜索词的评分；query表示第一历史突发搜索词；uery_pv_num(Normalized)表示第一历史突发搜索词的搜索频率；query_news_num(Normalized)表示第一历史突发搜索词检索出的相关新闻数量；query_pepole_num(Normalized)表示第一历史突发搜索词中包括的实体的数量。

本实施例中，得到类簇中各个第一历史突发搜索词的评分后，基于搜索日志的事件发现装置可以基于各个第一历史突发搜索词的评分进行排序，得到排序在前的第一预设数量的第一历史突发搜索词。例如，排序在前的5个第一历史突发搜索词。

本实施例中，得到排序在前的第一预设数量的第一历史突发搜索词后，可以获取第一预设数量的第一历史突发搜索词的搜索结果中的相关新闻；对相关新闻的标题进行清洗，并按标题中的空格和冒号等进行分隔，得到标题中的短句作为候选描述信息，并按照出现次数对候选描述信息进行排序；将类簇中第一预设数量的第一历史突发搜索词进行合并；将多个候选描述信息依次与合并得到的短句进行交集，将交集满足预设条件的候选描述信息确定为类簇的描述信息；若不存在交集满足预设条件，则可以删除该类簇。其中，预设条件例如可以为，交集得到的词语数量大于等于一定数量，例如2等。

进一步的，步骤111之前，所述的方法还可以包括：获取实体对应的至少一个类簇的特征；类簇的特征包括以下特征中的任意一种或多种：类簇中所有第一历史突发搜索词的搜索频率总和；类簇中所有第一历史突发搜索词检索出的相关新闻总数量；根据类簇的特征对实体对应的至少一个类簇进行评分排序，获取排序在前的第二预设数量的类簇。

对应的，步骤111具体可以为，针对排序在前的第二预设数量的类簇，根据类簇中各个第一历史突发搜索词的搜索结果，确定类簇的描述信息。

本实施例中，根据类簇的特征，计算各个类簇的评分的公式可以如以下公式(4)所示，

score(cluster)＝a*cluster_pv_num(Normalized)+b*cluster_news_num(Normalized) (4)

其中，score(cluster)表示类簇的评分；cluster_pv_num(Normalized)表示类簇中所有第一历史突发搜索词的搜索频率总和；cluster_news_num(Normalized)表示类簇中所有第一历史突发搜索词检索出的相关新闻总数量。

本实施例中，得到实体对应的各个类簇的评分后，基于搜索日志的事件发现装置可以基于各个类簇的评分进行排序，得到排序在前的第二预设数量的类簇；将包括排序在前的第二预设数量的类簇的描述信息、第二预设数量的类簇中各个第一历史突发搜索词、以及各个第一历史突发搜索词的特征的事件，确定为与实体对应的事件。

S112、将包括类簇的描述信息、类簇中各个第一历史突发搜索词、以及各个第一历史突发搜索词的特征的事件，确定为与实体对应的事件。

进一步的，步骤112之后，基于搜索日志的事件发现装置还可以执行以下步骤：对实体对应的至少一个事件，按照时间进行排序，得到与实体对应的事件列表，以便在接收到用户的携带待处理的搜索词的搜索请求时，根据待处理的搜索词，查询预设的实体词典，获取待处理的搜索词中包括的实体；根据待处理的搜索词中包括的实体，查询获取与实体对应的事件列表；将实体对应的事件列表，提供给用户。

本发明实施例的基于搜索日志的事件发现方法，在第一次进行事件发现时，获取搜索日志中的历史搜索词以及对应的搜索结果；基于搜索日志中的历史搜索词以及对应的搜索结果，进行聚类等得到与实体对应的至少一个事件；从而在再次进行事件发现时，获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；根据新增搜索词，查询预设的实体词典，获取新增搜索词中包括的实体；对搜索日志中包括实体的新增搜索词进行统计，判断新增搜索词中是否存在突发搜索词；若存在突发搜索词，则根据突发搜索词以及对应的搜索结果，确定突发搜索词的特征；根据突发搜索词中包括的实体，获取预存的与实体对应的至少一个事件；事件中包括：类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息；将突发搜索词的特征，与至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，从而能够在有新的数据产生时，及时进行事件发现，提高了事件发现效率，缩短了事件发现时间。

图4为本发明实施例提供的一种基于搜索日志的事件发现装置的结构示意图。如图4所示，包括：获取模块41、查询模块42、统计模块43、确定模块44和匹配模块45；

其中，获取模块41，用于获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；

查询模块42，用于根据所述新增搜索词，查询预设的实体词典，获取所述新增搜索词中包括的实体；

统计模块43，用于对所述搜索日志中包括实体的新增搜索词进行统计，判断所述新增搜索词中是否存在突发搜索词；所述突发搜索词为对应的搜索频率大于第一频率阈值的新增搜索词；

确定模块44，用于在所述新增搜索词中存在突发搜索词时，根据所述突发搜索词以及对应的搜索结果，确定所述突发搜索词的特征；

所述获取模块41，还用于根据所述突发搜索词中包括的实体，获取预存的与所述实体对应的至少一个事件；所述事件中包括：类簇中的各个搜索词、所述各个搜索词的特征、以及所述类簇的描述信息；

匹配模块45，用于将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件。

本发明提供的基于搜索日志的事件发现装置可以为硬件设备，例如服务器等，或者硬件设备上安装的软件。其中，服务器例如可以为搜索引擎对应的后台服务器。

本实施例中的搜索日志可以为流式搜索日志，即按照时间顺序记录有各个时间点的搜索词以及对应的搜索结果。实体词典可以指以下词典中的任意一个或者多个：人物词典、公司词典等等。

其中，泊松分布的公式可以如以下公式(1)所示，

p(x)＝Poisson(x；q) (1)

进一步的，结合参考图5，在图4所示实施例的基础上，所述匹配模块45包括：匹配单元451和创建单元452。

其中，匹配单元451，用于将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，判断是否存在与所述突发搜索词匹配的搜索词；

创建单元452，用于在不存在与所述突发搜索词匹配的搜索词时，创建新类簇，将所述突发搜索词以及所述突发搜索词的特征添加到所述新类簇中，并根据所述突发搜索词的搜索结果确定所述新类簇的描述信息，得到新事件。

进一步的，在上述实施例的基础上，所述匹配模块还包括：存储单元，用于存储所述实体对应的所述新事件。

其中，所述匹配单元451，具体用于，

进一步的，在上述实施例的基础上，所述匹配模块还包括：获取单元和添加单元；

本发明实施例的基于搜索日志的事件发现装置，通过获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；根据新增搜索词，查询预设的实体词典，获取新增搜索词中包括的实体；对搜索日志中包括实体的新增搜索词进行统计，判断新增搜索词中是否存在突发搜索词；若存在突发搜索词，则根据突发搜索词以及对应的搜索结果，确定突发搜索词的特征；根据突发搜索词中包括的实体，获取预存的与实体对应的至少一个事件；事件中包括：类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息；将突发搜索词的特征，与至少一个事件中各个搜索词的特征进行匹配，判断是否存在与突发搜索词匹配的搜索词；若不存在与突发搜索词匹配的搜索词，则创建新类簇，将突发搜索词以及突发搜索词的特征添加到新类簇中，并根据突发搜索词的搜索结果确定新类簇的描述信息，得到新事件；若存在与突发搜索词匹配的搜索词，则获取包括匹配的搜索词的第一事件；将突发搜索词以及突发搜索词的特征添加到第一事件中，从而能够在有新的数据产生时，及时进行事件发现，提高了事件发现效率，缩短了事件发现时间。

进一步的，结合参考图6，在图4所示实施例的基础上，所述的装置还包括：聚类模块46；

其中，所述获取模块41，还用于获取所述搜索日志中的历史搜索词以及对应的搜索结果；

所述统计模块43，还用于对包括实体的历史搜索词进行统计，获取所述历史搜索词中的历史突发搜索词；

所述确定模块44，还用于根据所述历史突发搜索词以及对应的搜索结果，确定所述历史突发搜索词的特征；

所述聚类模块46，用于针对所述历史突发搜索词中包括的每个实体，根据包括所述实体的第一历史突发搜索词的特征，对所述第一历史突发搜索词进行聚类，得到所述实体对应的至少一个类簇；所述类簇中包括：所述第一历史突发搜索词，以及所述第一历史突发搜索词的特征；

所述确定模块44，还用于针对每个类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息；

所述确定模块44，还用于将包括所述类簇的描述信息、所述类簇中各个第一历史突发搜索词、以及各个第一历史突发搜索词的特征的事件，确定为与所述实体对应的事件。

进一步的，所述确定模块44具体用于，

进一步的，在图6所示实施例的基础上，所述的装置还包括：排序模块；

所述获取模块41，还用于获取所述实体对应的至少一个类簇的特征；所述类簇的特征包括以下特征中的任意一种或多种：所述类簇中所有第一历史突发搜索词的搜索频率总和；所述类簇中所有第一历史突发搜索词检索出的相关新闻总数量；

对应的，所述确定模块44，具体用于针对排序在前的第二预设数量的类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息。

另外，所述排序模块，还可以用于对所述实体对应的至少一个事件，按照时间进行排序，得到与所述实体对应的事件列表。

进一步的，在上述实施例的基础上，所述的装置还包括：接收模块和提供模块；

本发明实施例的基于搜索日志的事件发现装置，在第一次进行事件发现时，获取搜索日志中的历史搜索词以及对应的搜索结果；基于搜索日志中的历史搜索词以及对应的搜索结果，进行聚类等得到与实体对应的至少一个事件；从而在再次进行事件发现时，获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果；根据新增搜索词，查询预设的实体词典，获取新增搜索词中包括的实体；对搜索日志中包括实体的新增搜索词进行统计，判断新增搜索词中是否存在突发搜索词；若存在突发搜索词，则根据突发搜索词以及对应的搜索结果，确定突发搜索词的特征；根据突发搜索词中包括的实体，获取预存的与实体对应的至少一个事件；事件中包括：类簇中的各个搜索词、各个搜索词的特征、以及类簇的描述信息；将突发搜索词的特征，与至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，从而能够在有新的数据产生时，及时进行事件发现，提高了事件发现效率，缩短了事件发现时间。

图7为本发明实施例提供的另一种基于搜索日志的事件发现装置的结构示意图。该基于搜索日志的事件发现装置包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。

处理器1002执行所述程序时实现上述实施例中提供的基于搜索日志的事件发现方法。

进一步地，基于搜索日志的事件发现装置还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机程序。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器1002，用于执行所述程序时实现上述实施例所述的基于搜索日志的事件发现方法。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于搜索日志的事件发现方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于搜索日志的事件发现方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，判断是否存在与所述突发搜索词匹配的搜索词，包括：

4.根据权利要求1或2或3所述的方法，其特征在于，所述突发搜索词的特征包括以下特征中的任意一种或多种：根据所述搜索词是否能检索出相关新闻；相关新闻的点击数；相关新闻的标题中突发搜索词的出现次数。

5.根据权利要求2所述的方法，其特征在于，所述将所述突发搜索词的特征，与所述至少一个事件中各个搜索词的特征进行匹配，确定是否存在新事件，还包括：

6.根据权利要求2所述的方法，其特征在于，所述若不存在与所述突发搜索词匹配的搜索词，则创建新类簇，将所述突发搜索词以及所述突发搜索词的特征添加到所述新类簇中，并根据所述突发搜索词的搜索结果确定所述新类簇的描述信息，得到新事件之后，还包括：

存储所述实体对应的所述新事件。

7.根据权利要求1所述的方法，其特征在于，所述获取搜索日志中未用于进行事件发现的新增搜索词以及对应的搜索结果之前，还包括：

获取所述搜索日志中的历史搜索词以及对应的搜索结果；

8.根据权利要求7所述的方法，其特征在于，所述将包括所述类簇的描述信息、所述类簇中各个第一历史突发搜索词、以及各个所述第一历史突发搜索词的特征的事件，确定为与所述实体对应的事件之后，还包括：

9.根据权利要求7所述的方法，其特征在于，所述针对每个类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息，包括：

10.根据权利要求7所述的方法，其特征在于，所述针对每个类簇，根据所述类簇中各个第一历史突发搜索词的搜索结果，确定所述类簇的描述信息之前，还包括：

11.根据权利要求8所述的方法，其特征在于，还包括：

将所述实体对应的事件列表，提供给所述用户。

12.一种基于搜索日志的事件发现装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述匹配模块包括：

14.根据权利要求13所述的装置，其特征在于，所述匹配单元，具体用于，

15.根据权利要求12或13或14所述的装置，其特征在于，所述突发搜索词的特征包括以下特征中的任意一种或多种：根据所述搜索词是否能检索出相关新闻；相关新闻的点击数；相关新闻的标题中突发搜索词的出现次数。

16.根据权利要求13所述的装置，其特征在于，所述匹配模块还包括：

17.根据权利要求13所述的装置，其特征在于，所述匹配模块还包括：

存储单元，用于存储所述实体对应的所述新事件。

18.根据权利要求12所述的装置，其特征在于，还包括：聚类模块；

19.根据权利要求18所述的装置，其特征在于，还包括：

20.根据权利要求18所述的装置，其特征在于，所述确定模块，具体用于，

21.根据权利要求18所述的装置，其特征在于，还包括：排序模块；

22.根据权利要求19所述的装置，其特征在于，还包括：接收模块和提供模块；

23.一种基于搜索日志的事件发现装置，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-11中任一所述的基于搜索日志的事件发现方法。

24.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11中任一所述的基于搜索日志的事件发现方法。

25.一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于搜索日志的事件发现方法，所述方法包括：