CN106202293A

CN106202293A - 一种突发事件语料库的更新方法及装置

Info

Publication number: CN106202293A
Application number: CN201610509717.8A
Authority: CN
Inventors: 叶澄灿; 陈英傑; 胡军; 王天畅
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-12-07
Anticipated expiration: 2036-06-30
Also published as: CN106202293B

Abstract

本发明实施例公开了一种突发事件语料库的更新方法及装置，包括，获得视频的标题；根据所述标题，生成所述标题对应的第一词向量；根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新；对更新后的所述聚类中心的词向量进行过滤；根据过滤后的词向量，对所述突发事件语料库进行更新。应用本发明实施例，提高了针对更新突发事件语料库的更新效率，使面向突发事件的搜索结果更为合理。

Description

一种突发事件语料库的更新方法及装置

技术领域

本发明涉及资源管理技术领域，特别涉及一种突发事件语料库的更新方法及装置。

背景技术

随着视频数量和用户对视频搜索引擎使用程度的快速增加，视频搜索已经成为用户获取信息的一种重要方式。目前，面向突发事件(如新闻，娱乐八卦等事件)的新增视频的搜索请求已经成为一类重要的搜索请求，对于这类请求，用户期望搜索到较新的视频。

现有技术中，搜索引擎通常按照固定的权重综合考量相关度、点击数据、视频质量、新鲜度和其他方面共五个维度的的得分，将得分较高的视频文件输出给用户。如果用户想要检索的分词是突发事件(如新闻、娱乐八卦等)相关的分词，这就要求针对此分词加大新鲜度的权重，这时搜索引擎就会根据加大新鲜度权重后搜索到的结果输出给用户，其中包括用户想得到的内容，如新闻、娱乐八卦等，还有用户不想得到的内容，如热播剧集等，搜索的结果不够合理，影响用户体验。

当搜索引擎判断出搜索词是面向突发事件时，通过搜索词和突发事件语料库的相关度匹配，可以判断一个搜索词是否是面向突发事件的。然而，目前所有视频文件搜索工具都是人工更新突发事件语料库，人工更新会消耗大量的时间和人力，语料库的更新效率较低。

另外，现有的检索方法在检索突发事件时，会将频繁更新的视频或者热播剧集显示出来，影响突发事件检索结果的质量，面向突发事件的搜索结果不合理。

发明内容

本发明实施例的目的在于提供一种突发事件语料库的更新方法及装置，以提高针对更新突发事件语料库的更新效率，使面向突发事件的搜索结果更为合理。

为达到上述目的，本发明实施例公开了一种突发事件语料库的更新方法，包括：

获得视频的标题；

根据所述标题，生成所述标题对应的第一词向量；

根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新；

对更新后的所述聚类中心的词向量进行过滤；

根据过滤后的词向量，对所述突发事件语料库进行更新。

较佳的，在所述根据所述标题，生成所述标题对应的第一词向量之前，还包括：

判断所述标题对应的视频的出现时间距当前时间的时长是否小于预设第一时长，且判断所述视频的视频时长是否小于预设第二时长；

所述根据所述标题，生成所述标题对应的第一词向量，包括：

在所述标题对应的视频的出现时间距当前时间的时长小于预设第一时长，且所述视频的视频时长小于预设第二时长的情况下，根据所述标题，生成所述标题对应的第一词向量。

较佳的，所述根据所述标题，生成所述标题对应的第一词向量，包括：

对所述标题进行分词处理，得到针对所述标题对应的至少一个分词；

根据预设过滤规则，对所得到的分词结果进行过滤；

根据过滤后的分词结果，生成所述标题对应的第一词向量。

较佳的，所述根据所述词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新，包括：

判断所述聚类中心中用于存储词向量的第一列表中是否存在与所述第一词向量相似的第二词向量；

如果不存在，将所述第一词向量添加在所述第一列表中，并在所述聚类中心中用于存储类成员个数以及词向量中的分词的频率的第二列表中添加与所述第一词向量对应的第一记录；

如果存在，更新所述第二词向量对应的所述第二列表中的第二记录；

针对所述第一记录或所述第二记录，判断所述第一记录或所述第二记录中的每一个分词的频率与所述第一记录或所述第二记录中的类成员个数的商是否大于预设第一阈值；如果是，将所述分词确定为待处理分词；根据所述第一记录或所述第二记录中的所有待处理分词，生成目标词向量；

判断所述第一列表中除所述第一词向量或所述第二词向量之外的词向量中是否存在与所述目标词向量相同的词向量或包含所述目标词向量的词向量；

如果存在或包含，将所述第一列表中的所述第一词向量或所述第二词向量删除和或将所述包含所述目标词向量的词向量删除；将所述第二列表中的与所述目标词向量相同的词向量或包含所述目标词向量的词向量对应的记录删除；并建立与所述目标词向量相同的词向量与所述第一记录或所述第二记录的对应关系，或将所述目标词向量添加在所述第一列表中，并建立所述目标词向量与所述第一记录或所述第二记录的对应关系；

如果不存在或不包含，将所述第一列表中的所述第一词向量或所述第二词向量删除；将所述目标词向量添加在所述第一列表中，并建立所述目标词向量与所述第一记录或所述第二记录的对应关系。

较佳的，所述对更新后的所述聚类中心的词向量进行过滤，包括：

针对所述聚类中心中的每一词向量，判断所述词向量对应的记录中的类成员个数是否大于预设第二阈值；

如果是，计算所述词向量中每一分词的逆词频；

根据每一分词的逆词频，计算所述词向量对应的逆词频的平均值；

判断所述平均值是否小于预设第三阈值；

如果是，将所述词向量以及与所述词向量对应的所述第二列表中的记录删除。

较佳的，所述根据过滤后的词向量，对所述突发事件语料库进行更新，包括：

将删除后剩余的词向量对应的分词添加在所述突发事件语料库中。

为实现上述目的，本发明实施例还公开了一种突发事件语料库的更新装置，包括视频标题获得模块、第一词向量生成模块、聚类中心更新模块、词向量过滤模块和突发事件语料库更新模块，其中，

所述视频标题获得模块，用于获得视频的标题；

所述第一词向量生成模块，用于根据所述标题，生成所述标题对应的第一词向量；

所述聚类中心更新模块，用于根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新；

所述词向量过滤模块，用于对更新后的所述聚类中心的词向量进行过滤；

所述突发事件语料库更新模块，用于根据过滤后的词向量，对所述突发事件语料库进行更新。

较佳的，所述第一词向量生成模块，具体用于：

根据预设过滤规则，对所得到的分词进行过滤；

根据过滤后的分词，生成所述标题对应的第一词向量。

较佳的，所述装置还包括：判断模块，

所述判断模块，用于判断所述标题对应的视频的出现时间距当前时间的时长是否小于预设第一时长，且判断所述视频的视频时长是否小于预设第二时长；

所述第一词向量生成模块，具体用于：

在所述判断模块判断出所述标题对应的视频的出现时间距当前时间的时长小于预设第一时长，且所述视频的视频时长小于预设第二时长的情况下，对所述标题进行分词处理，得到针对所述标题对应的至少一个分词；根据预设过滤规则，对所得到的分词进行过滤；根据过滤后的分词，生成所述标题对应的第一词向量。

较佳的，所述聚类中心更新模块，具体用于：

较佳的，所述词向量过滤模块，具体用于：

如果是，计算所述词向量中每一分词的逆词频；

判断所述平均值是否小于预设第三阈值；

较佳的，所述语料库更新模块，具体用于：

由上述技术方案可见，本发明实施例公开了一种突发事件语料库的更新方法及装置，包括，获得视频的标题；根据所述标题，生成所述标题对应的第一词向量；根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新；对更新后的所述聚类中心的词向量进行过滤；根据过滤后的词向量，对所述突发事件语料库进行更新。

应用本发明实施例提供的方法可以自动更新突发事件语料库，免去了人工更新突发事件语料库所需的大量的时间和人力，提高了更新突发事件语料库的效率，同时根据逆词频表优化面向突发事件的搜索结果，使面向突发事件的搜索结果更为合理。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种突发事件语料库的更新方法的流程示意图；

图2为本发明实施例提供的生成第一词向量的流程示意图；

图3为本发明实施例提供的更新聚类中心的流程示意图；

图4为本发明实施例提供的对更新后的聚类中心的词向量进行过滤的流程示意图；

图5为本发明实施例提供的另一种突发事件语料库的更新方法的流程示意图；

图6为本发明实施例提供的一种突发事件语料库的更新装置的结构示意图；

图7为本发明实施例提供的另一种突发事件语料库的更新装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术问题，本发明实施例提供了一种突发事件语料库的更新方法及装置，下面首先就本发明实施例提供的一种突发事件语料库的更新方法进行说明。

图1为本发明实施例提供的一种突发事件语料库的更新方法的流程示意图，包括：

S101：获得视频的标题。

具体的，在实际应用中，假设搜索引擎通过搜索，获得的视频的标题为“韩国朴槿惠总统的哲学人生”。

S102：根据所述标题，生成所述标题对应的第一词向量。

具体的，如图2所示，S102可以包括：

S102A：对所述标题进行分词处理，得到针对所述标题对应的至少一个分词。

具体的，在实际应用中，利用现有的分词代码对视频标题进行分词。

S102B：根据预设过滤规则，对所得到的分词结果进行过滤。

具体的，对所得到的分词进行过滤为，过滤掉长度小于设定分词结果长度的分词结果，其中设定分词结果长度为用户设定。

S102C：根据过滤后的分词结果，生成所述标题对应的第一词向量。

下面以标题为“韩国朴槿惠总统的哲学人生”的视频为例对S102步骤进行详细说明。

先对标题“韩国朴槿惠总统的哲学人生”进行分词处理，得到的分词结果为“韩国；朴槿惠；总统；的；哲学；人生”。

再根据根据预设过滤规则，对所得到的“韩国；朴槿惠；总统；的；哲学；人生”进行过滤。

具体的，在实际应用中，预设过滤规则为，过滤掉长度小于设定值的分词其中，在本步骤中设定值为2。

对所得到的分词结果过滤后，得到“韩国；朴槿惠；总统；哲学；人生”。

再根据过滤后的分词结果生成第一词向量。

S103：根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新。

具体的，聚类中心由第一列表和第二列表组成，其中第一列表用于存储词向量，第二列表用于存储与第一列表中的词向量对应的记录，第二列表中的每一条记录都包括有与第一词向量对应的类成员个数以及类的词频列表。

具体的，在实际应用中，类的词频列表包括，与第一词向量对应的分词以及与该分词对应的词频。

具体的，如图3所示，S103可以包括：

S103A：判断所述聚类中心中用于存储词向量的第一列表中是否存在与所述第一词向量相似的第二词向量，如果否，执行S103B，如果是，执行S103C。

具体的，与第一词向量相似的第二词向量为，与第一词向量的重复程度不小于设定阈值的存储在第一列表中的词向量。

S103B：将所述第一词向量添加在所述第一列表中，并在所述聚类中心中用于存储类成员个数以及词向量中的分词的频率的第二列表中添加与所述第一词向量对应的第一记录。

具体的，在添加第一记录时，给第一记录中的类成员个数赋予初始值，将所述词向量中的分词添加到词频列表中，并给词频列表中的分词对应的词频赋予初始值。

S103C：更新所述第二词向量对应的所述第二列表中的第二记录。

具体的，增加第二记录中的类成员个数，增加与所述词向量中的分词对应的词频的值，其中增加的值为与初始值相等的值。

S103D：针对所述第一记录或所述第二记录，判断所述第一记录或所述第二记录中的每一个分词的频率与所述第一记录或所述第二记录中的类成员个数的商是否大于预设第一阈值；如果是，执行S103E。

S103E：将所述分词确定为待处理分词；根据所述第一记录或所述第二记录中的所有待处理分词，生成目标词向量。

S103F：判断所述第一列表中除所述第一词向量或所述第二词向量之外的词向量中是否存在与所述目标词向量相同的词向量或包含所述目标词向量的词向量；如果是，执行S103G，如果否，执行S103H。

具体来说，与目标词向量相同为，目标词向量中所有的分词与第一列表中除所述第一词向量或所述第二词向量之外的词向量中的分词完全相同；包含目标词向量为，第一列表中除所述第一词向量或所述第二词向量之外的词向量除了与目标词向量中的分词完全相同的分词外，还包括其他词向量。

S103G：将所述第一列表中的所述第一词向量或所述第二词向量删除和或将所述包含所述目标词向量的词向量删除；将所述第二列表中的与所述目标词向量相同的词向量或包含所述目标词向量的词向量对应的记录删除；并建立与所述目标词向量相同的词向量与所述第一记录或所述第二记录的对应关系，或将所述目标词向量添加在所述第一列表中，并建立所述目标词向量与所述第一记录或所述第二记录的对应关系。

具体的，如果所述第一列表中除所述第一词向量或所述第二词向量之外的词向量中存在与所述目标词向量相同的词向量，将所述第一列表中的所述第一词向量或所述第二词向量删除，将所述第二列表中的与所述目标词向量相同的词向量对应的记录删除；并建立与所述目标词向量相同的词向量与所述第一记录或所述第二记录的对应关系。

具体的，如果所述第一列表中除所述第一词向量或所述第二词向量之外的词向量中存在包含所述目标词向量的词向量；将所述第一列表中的所述第一词向量或所述第二词向量删除，将所述包含所述目标词向量的词向量删除；将所述第二列表中包含所述目标词向量的词向量对应的记录删除；将所述目标词向量添加在所述第一列表中，并建立所述目标词向量与所述第一记录或所述第二记录的对应关系。

S103H：将所述第一列表中的所述第一词向量或所述第二词向量删除；将所述目标词向量添加在所述第一列表中，并建立所述目标词向量与所述第一记录或所述第二记录的对应关系。

下面对S103步骤进行详细说明。

需要说明的是，以下举例仅出于更好的理解本发明实施例的目的，并不构成对本发明的限定。

具体的，在实际应用中，判断词向量是否相似为现有技术，本发明实施例在此不对其进行赘述。

示例性的，下面以根据词向量的重复程度的判断词向量是否相似进行说明。

先判断词向量[韩国；朴槿惠；总统；哲学；人生]与第一列表中每一个词向量的重复程度是否小于设定阈值，假设在本发明实施例中，该设定阈值为4。

假设原聚类中心为：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

其中，以[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]为例，23为类成员个数，“花千骨：20”中的20为词“花千骨”的频率(词频)。

判断结果为第一列表中所有词向量与[韩国；朴槿惠；总统；哲学；人生]重复程度均小于4，即S103A的判断结果为否。

再将第一词向量[韩国；朴槿惠；总统；哲学；人生]添加到第一列表中，并在第二列表中生成对应的第一记录。具体的，在第二列表中生成对应的第一记录包括，将词向量[韩国；朴槿惠；总统；哲学；人生]对应的类成员个数初始值设为1，分词韩国、朴槿惠、总统、哲学和人生的词频设均为1，生成的与第一词向量对应的第一记录为[1，(韩国：1，朴槿惠：1，总统：1，哲学：1，人生：1)].

新的聚类中心为：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠；总统；哲学；人生]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[1，(韩国：1，朴槿惠：1，总统：1，哲学：1，人生：1)]

再针对[1，(韩国：1，朴槿惠：1，总统：1，哲学：1，人生：1)]，判断其中的每一个分词的频率与[1，(韩国：1，朴槿惠：1，总统：1，哲学：1，人生：1)]中的类成员个数的商为均1，大于预设第一阈值大于0.6。

再将“韩国、朴槿惠、总统、哲学、人生”确定为待处理分词；根据所有待处理分词，生成目标词向量[韩国；朴槿惠；总统；哲学；人生]。

再判断第一列表中除第一词向量[韩国；朴槿惠；总统；哲学；人生]之外的词向量中不存在与所述目标词向量相同的词向量或包含所述目标词向量的词向量，即S103F步骤的判断结果为否。

再将所述第一列表中的第一词向量[韩国；朴槿惠；总统；哲学；人生]删除；将目标词向量添加在所述第一列表中，并建立所述目标词向量与[1，(韩国：1，朴槿惠：1，总统：1，哲学：1，人生：1)]的对应关系。更新后的聚类中心如下：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠；总统；哲学；人生]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[1，(韩国：1，朴槿惠：1，总统：1，哲学：1，人生：1)]

假设原聚类中心为：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠；总统；哲学]

[韩国；朴槿惠；哲学]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[12，(韩国：8，朴槿惠：9，总统：6，哲学：7)]

[10，(韩国：8，朴槿惠：10，哲学：8)]

先判断第一列表中的第二词向量[韩国；朴槿惠；总统；哲学]与第一词向量[韩国；朴槿惠；总统；哲学；人生]相似度为4，不小于设定阈值4，即S103A的判断结果为是。

再将第二记录[12，(韩国：8，朴槿惠：9，总统：6，哲学：7)]记录更新，包括，将类成员个数12加1，更新为13。分词韩国已存在于第二记录中，将该分词的词频8加1，更新为9，同理，分词朴槿惠的词频由9更新为10，分词总统的词频由6更新为7，分词哲学的词频由7更新为8。分词人生不存在于第二记录中，将该分词增加到第二记录中，并将该分词的词频初始值设为1，更新后的第二记录为[13，(韩国：9，朴槿惠：10，总统：7，哲学：8，人生：1)]。

新的聚类中心为：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠；总统；哲学]

[韩国；朴槿惠；哲学]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[13，(韩国：9，朴槿惠：10，总统：7，哲学：8，人生：1)]

[10，(韩国：8，朴槿惠：9，哲学：6)]

再针对第二记录[13，(韩国：9，朴槿惠：10，总统：7，哲学：8，人生：1)]，判断第二记录中的每一个分词的频率与第二记录中的类成员个数的商，其中分词韩国对应的商为0.69，大于预设第一阈值0.6，分词朴槿惠对应的商为0.77，大于0.6，同理，分词总统对应的商为0.54，小于0.6，分词哲学对应的商为0.62，大于0.6，分词人生对应的商为0.08，小于0.65。

再根据各分词对应的商，确定分词“韩国、朴槿惠、哲学”为待处理分词。根据所有待处理分词，生成目标词向量[韩国；朴槿惠；哲学]。

再判断得到所述第一列表中除第二词向量之外的词向量中[韩国；朴槿惠；哲学]与目标词向量[韩国；朴槿惠；哲学]相同，即S103F步骤判断的结果为是。

再将所述第一列表中的第二词向量[韩国；朴槿惠；总统；哲学]删除；将所述第二列表中的与目标向量相同的词向量对应的记录[10，(韩国：8，朴槿惠：9，哲学：6)]删除；并建立与所述目标词向量相同的词向量[韩国；朴槿惠；哲学]与第二记录[13，(韩国：9，朴槿惠：10，总统：7，哲学：8，人生：1)]的对应关系。更新后的聚类中心为：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠；哲学]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[13，(韩国：9，朴槿惠：10，总统：7，哲学：8，人生：1)]

假设原聚类中心为：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠；总统；哲学]

[韩国；朴槿惠；哲学]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[12，(韩国：8，朴槿惠：9，总统：6，哲学：5]

[10，(韩国：8，朴槿惠：10，哲学：8)]

先判断为第一列表中的第二词向量[韩国；朴槿惠；总统；哲学]与第一词向量[韩国；朴槿惠；总统；哲学；人生]相似度为4，不小于设定阈值4，即S103A的判断结果为是。

再将第二记录[12，(韩国：8，朴槿惠：9，总统：6，哲学：5)]记录更新，包括，将类成员个数12加1，更新为13。分词韩国已存在于第二记录中，将该分词的词频8加1，更新为9，同理，分词朴槿惠的词频由9更新为10，分词总统的词频由6更新为7，分词哲学的词频由5更新为6。分词人生不存在于第二记录中，将该分词增加到第二记录中，并将该分词的词频初始值设为1，更新后的第二记录为[13，(韩国：9，朴槿惠：10，总统：7，哲学：6，人生：1)]。

新的聚类中心为：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠；总统；哲学]

[韩国；朴槿惠；哲学]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[13，(韩国：9，朴槿惠：10，总统：7，哲学：6，人生：1)]

[10，(韩国：8，朴槿惠：9，哲学：6)]

再针对第二记录[13，(韩国：9，朴槿惠：10，总统：7，哲学：6，人生：1)]，判断第二记录中的每一个分词的频率与第二记录中的类成员个数的商，其中分词韩国对应的商为0.69，大于预设第一阈值0.6，分词朴槿惠对应的商为0.77，大于0.6，同理，分词总统对应的商为0.54，小于0.6，分词哲学对应的商为0.46，小于0.6，分词人生对应的商为0.08，小于0.65。

再根据各分词对应的商，确定分词“韩国、朴槿惠”为待处理分词。根据所有待处理分词，生成目标词向量[韩国；朴槿惠]。

再判断得到所述第一列表中除第二词向量[韩国；朴槿惠；总统；哲学]之外的词向量中[韩国；朴槿惠；哲学]包含目标词向量[韩国；朴槿惠]，即S103F步骤判断的结果为是。

再将所述第一列表中的第二词向量[韩国；朴槿惠；总统；哲学]和将包含目标词向量的词向量[韩国；朴槿惠；哲学]删除；将所述第二列表中的包含所述目标词向量的词向量对应的记录[10，(韩国：8，朴槿惠：9，哲学：6)]删除；并将所述目标词向量[韩国；朴槿惠]添加在所述第一列表中，并建立目标词向量第二记录[13，(韩国：9，朴槿惠：10，总统：7，哲学：6，人生：1)]的对应关系。更新后的聚类中心为：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[13，(韩国：9，朴槿惠：10，总统：7，哲学：6，人生：1)]

S104：对更新后的所述聚类中心的词向量进行过滤。

具体的，如图4所示，S104可以包括：

S104A：针对所述聚类中心中的每一词向量，判断所述词向量对应的记录中的类成员个数是否大于预设第二阈值；如果是，执行S104B。

S104B：计算所述词向量中每一分词的逆词频。

具体的，通过查询现有的逆词频表，计算所述词向量中每一分词的逆词频。

在实际应用中，逆词频表中的每一条记录是根据该分词在整个视频平台所有的视频标题中出现的频率生成的，该词的逆词频值与该词在整个语料库中出现的频率成反比。

S104C：根据每一分词的逆词频，计算所述词向量对应的逆词频的平均值。

S104D：判断所述平均值是否小于预设第三阈值，如果是，执行S104E。

S104E：将所述词向量以及与所述词向量对应的所述第二列表中的记录删除。

下面就对S104步骤进行详细说明。

具体的，在实际应用中，可以在处理完20000个视频之后统一的进行对更新后的聚类中心的词向量进行过滤。

在实际应用中，假设根据S103步骤得到的更新后的聚类中心如下：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

[韩国；朴槿惠]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

[13，(韩国：9，朴槿惠：10，总统：7，哲学：6，人生：1)]

判断聚类中心的第二列表中的记录中类成员个数是否大于预设第二阈值，其中预设第二阈值为14。得到第二列表中[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]和[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]的类成员个数大于14.根据此步骤，得到的聚类中心如下：

第一列表：

[速度与激情；主角；车祸]

[花千骨；庆功会；召开；赵丽颖]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

[23,(花千骨：20，庆功会：21，召开：15，赵丽颖：8)]

通过查询现有的逆词频表，计算[速度与激情；主角；车祸]和[花千骨；庆功会；召开；赵丽颖]词向量对应的分词的逆词频值。

判断以上步骤计算得到的分词的逆词频值是否小于预设第三阈值，其中第三阈值为8.5。

假设[速度与激情；主角；车祸]对应的分词逆词频值不小于8.5，则删除第一列表中的[花千骨；庆功会；召开；赵丽颖]词向量和第二列表中与该词向量对应的记录。

过滤后的聚类中心如下：

第一列表：

[速度与激情；主角；车祸]

第二列表：

[15,(速度与激情：10，主角：12，车祸：9，保罗沃克：3)]

现有技术中，搜索引擎通常按照固定的权重综合考量相关度、点击数据、视频质量、新鲜度和其他方面共五个维度的的得分，将得分较高的视频文件输出给用户。如果用户想要检索的分词是突发事件(如新闻、娱乐八卦等)相关的分词，这就要求针对此分词加大新鲜度的权重，这时搜索引擎就会根据加大新鲜度权重后搜索到的结果输出给用户，其中包括用户想得到的内容，如新闻、娱乐八卦等，还有用户不想得到的内容，如热播剧集等。

在本发明提供的实施例中，之前频繁出现的视频(如热播剧集等)对应的分词在逆词频表中的逆词频值就会比较高，应用本发明实施例可以将逆词频值大于第三阈值的视频过滤掉，也就是说这些视频对应的分词不会被添加到突发事件语料库中。在搜索引擎对搜索词进行判断时，不会将这些视频对应的分词判断为对应突发事件的搜索词，即这些视频不会出现在面向突发事件的搜索结果中，搜索结果更为合理。

S105：根据过滤后的词向量，对所述突发事件语料库进行更新。

具体的，将过滤后的词向量对应的分词添加在所述突发事件语料库中。

在实际应用中，将根据S104步骤得到[速度与激情；主角；车祸]词向量对应的分词“速度与激情、主角、车祸”添加到突发事件预料库中。

本发明实施例提供的方法可以自动更新突发事件语料库，免去了人工更新突发事件语料库所需的大量的时间和人力，提高了更新突发事件语料库的效率，同时根据逆词频表优化面向突发事件的搜索结果，使面向突发事件的搜索结果更为合理。

图5为本发明实施例提供的另一种突发事件语料库的更新方法的流程示意图，本发明图5所示实施例在图1所示实施例的基础上，在S102之前增加S106：判断所述标题对应的视频的出现时间距当前时间的时长是否小于预设第一时长，且判断所述视频的视频时长是否小于预设第二时长；如果是，执行S102。

下面以标题为“韩国朴槿惠总统的哲学人生”的视频为例进行详细说明。

先判断上述视频的出现时间距当前时间的时长是否小于预设第一时长，且判断上述视频的视频时长是否小于预设第二时长。

假设预设第一时长为3天，预设第二时长为20分钟，假设上述视频的出现时间距当前时间的时长是小于预设第一时长3天，且上述视频的视频时长是小于预设第二时长20分钟，则本步骤的判断结果为是。

应用本发明图5所示实施例，在生成与标题对应的第一词向量之前，缩小了待处理视频标题的范围，进一步减少了更新突发事件语料库所需的时间，提高了突发事件语料库的更新效率。

与上述的方法实施例相对应，本发明实施例还公开了一种突发事件语料库的更新装置。

图6为本发明实施例提供的一种突发事件语料库的更新装置的结构示意图，可以包括：视频标题获得模块601，第一词向量生成模块602、聚类中心更新模块603、词向量过滤模块604和突发事件语料库更新模块605，其中：

视频标题获得模块601，用于获得视频的标题。

第一词向量生成模块602，用于根据所述标题，生成所述标题对应的第一词向量；

在实际应用中，第一词向量生成模块602，具体可以用于：

对所述标题进行分词处理，得到针对所述标题对应的至少一个分词；根据预设过滤规则，对所得到的分词进行过滤；根据过滤后的分词，生成所述标题对应的第一词向量。

聚类中心更新模块603，用于根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新。

在实际应用中，聚类中心更新模块603，具体可以用于：

词向量过滤模块604，用于对更新后的所述聚类中心的词向量进行过滤。

在实际应用中，词向量过滤模块604，具体可以用于：

如果是，计算所述词向量中每一分词的逆词频；

判断所述平均值是否小于预设第三阈值；

突发事件语料库更新模块605，用于根据过滤后的词向量，对所述突发事件语料库进行更新。

在实际应用中，突发事件语料库更新模块605，具体可以用于，将删除后剩余的词向量对应的分词添加在所述突发事件语料库中。

应用本发明图6所示实施例，可以自动更新突发事件语料库，免去了人工更新突发事件语料库所需的大量的时间和人力，提高了更新突发事件语料库的效率，同时根据逆词频表优化面向突发事件的搜索结果，使面向突发事件的搜索结果更为合理。

图7为本发明实施例提供的另一种突发事件语料库更新装置的结构示意图，本发明图7所示实施例在图6所示实施例的基础上增加了视频标题判断模块606，用于判断所述标题对应的视频的出现时间距当前时间的时长是否小于预设第一时长，且判断所述视频的视频时长是否小于预设第二时长，如果是，触发第一词向量生成模块602。

应用本发明图7所示装置，在生成与标题对应的第一词向量之前，缩小了待处理视频标题的范围，进一步减少了更新突发事件语料库所需的时间，提高了突发事件语料库的更新效率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种突发事件语料库的更新方法，其特征在于，包括：

获得视频的标题；

根据所述标题，生成所述标题对应的第一词向量；

对更新后的所述聚类中心的词向量进行过滤；

根据过滤后的词向量，对所述突发事件语料库进行更新。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述标题，生成所述标题对应的第一词向量之前，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述标题，生成所述标题对应的第一词向量，包括：

根据预设过滤规则，对所得到的分词结果进行过滤；

根据过滤后的分词结果，生成所述标题对应的第一词向量。

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新，包括：

5.根据权利要求4所述的方法，其特征在于，所述对更新后的所述聚类中心的词向量进行过滤，包括：

如果是，计算所述词向量中每一分词的逆词频；

判断所述平均值是否小于预设第三阈值；

6.根据权利要求5所述的方法，其特征在于，所述根据过滤后的词向量，对所述突发事件语料库进行更新，包括：

7.一种突发事件语料库的更新装置，其特征在于，所述装置包括视频标题获得模块、第一词向量生成模块、聚类中心更新模块、词向量过滤模块和突发事件语料库更新模块，其中，

所述视频标题获得模块，用于获得视频的标题；

8.根据权利要求7所述的装置，其特征在于，所述第一词向量生成模块，具体用于：

根据预设过滤规则，对所得到的分词进行过滤；

根据过滤后的分词，生成所述标题对应的第一词向量。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：判断模块，

所述第一词向量生成模块，具体用于：

10.根据权利要求7至9任一项所述的装置，其特征在于，所述聚类中心更新模块，具体用于：

11.根据权利要求10所述的装置，其特征在于，所述词向量过滤模块，具体用于：

如果是，计算所述词向量中每一分词的逆词频；

判断所述平均值是否小于预设第三阈值；

12.根据权利要求11所述的装置，其特征在于，所述语料库更新模块，具体用于：