CN101388042B

CN101388042B - 一种建立文件特征库索引的方法及装置

Info

Publication number: CN101388042B
Application number: CN2008102223691A
Authority: CN
Inventors: 蒋亚洪
Original assignee: BEIJING LIUWEI SHIJI NETWORK TECHNOLOGIES Co Ltd
Current assignee: Best Time Beijing Network Technology Co ltd
Priority date: 2008-09-17
Filing date: 2008-09-17
Publication date: 2011-01-19
Anticipated expiration: 2028-09-17
Also published as: CN101388042A

Abstract

本发明公开了一种建立文件特征库索引的方法，该方法从文件中提取至少一个用于建立索引的第一特征数据；在虚拟根节点下，建立以各第一特征数据为各索引节点的多层索引结构，并由最后一个索引节点附带用于文件匹配的第二特征数据。本发明还公开了一种建立文件特征库索引的装置。通过本发明实施例，使得比较时从索引的每一层都可以过滤掉很大一部分不匹配的数据，这样被过滤掉的数据不再参与下一层的比较，从而节省了搜索时间与运算时间，提高了匹配的效率。

Description

一种建立文件特征库索引的方法及装置

技术领域

本发明涉及数据处理技术，特别是涉及一种建立文件特征库索引的方法及装置。

背景技术

在实际应用中，存在这样的应用场景：由于业务需要，要对电视台每天播放的广告进行统计，统计出各电视台每天都播放了哪些广告，每种广告的播放数量是多少，等等。

目前的统计方法是：预先在数据库中存储要播放的所有广告的关键字，然后将播放的每个广告与数据库中存储的广告关键字进行匹配，识别出正在播放的广告是数据库中的哪个广告，进而确定这个广告是医药类广告、化妆品广告、还是服饰类广告，等等，便于有关人员进行统计。这种匹配的方法是建立在比较的基础上的，在查找的过程中需要进行一系列关键字的比较，查找的效率依赖于查找过程中所进行的比较次数。

但是，在一般的数据库里数据的排序是无序的，如果数据库里的第一个广告正好可以与正在播出的广告匹配，则花费的时间就会很短，如果数据库里的最后一个数据可以与正在播出的广告相匹配，则花费的时间就会很长，因此，该匹配广告数据的方法的缺点在于，找到匹配的广告所需的时间不能恒定，随着广告数量的增加，容易造成运算延迟。

发明内容

本发明所要解决的技术问题是提供一种建立文件特征库及索引的方法及装置，以解决现有技术中随着数据量的增加，容易造成运算延迟的问题。

为解决上述技术问题，本发明公开了以下技术方案：

一种建立文件特征库索引的方法，包括：

从文件中提取至少一个用于建立索引的第一特征数据；其中，所述文件为视频文件时，所述第一特征数据包括所述视频文件的每段场景的时间长度；所述视频文件包括广告视频文件；

在虚拟根节点下，建立以各第一特征数据为各索引节点的多层索引结构，并由最后一个索引节点附带用于文件匹配的第二特征数据；其中，所述视频文件为广告视频文件时，所述第二特征数据包括所述广告视频文件的时间长度、切变帧数量和/或切变帧的统计直方图。

优选的，还包括：

将所述第一特征数据作为哈希函数的参数计算出哈希值，将所述哈希值作为存储地址，并将对应的第一层索引节点保存在所述存储地址上。

优选的，添加新的索引项时，还包括：

将所述新的索引项的各层节点与已经建立的索引的各层节点进行逐层匹配，对于每一层，如果匹配成功，则进入下一层进行匹配；如果匹配失败，则将所述新的索引项的该层节点添加为上一层节点的后继节点。

一种建立文件特征库索引的装置，包括：

第一特征数据提取单元，用于从文件中提取至少一个用于建立索引的第一特征数据；其中，所述文件为视频文件时，所述第一特征数据包括所述视频文件的每段场景的时间长度；

索引建立单元，用于在虚拟根节点下，建立以各第一特征数据为各索引节点的多层索引结构，并由最后一个索引节点附带用于文件匹配的第二特征数据；其中，所述视频文件为广告视频文件时，所述第二特征数据包括所述广告视频文件的时间长度、切变帧数量和/或切变帧的统计直方图。

优选的，还包括：

存储地址获取单元，用于将所述第一特征数据作为哈希函数的参数计算出哈希值，将所述哈希值作为存储地址；

保存单元，用于将对应的第一层索引节点保存在所述存储地址上。

优选的，还包括：

新索引项添加单元，用于将新的索引项的各层节点与已经建立的索引的各层节点进行逐层匹配，对于每一层，如果匹配成功，则进入下一层进行匹配；如果匹配失败，则将所述新的索引项的该层节点添加为上一层节点的后继节点。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

该方法提取文件中至少一个用于建立索引的第一特征数据；在虚拟根节点下，将一个所述第一特征数据作为第一层索引节点，其他所述第一特征数据依次作为索引后继节点，并由最后一个索引节点附带用于文件匹配的第二特征数据，建立多层索引。可见，本发明实施例通过建立多层的索引，使得比较时从每一层都可以过滤掉很大一部分不匹配的数据，这样被过滤掉的数据不再参与下一层的比较，从而节省了搜索时间与运算时间，提高了匹配的效率。

其次，由于对于每一个文件建立的索引具有相似的形式，因此使得匹配每个文件所需的时间比较恒定。

再次，通过使用哈希函数来生成第一层索引节点的地址，匹配时，可以首先在虚拟根节点下找到第一层索引节点的地址，在这个地址范围内，逐层比较各层索引节点，从而进一步节省了匹配所需的时间。

另外，哈希函数的使用比较灵活，可以构造适当的哈希函数，以减少冲突的发生。

附图说明

图1是本发明实施例提供的建立文件特征库索引的方法的流程图；

图2是本发明实施例提供的建立广告特征库索引的方法的流程图；

图3是本发明实施例提供的查找与待匹配广告的方法的流程图；

图4是本发明实施例提供的添加新索引的方法的流程图；

图5是本发明实施例提供的第一装置的示意图；

图6是本发明实施例提供的第二装置的示意图；

图7是本发明实施例提供的第三装置的示意图；

图8是本发明实施例提供的第四装置的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例、参见图1，本发明实施例提供的方法包括以下步骤：

S101：从文件中提取至少一个用于建立索引的第一特征数据；

需要说明的是，本发明实施例中，数据库中预先存储的是所有文件的特征数据，该数据库称为文件特征库，根据特征数据便可以获知待匹配的文件对应的是哪一个文件。以广告文件为例，则该数据库可以称为广告特征库，库中存储的是所有要播放的广告的特征数据，由于广告为视频文件，因此其特征数据包括广告的时间长度、切变帧数量、至少一个切变帧的统计直方图数据、以及广告的标识等。本发明实施例的目的是为该文件特征库建立索引，对于广告特征库而言，建立起索引后，便可以根据该索引快速地查找到与当前播放的广告相匹配的特征数据，进而获知在播放的是哪个广告。

其中，选择多个用于建立索引的第一特征数据的目的是，利用这些特征数据建立多层的索引结构，使得在搜索比较的时候，在每一层都可以过滤掉一部分不匹配的文件，这样被过滤掉的文件就不再参与下一层的运算，这样便可以缩短搜索及运算上的时间。但是并不是所有的特征数据都需要参与建立索引，可以选取一些用于建立索引，并由索引的最后一个节点携带相应的特征数据即可。

S102：在虚拟根节点下，建立以各第一特征数据为各节点的多层索引结构，并由最后一个节点附带用于文件匹配的第二特征数据。

其中，所述虚拟根节点是本来就存在的，即只要建立索引，就存在一个虚拟根节点。本发明实施例中所述的第一层索引节点可以看作是该虚拟根节点的孩子。程序读取的时候总是先找一个根节点，然后去和这个根节点的孩子进行比较。所以每一次比较都是通过一个根节点去找这个根节点的孩子和根节点下的孩子进行比较。

需要说明的是，本发明实施例中包括两种特征数据，一种是用于文件匹配的，这些特征数据对于每一个文件来讲具有唯一性，也就是利用这些特征数据可以获知待匹配的文件是哪一个文件；另一种是用于建立索引的，也就是索引的各个节点是由这种特征数据组成的。仍以广告文件为例，其用于文件匹配的特征数据包括广告的时间长度、切变帧数量、切变帧的统计直方图等；而用于建立索引的第一特征数据可以是各段场景的时间长度等。因此对于不同的广告而言，其用于建立索引的特征数据有可能是相同的，但是用于文件匹配的特征数据一定是不同的。也就是说，用于文件匹配的特征数据相当于文件的ID，对于每个文件具有唯一性。虽然索引的最后一个节点有可能附带多个文件的特征数据，但仍然可以根据特征数据进行匹配，获得最终相匹配的特征数据。可见，本发明实施例提供的方法不一定能够根据索引直接找到匹配的特征数据，但一定可以大大缩小查找的范围。

本发明实施例选取每段场景的时间长度作为用于建立索引的第一特征数据。其中，场景是指由多个镜头组成的一个视频段。划分场景的时候通过不断的划分、重建、优化，使得场景的长度尽量唯一，建立的索引尽量分散。

需要注意的是，建立的多层索引结构包括只有一层的情况，例如本发明实施例中将场景的时间长度作为用于建立索引的第一特征数据时，允许整个视频是一个场景，而且就只有这一个场景，这样建立的索引结构就只有一层。

为了克服一般线性表中存储位置的随机性，本发明实施例为每个第一层索引节点分配存储地址。在实际应用中，该步骤可以通过函数来实现。例如采用哈希函数，则可以将用于建立索引的第一特征数据作为哈希函数的参数，计算出对应的哈希值，该哈希值便可以作为该第一层索引节点的地址。同时利用树的函数，将第一层节点及相应的各层索引后续节点建立起树的结构，并利用排序函数进行排序，最终得到排过序的哈希树。这样建立起来的索引结构，将更加便于进行查找。

采用哈希函数进行计算时，不同的参数可能会产生相同的哈希值，而且映射的地址可能是一个范围，因为是允许有一定的误差的。例如：允许误差为0.5s，则长度为(10±0.5)s的场景都包括在10s的场景中。因此在一个哈希值下存储的第一层索引节点会有很多个，匹配文件时，先根据虚拟根节点找到第一层索引节点的地址，然后再根据索引各节点一层一层地查找匹配的特征数据。

值得注意的是，在数据存储的过程中，经常会产生冲突，这里的冲突是指一些地址上存储了绝大多数的数据(本发明中是指第一层索引节点)，而其他一些地址上存储的数据较少。本发明实施例中可以选取均匀的哈希函数，以减少冲突的发生。

如上建立了文件特征库的索引后，便可以利用该索引进行文件的匹配了，匹配时，可以获取待匹配文件的特征数据，并获取该文件的第一层索引节点的存储地址，在虚拟根节点下，根据所述地址，将所述待匹配文件的特征数据与各层索引数据逐层进行比较，将所述待匹配文件的特征数据与最后一层索引节点附带的各特征数据进行比较，最终得到相匹配的特征数据。

为了更好地理解本发明实施例提供的方法，下面以广告特征库为例进行详细地说明。

参见图2，可以按照以下步骤为广告特征库中广告A的特征数据建立索引：

S201：将第一段场景的时间长度作为第一个第一特征数据，并保存记录，例如第一段场景的时间长度为10S，则可以记录为：A-1(10S)，该时间长度则称为第一个第一征数据；

S202：记录第二段场景的时间长度为：A-2(8S)，该时间长度则成为第二个第一特征数据；

S203：记录第三段场景的时间长度为：A-3(6S)，该时间长度则成为第三个第一特征数据；

S204：依次进行记录，例如广告A一共只有四段场景，则选取该最后一段场景，并记录其时间长度为：A-4(3S)，该时间长度则成为第四个第一特征数据；

注意，以上所述第一、第二、第三及第四段第一特征数据就是用来建立索引的第一特征数据。

S205：将获得的四个第一特征数据作为哈希函数的参数，计算出哈希值，该哈希值则作为该索引的存储地址；

S206：在虚拟根节点下，将A-1(10S)作为第一层索引节点，A-2(8S)作为A-1(10S)的索引后继节点，A-3(6S)作为A-2(8S)的索引后继节点，A-4(3S)作为A-3(6S)的索引后继节点，以此形成多级索引结构，存储在所述存储地址上。其中，A-4(3S)作为最后一个索引节点，将附带用于广告匹配的第二特征数据。

由于每个广告都是按照相同的方法生成哈希值，因此同一个广告产生的哈希值应该是相等的，也就是只要是特征库里的广告，则该广告的第一层索引节点在特征库中存储的地址是唯一的。利用这个特点可以在匹配时，找到待匹配的广告的第一层索引节点存储的地址，然后根据索引逐层进行检索。

表1

表1给出了同一个哈希值确定的存储地址下，各索引的存储情况，可以看出每个哈希值存储了多个第一层索引节点，每一个索引的第一层索引节点可以按照一定的顺序排列起来，例如按照时间长度升序排列。每个索引的第一层索引节点作为索引的第一层数据，它的子节点作为索引的第二层数据，其他的后继节点逐层类推，就建立起了一个分层的广告特征库索引。

下面对为正在播放的广告B查找匹配的第二特征数据的步骤进行详细地描述：

参见图3，为广告B查找匹配的特征数据的方法包括以下步骤：

S301：利用与建立索引时相同的方法，计算第一段场景的时间长度(假设为10S)，保存记录为B-1(10S)，依次类推，选取第二段、第三段、第四段场景的时间长度，并分别记录为B-2(8S)，B-3(6S)，B-4(3S)；

S302：将B-1(10S)，B-2(8S)，B-3(6S)，B-4(3S)作为哈希函数的参数，计算哈希值，在广告特征库中查找与该哈希值相等的地址，该地址就是广告B的第一层索引节点存储的地址；

值得注意的是，步骤S301及S302都是按照前文所述的规则进行的，因此虽然每个哈希值可能对应多个广告的第一层索引节点，但是一个文件只能产生一个哈希值，因此，需要查找广告B的特征数据时，计算出哈希值，便可以找到其第一层索引节点所在的地址，接下来再根据索引查找匹配的特征数据。

S303：开始在广告特征库索引的第一层进行比较，找到与B-1(10S)匹配的节点，例如匹配的节点为A-1(10S)；

S304：在A-1(10S)的子节点中查找与B-2(8S)匹配的节点，例如匹配的节点为A-2(8S)；

注意，第一层索引中，除A-1(10S)之外，还包括其他节点，但按照本发明实施例的方法，在第二层索引中，只需要在A-1(10S)的子节点中进行查找，过滤掉了很大一部分数据，同理，在每一层查找的时候，都会过滤掉很多的数据，从而节省了查找的时间。

S305：在A-2(8S)的子节点中查找与B-3(6S)匹配的节点，例如匹配的数据为A-3(6S)；

S306：同理，在A-3(6S)的子节点中查找与B-4(3S)匹配的节点，例如匹配的节点为A-4(3S)；

此时，已经到了最后一个节点，但如前文所述，该节点可能对应多个文件的用于文件匹配的特征数据，因此还需要进行以下步骤：

S307：提取广告B的用于文件匹配的第二特征数据；

S308：将广告B中用于文件匹配的特征数据与A-4(3S)节点附带的特征数据进行比较，确定相匹配的特征数据，这样就能够获知正在播放的广告B时哪一个广告了。

前文所述是在建立的广告特征库中包含了所有可能播出的广告基础上的，在实际应用中，当出现的新的广告C时，则需要将该广告添加到广告特征库中，并建立新的索引项，下面对该添加的步骤进行详细地描述。

参见图4，向广告特征库中添加广告C的索引项的步骤包括：

S401：按照与步骤S201～S205相同的方法，记录各段场景的时间长度，设为C-1(10S)，C-2(8S)，C-3(6S)，并计算出哈希值，根据哈希值找到其存储地址；

S402：开始在广告特征库索引的第一层开始比较；

如果匹配失败，也就是该层索引中不包括10S的第一层索引节点，则添加该节点；如果同一层的各节点按照时间长度升序排列，则C-1(10S)所在的位置应为：在第一段场景时间长度小于10S的广告之后，且在第一段场景的时间长度大于10S的广告之前。找到这个位置后，将第一层索引C-1(10S)及其所有后继节点添加进去，称为新的索引；如果匹配成功，则进入S403；

S403：匹配成功，也就是第一层索引中已经包括了10S的节点，如该节点为A-1(10S)，则C-2(8S)在A-1(10S)的子节点中进行比较；

如果匹配失败，则将C-2(8S)及其所有后继节点，添加到以A-1(10S)为根节点的第二层索引里，添加的位置为：在第二段场景时间长度小于8S的广告之后，且在第二段场景的时间长度大于8S的广告之前；如果匹配成功，则进入S404；

S404：匹配成功，也就是第二层索引中包括了8S的节点，如该节点为A-2(8S)，则C-3(6S)在A-2(8S)的子节点中进行比较；

如果匹配失败，则将C-3(6S)及其所有后继节点，添加到以A-2(8S)为双亲节点的第三层索引里，添加的位置为：在第三段场景时间长度小于6S的广告之后，且在第三段场景的时间长度大于6S的广告之前，由于该节点已经是广告C的最后一个节点，因此将该广告的第二特征数据附带在该节点C-3(6S)上；

如果匹配成功，如该节点为A-3(6S)，则直接将该广告的第二特征数据附带在节点A-3(6S)上。

以上介绍了本发明实施例所提供的建立文件特征库索引的方法，并对利用该索引进行文件匹配的过程进行了描述，与本发明实施例提供的方法相对应，本发明实施例还提供了一种建立文件特征库索引的装置，下面结合附图对该装置进行详细地介绍。

参见图5，本发明实施例提供的建立文件特征库索引的装置包括：

第一特征数据提取单元U501，用于在文件中提取至少一个用于建立索引的第一特征数据；

索引建立单元U502，用于在虚拟根节点下，建立以各第一特征数据为各索引节点的多层索引结构，并由最后一个索引节点附带用于文件匹配的第二特征数据。

第一特征数据提取单元U501在文件中提取到用于建立索引的第一特征数据后，索引建立单元U502在第一特征数据提取单元U501提取的第一特征数据中选择一个作为第一层索引节点，其他的第一特征数据依次作为索引后继节点，并由最后一个节点附带用于文件匹配的第二特征数据，建立多层索引。

为了进一步加快查找的速度，可以使用哈希函数为各第一层索引节点生成一个地址，查找时可以先找到根节点的地址，再在该地址上按照索引逐层查找。

因此，参见图6，该装置还可以包括：

存储地址获取单元U603，用于将所述第一特征数据作为哈希函数的参数计算出哈希值，将所述哈希值作为存储地址；

保存单元U604，用于将对应的第一层索引节点保存在所述存储地址上。

其中，图6中的第一特征数据提取单元U601和索引建立单元U602与图5中的第一特征数据提取单元U501和索引建立单元U502相同。

建立起索引后，就可以按照建立的索引进行文件的查找了，为了查找与待匹配文件相匹配的特征数据，参见图7，该装置还包括：

存储地址确定单元U705，用于提取待匹配文件中用于建立索引的第一特征数据，并确定第一层索引节点的存储地址；

查找单元U706，用于在虚拟根节点下，根据所述存储地址，将所述待匹配文件中用于建立索引的第一特征数据与各层索引数据逐层进行比较，直到找到匹配的最后一个索引节点；

第二特征数据提取单元U707，用于提取待匹配文件中用于文件匹配的第二特征数据；

匹配数据确定单元U708，用于将所述第二特征数据提取单元提取的第二特征数据与最后一个索引节点附带的第二特征数据进行比较，得到相匹配的第二特征数据。

存储地址确定单元U705在待匹配文件中提取用于建立索引的第一特征数据，此时提取的第一特征数据与建立索引时提取的特征数据相同，因此将这些特征数据作为哈希函数的参数进行计算得到的哈希值，与第一层索引节点的存储地址对应的哈希值相等，以此便可以确定第一层索引节点的存储地址；确定好第一层索引节点的地址后，查找单元U706便可以在虚拟根节点下，根据所述存储地址，将所述待匹配文件中用于建立索引的第一特征数据与各层索引数据逐层进行比较，找到匹配的最后一个索引节点；由于最后一个索引节点可能携带有多个文件的特征数据，因此找到最后一个索引节点后，还要进行第二特征数据的匹配，此时第二特征数据提取单元U707提取待匹配文件中用于文件匹配的第二特征数据，然后匹配数据确定单元U708将所述提取的第二特征数据与最后一个索引节点附带的第二特征数据进行比较，得到相匹配的第二特征数据。

其中，图7中的第一特征数据提取单元U701、索引建立单元U702、存储地址获取单元U703和保存单元U704，与图6中的第一特征数据提取单元U601和索引建立单元U602、存储地址获取单元U603和保存单元U604相同。

当建立索引的文件为广告文件等视频文件时，可以选择各段场景的时间长度作为用于建立索引的第一特征数据，此时，第一特征数据提取单元U701计算每个场景的时间长度，将各时间长度作为用于建立索引的第一特征数据。

当需要在文件特征库中添加新的索引项时，参见图8，该装置还包括：

新索引项添加单元U803，用于将新索引项的各层节点与已经建立的索引的各层节点进行逐层匹配，对于每一层，如果匹配成功，则进入下一层进行匹配；如果匹配失败，则将新索引项的该层节点添加为上一层节点的后继节点。

其中，图8中的第一特征数据提取单元U801和索引建立单元U802，与图5中的第一特征数据提取单元U501和索引建立单元U502相同。

以上对本发明所提供的一种建立文件特征库索引的方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种建立文件特征库索引的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，添加新的索引项时，还包括：

4.一种建立文件特征库索引的装置，其特征在于，包括：

第一特征数据提取单元，用于从文件中提取至少一个用于建立索引的第一特征数据；其中，所述文件为视频文件时，所述第一特征数据包括所述视频文件的每段场景的时间长度；所述视频文件包括广告视频文件；

5.根据权利要求4所述的装置，其特征在于，还包括：

6.根据权利要求4所述的装置，其特征在于，还包括：