CN104504021A

CN104504021A - 数据匹配方法及装置

Info

Publication number: CN104504021A
Application number: CN201410766705.4A
Authority: CN
Inventors: 焦张波
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2015-04-08

Abstract

本发明公开了一种数据匹配方法及装置。其中，该方法包括：获取第一数据集合及第二数据集合，其中，第一数据集合中至少包括预先设置的第一多媒体文件名称，第二数据集合中至少包括客户端播放的第二多媒体文件名称；按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合，并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合，其中，清洗用于过滤第一数据集合及第二数据集合中的特征数据；匹配第一目标数据集合及第二目标数据集合。本发明解决了由于采用现有技术提供的数据匹配方式所导致的数据匹配准确性较低的技术问题。

Description

数据匹配方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据匹配方法及装置。

背景技术

如今，随着网络平台的不断扩大发展，网络提供的资源也越来越丰富，因而，越来越多的人选择通过网络收看在线多媒体文件。进一步，一些网络平台的栏目组为了向用户提供更符合用户喜好的网络资源，就需要对用户的播放行为做进一步统计分析。

目前，为了解决上述问题，现有技术中常用的方式是上述栏目组会利用预先制定的多媒体文件列表与用户已经选择收看的多媒体文件直接进行数据匹配，以获取选择该栏目组提供的各个多媒体文件的用户数量，进而达到对用户的播放行为进行统计分析的目的。具体而言，利用预先制定的多媒体文件列表中各个多媒体文件的名称与用户选择播放的多媒体文件的名称直接进行匹配，若经匹配判断出二者名称一致，则认为用户选择观看了该多媒体文件列表中对应的多媒体文件，否则，认为用户并未选择观看该多媒体文件列表中对应的多媒体文件。然而，由于多媒体文件提供方与多媒体文件收看方的需求不同，因而，通常用户选择播放的多媒体文件的名称与多媒体文件列表中的多媒体文件的名称设置的并不一致。

因而，采用现有的数据匹配方式就会导致一部分播放数据流失，进而造成数据匹配遗漏，匹配结果不准确的问题，从而进一步影响对用户的播放行为分析的准确性。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种数据匹配方法及装置，以解决由于采用现有技术提供的数据匹配方式所导致的数据匹配准确性较低的技术问题。

根据本发明的一个方面，提供了一种数据匹配方法，该方法包括：获取第一数据集合及第二数据集合，其中，上述第一数据集合中至少包括预先设置的第一多媒体文件名称，上述第二数据集合中至少包括客户端播放的第二多媒体文件名称；按照预定条件对上述第一数据集合进行数据清洗以得到第一目标数据集合，并按照上述预定条件对上述第二数据集合进行数据清洗以得到第二目标数据集合，其中，上述清洗用于过滤上述第一数据集合及上述第二数据集合中的特征数据；匹配上述第一目标数据集合及上述第二目标数据集合。

可选地，在上述按照预定条件对上述第一数据集合进行数据清洗以得到第一目标数据集合，并按照上述预定条件对上述第二数据集合进行数据清洗以得到第二目标数据集合之前，还包括：建立包括用于上述数据清洗的上述特征数据的特征数据库，其中，上述特征数据至少包括特征字符串、特征关键词。

可选地，上述建立特征数据库包括以下至少之一：检测上述第一数据集合及上述第二数据集合中是否包括上述特征字符串及上述特征关键词，并将检测到的上述特征字符串及上述特征关键词添加到上述特征数据库中；获取数据库中已保存的特征字符串集合和/或特征关键词集合，并将上述特征字符串集合和/或特征关键词集合添加到上述特征数据库中。

可选地，上述按照预定条件对上述第一数据集合进行数据清洗以得到第一目标数据集合，并按照上述预定条件对上述第二数据集合进行数据清洗以得到第二目标数据集合包括：根据上述特征数据库在上述第一数据集合中的上述第一多媒体文件名称中及上述第二数据集合中的上述第二多媒体文件名称中查找是否包括上述特征字符串和/或上述特征关键词；若查找到上述特征字符串和/或上述特征关键词，则删除上述特征字符串和/或上述特征关键词。

可选地，上述特征数据中还包括特征短语，其中，上述按照预定条件对上述第一数据集合进行数据清洗以得到第一目标数据集合，并按照上述预定条件对上述第二数据集合进行数据清洗以得到第二目标数据集合还包括：利用上述特征短语与上述第一数据集合中的上述第一多媒体文件名称进行正则匹配，将上述第一数据集合中的上述第一多媒体文件名称中的上述特征短语过滤删除以得到上述多媒体文件的目标名称，并将上述第一数据集合中的上述第一多媒体文件名称更新为上述多媒体文件的上述目标名称，以得到上述第一目标数据集合；利用上述特征短语与上述第二数据集合中的上述第二多媒体文件名称进行正则匹配，将上述第二数据集合中的上述第二多媒体文件名称中的上述特征短语过滤删除以得到上述多媒体文件的上述目标名称，并将上述第二数据集合中的上述第二多媒体文件名称更新为上述多媒体文件的上述目标名称，以得到上述第二目标数据集合。

可选地，上述匹配上述第一目标数据集合及上述第二目标数据集合包括：通过上述第一目标数据集合中的上述多媒体文件的上述目标名称查找上述第二目标数据集合中的上述多媒体文件的上述目标名称；将上述第一目标数据集合中与上述多媒体文件的上述目标名称绑定的栏目标识与上述第二数据集合中与上述多媒体文件的上述目标名称绑定的客户端标识进行匹配。

根据本发明的另一方面，提供了一种数据匹配装置，该装置包括：获取单元，用于获取第一数据集合及第二数据集合，其中，上述第一数据集合中至少包括预先设置的第一多媒体文件名称，上述第二数据集合中至少包括客户端播放的第二多媒体文件名称；清洗单元，用于按照预定条件对上述第一数据集合进行数据清洗以得到第一目标数据集合，并按照上述预定条件对上述第二数据集合进行数据清洗以得到第二目标数据集合，其中，上述清洗用于过滤上述第一数据集合及上述第二数据集合中的特征数据；第一匹配单元，用于匹配上述第一目标数据集合及上述第二目标数据集合。

可选地，上述装置还包括：建立单元，用于在上述按照预定条件对上述第一数据集合进行数据清洗以得到第一目标数据集合，并按照上述预定条件对上述第二数据集合进行数据清洗以得到第二目标数据集合之前，建立包括用于上述数据清洗的上述特征数据的特征数据库，其中，上述特征数据至少包括特征字符串、特征关键词。

可选地，上述建立单元包括以下至少之一：第一建立模块，用于检测上述第一数据集合及上述第二数据集合中是否包括上述特征字符串及上述特征关键词，并将检测到的上述特征字符串及上述特征关键词添加到上述特征数据库中；第二建立模块，用于获取数据库中已保存的特征字符串集合和/或特征关键词集合，并将上述特征字符串集合和/或特征关键词集合添加到上述特征数据库中。

可选地，上述清洗单元包括：第一查找模块，用于根据上述特征数据库在上述第一数据集合中的上述第一多媒体文件名称中及上述第二数据集合中的上述第二多媒体文件名称中查找是否包括上述特征字符串和/或上述特征关键词；删除模块，用于在查找到上述特征字符串和/或上述特征关键词时，删除上述特征字符串和/或上述特征关键词。

可选地，上述特征数据中还包括特征短语，其中，上述清洗单元还包括：第一过滤模块，用于利用上述特征短语与上述第一数据集合中的上述第一多媒体文件名称进行正则匹配，将上述第一数据集合中的上述第一多媒体文件名称中的上述特征短语过滤删除以得到上述多媒体文件的目标名称；第一更新模块，用于将上述第一数据集合中的上述第一多媒体文件名称更新为上述多媒体文件的上述目标名称，以得到上述第一目标数据集合；第二过滤模块，用于利用上述特征短语与上述第二数据集合中的上述第二多媒体文件名称进行正则匹配，将上述第二数据集合中的上述第二多媒体文件名称中的上述特征短语过滤删除以得到上述多媒体文件的上述目标名称；第二更新模块，用于将上述第二数据集合中的上述第二多媒体文件名称更新为上述多媒体文件的上述目标名称，以得到上述第二目标数据集合。

可选地，上述第一匹配单元包括：第二查找模块，用于通过上述第一目标数据集合中的上述多媒体文件的上述目标名称查找上述第二目标数据集合中的上述多媒体文件的上述目标名称；匹配模块，用于将上述第一目标数据集合中与上述多媒体文件的上述目标名称绑定的栏目标识与上述第二数据集合中与上述多媒体文件的上述目标名称绑定的客户端标识进行匹配。

通过本申请提供的实施例，通过对获取到的第一数据集合及第二数据集合中的特征数据进行数据清洗，从而使得清洗后的第一目标数据集合与第二目标数据集合中的数据实现准确匹配，克服了现有技术中由于双方提供的多媒体名称不一致造成的匹配遗漏等问题，进而避免了由于采用现有技术的数据匹配方式所导致的数据匹配准确性低的问题，达到提高数据匹配准确性的目的。进一步，由于按照预定条件对第一数据集合及第二数据集合进行了数据清洗，从而使得清洗后的多媒体文件名称更简洁，进而提高了数据匹配效率，节省了数据分析的时间。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据匹配方法的流程图；

图2是根据本发明实施例的一种可选的数据匹配装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例1

根据本发明实施例，提供了一种数据匹配方法，如图1所示，该方法包括：

S102，获取第一数据集合及第二数据集合，其中，第一数据集合中至少包括预先设置的第一多媒体文件名称，第二数据集合中至少包括客户端播放的第二多媒体文件名称；

S104，按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合，并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合，其中，清洗用于过滤第一数据集合及第二数据集合中的特征数据；

S106，匹配第一目标数据集合及第二目标数据集合。

可选地，在本实施例中，上述数据匹配方法可以但不限于应用于网络平台的各个栏目组统计客户端收看在线多媒体文件的过程中，例如，获取各个栏目组预先设置的包含多媒体文件名称的节目单，以及各个客户端上报的用户观看多媒体文件的多媒体文件播放记录，然后对上述节目单进行数据清洗，以得到原始的多媒体文件名称，并对多媒体文件播放记录进行数据清洗，以得到上述原始的多媒体文件名称，利用该原始的多媒体文件名称，将栏目组的栏目标识与客户端的客户端标识进行匹配，从而克服现有技术中由于节目单与多媒体文件播放记录中多媒体文件名称不一致所导致的匹配准确性低的问题，进而提高数据匹配的准确性，进一步提高对用户的播放行为分析的准确性，以便于为用户提供更好的资源。上述举例只是一种示例，本实施例对此不作任何限定。

需要说明的是，上述栏目组提供的节目单中预先设定了栏目组标识与第一多媒体文件名称的绑定关系，上述客户端提供的播放记录中包括了客户端标识与第二多媒体文件名称的绑定关系。例如，电视剧栏目组提供了节目单如表1所示。

表1

进一步，客户端提供的数据如表2所示。

表2

可选地，在本实施例中，上述特征数据可以包括但不限于位于预先建立的特征数据库中，其中，上述特征数据的类型可以包括但不限于以下至少之一：特征字符串、特征关键词、特征短语。其中，特征字符串可以包括但不限于标点符号，例如，顿号、逗号、句号、书名号、叹号等，又例如，全角字符、半角字符、中文字符、英文字符。上述特征关键词可以包括但不限于：用于标识播放进度的关键词，例如，播放日期、大结局等。上述特征短语可以包括但不限于，用于区分同名的多媒体文件的短语，例如，第一部、第一季等。

进一步，在本实施例中，在建立上述特征数据库时，获取特征数据的方式可以包括但不限于：从数据库中获取已保存的特征数据集合，从第一数据集合及第二数据集合中检测特殊的特征数据。

可选地，在本实施例中，上述预定条件可以包括但不限于根据特征数据库中的特征数据对第一数据集合及第二数据集合中进行数据清洗，从而得到清洗后的第一目标数据集合及第二数据目标集合，进而实现对第一数据目标集合中的栏目标识及第二数据目标集合中的客户端标识进行匹配，以得到客户端对各个多媒体文件的收视情况。

可选地，在本实施例中，上述清洗可以包括但不限于过滤删除，也就是说，将栏目组提供的节目但中第一多媒体文件名称及客户端提供的播放记录中第二多媒体文件名称中不必要的信息过滤删除，从而得到原始的多媒体文件名称，避免由于多媒体文件名称不一致导致的匹配准确性低的问题。

作为一种可选的方案，在按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合，并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合之前，还包括：

S1，建立包括用于数据清洗的特征数据的特征数据库，其中，特征数据至少包括特征字符串、特征关键词。

可选地，在本实施例中，在获取第一数据集合及第二数据集合之后，在按照预定条件对第一数据集合及第二数据集合进行数据清洗之前，建立用于上述数据清洗的特征数据库，从而通过上述特征数据库中的特征数据判断上述第一数据集合及第二数据集合是否需要进行数据清洗，若查找到上述特征数据，则对上述第一数据集合及第二数据集合中的特征数据进行数据清洗。

通过本申请提供的实施例，通过预先建立包含用于数据清洗的特征数据的特征数据库，从而实现根据特征数据库快速对第一数据集合及第二数据集合进行数据清洗，节省了数据清洗的时间，进而在提高了数据清洗的速度的同时，还提高了数据匹配的效率。

作为一种可选的方案，建立特征数据库包括以下至少之一：

S1，检测第一数据集合及第二数据集合中是否包括特征字符串及特征关键词，并将检测到的特征字符串及特征关键词添加到特征数据库中；

S2，获取数据库中已保存的特征字符串集合和/或特征关键词集合，并将特征字符串集合和/或特征关键词集合添加到特征数据库中。

可选地，在本实施例中，上述数据库中已保存的特征字符串集合和/或特征关键词集合可以包括但不限于：标点符号全集表、预先建立的关键词数据集合。也就是说，将已有的特征字符串集合和/或特征关键词集合直接添加到特征数据库中。

具体结合以下示例进行说明，以检测第一数据集合及第二数据集合中是否包括特征字符串及特征关键词为例，通过对第一数据集合及第二数据集合进行数据特征分析，将一些特殊的字符串和/或关键词作为特征字符串及特征关键词，并将其添加到特征数据库中。

通过本申请提供的实施例，通过从第一数据集合及第二数据集合中获取特征数据，或者，从数据库中获取特征数据，进而将其添加到特征数据库以建立用于数据清洗的特征数据库，使得获取的特征数据较为广泛，全面，从而保证了数据清洗的准确性，避免由于清洗遗漏导致影响数据匹配的问题。

作为一种可选的方案，按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合，并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合包括：

S1，根据特征数据库在第一数据集合中的第一多媒体文件名称中及第二数据集合中的第二多媒体文件名称中查找是否包括特征字符串和/或特征关键词；

S2，若查找到特征字符串和/或特征关键词，则删除特征字符串和/或特征关键词。

具体结合以下示例进行说明，结合表1所示，在第一数据集合中的第一多媒体文件名称中查找是否包括特征字符串，例如，查找到如表1所示的第一多媒体文件名称：《Y传，第一部》，其中，包括书名号，逗号，则将上述书名号，逗号删除。进一步，在第一数据集合中的第一多媒体文件名称中查找是否包括特征关键词，例如，查找到如表1所示的第一多媒体文件名称：《Z记第二部大结局》，其中，除了特殊字符串书名号之外，还包括特征关键词“大结局”，因而，需将上述特征关键词“大结局”删除。进一步，结合表2所示，对第二数据集合中的第二多媒体文件名称的数据清洗过程与第一数据集合的数据清洗过程类似，本实施例在此不再赘述。

通过本申请提供的实施例，通过利用特征数据中的特征字符串及特征关键词对第一数据集合及第二数据集合进行数据清洗，从而将不必要的特征数据过滤删除，以使清洗后的第一数据集合中的第一多媒体文件名称与清洗后的第二数据集合中的第二多媒体文件名称一致，便于进一步的数据匹配。

作为一种可选的方案，特征数据中还包括特征短语，其中，按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合，并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合还包括：

S1，利用特征短语与第一数据集合中的第一多媒体文件名称进行正则匹配，将第一数据集合中的第一多媒体文件名称中的特征短语过滤删除以得到多媒体文件的目标名称，并将第一数据集合中的第一多媒体文件名称更新为多媒体文件的目标名称，以得到第一目标数据集合；

S2，利用特征短语与第二数据集合中的第二多媒体文件名称进行正则匹配，将第二数据集合中的第二多媒体文件名称中的特征短语过滤删除以得到多媒体文件的目标名称，并将第二数据集合中的第二多媒体文件名称更新为多媒体文件的目标名称，以得到第二目标数据集合。

具体结合以下示例进行说明，结合表1所示，利用预先获取的特征短语与第一数据集合中的第一多媒体文件名称进行正则匹配，例如，如表1所示的第一多媒体文件名称：《X传奇第一部第一集》，其中，包括“第一部”、“第一集”的特征短语，则在正字匹配后，将会过滤删除上述“第一部”、“第一集”的特征短语，以得到第一目标数据集合。进一步，结合表2所示，对第二数据集合中的第二多媒体文件名称的正则匹配过程与第一数据集合的正则匹配过程类似，以得到第二目标数据集合，本实施例在此不再赘述。

通过本申请提供的实施例，通过利用特征数据中的特征短语对第一数据集合及第二数据集合进行正则匹配，从而实现对第一数据集合中的第一多媒体文件名称与第二数据集合中的第二多媒体文件名称进行进一步的数据清洗，以便于得到更为原始的多媒体文件名称，进而达到在数据匹配时提高匹配的准确性的目的。

作为一种可选的方案，匹配第一目标数据集合及第二目标数据集合包括：

S1，通过第一目标数据集合中的多媒体文件的目标名称查找第二目标数据集合中的多媒体文件的目标名称；

S2，将第一目标数据集合中与多媒体文件的目标名称绑定的栏目标识与第二数据集合中与多媒体文件的目标名称绑定的客户端标识进行匹配。

具体结合以下示例进行说明，在对第一数据集合(如节目单)进行数据清洗后得到第一目标数据集合，对第二数据集合(如播放记录)进行数据清洗后得到第二目标数据集合，如表3所示。

表3

由上述表3可知，由于清洗后的多媒体文件的目标名称一致，则可利用第一目标数据集合(如节目单)中的多媒体文件的目标名称查找第二目标数据集合(如播放记录)中的多媒体文件的目标名称，进而实现将第一目标数据集合中与多媒体文件的目标名称绑定的栏目标识与第二目标数据集合中与多媒体文件的目标名称绑定的客户端标识进行匹配，得到表4所示内容。

表4

栏目标识	客户端标识
		TV-1	ID-1
TV-1	ID-1
		TV-2	ID-2
TV-3	ID-3

通过本申请提供的实施例，通过利用已将特征数据清洗后的多媒体文件的目标名称，将第一目标数据集合中的栏目标识与第二目标数据集合中的客户端标识进行匹配，从而克服了现有技术中由于多媒体文件名称不一致导致的匹配结果不准确的问题，进而实现提高数据匹配的准确性的效果。

进一步，为了避免多媒体文件名称的匹配遗漏，还可以但不限于进行再次匹配，其中，再次匹配时可以但不限于更新清洗所用的特征数据，从而进一步提高数据匹配的准确性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例2

根据本发明实施例，还提供了一种用于实施上述数据匹配方法的数据匹配装置，如图2所示，该装置包括：

1)获取单元202，用于获取第一数据集合及第二数据集合，第一数据集合中至少包括预先设置的第一多媒体文件名称，第二数据集合中至少包括客户端播放的第二多媒体文件名称；

2)清洗单元204，用于按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合，并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合，其中，清洗用于过滤第一数据集合及第二数据集合中的特征数据；

3)第一匹配单元206，用于匹配第一目标数据集合及第二目标数据集合。

需要说明的是，上述栏目组提供的节目单中预先设定了栏目组标识与第一多媒体文件名称的绑定关系，上述客户端提供的播放记录中包括了客户端标识与第二多媒体文件名称的绑定关系。例如，电视剧栏目组提供了节目单如表5所示。

表5

进一步，客户端提供的数据如表6所示。

表6

作为一种可选的方案，上述装置还包括：

1)建立单元，用于在按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合，并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合之前，建立包括用于数据清洗的特征数据的特征数据库，其中，特征数据至少包括特征字符串、特征关键词。

作为一种可选的方案，建立单元包括以下至少之一：

1)第一建立模块，用于检测第一数据集合及第二数据集合中是否包括特征字符串及特征关键词，并将检测到的特征字符串及特征关键词添加到特征数据库中；

2)第二建立模块，用于获取数据库中已保存的特征字符串集合和/或特征关键词集合，并将特征字符串集合和/或特征关键词集合添加到特征数据库中。

作为一种可选的方案，清洗单元包括：

1)第一查找模块，用于根据特征数据库在第一数据集合中的第一多媒体文件名称中及第二数据集合中的第二多媒体文件名称中查找是否包括特征字符串和/或特征关键词；

2)删除模块，用于在查找到特征字符串和/或特征关键词时，删除特征字符串和/或特征关键词。

具体结合以下示例进行说明，结合表5所示，在第一数据集合中的第一多媒体文件名称中查找是否包括特征字符串，例如，查找到如表5所示的第一多媒体文件名称：《Y传，第一部》，其中，包括书名号，逗号，则将上述书名号，逗号删除。进一步，在第一数据集合中的第一多媒体文件名称中查找是否包括特征关键词，例如，查找到如表5所示的第一多媒体文件名称：《Z记第二部大结局》，其中，除了特殊字符串书名号之外，还包括特征关键词“大结局”，因而，需将上述特征关键词“大结局”删除。进一步，结合表6所示，对第二数据集合中的第二多媒体文件名称的数据清洗过程与第一数据集合的数据清洗过程类似，本实施例在此不再赘述。

作为一种可选的方案，特征数据中还包括特征短语，其中，清洗单元还包括：

1)第一过滤模块，用于利用特征短语与第一数据集合中的第一多媒体文件名称进行正则匹配，将第一数据集合中的第一多媒体文件名称中的特征短语过滤删除以得到多媒体文件的目标名称；

2)第一更新模块，用于将第一数据集合中的第一多媒体文件名称更新为多媒体文件的目标名称，以得到第一目标数据集合；

3)第二过滤模块，用于利用特征短语与第二数据集合中的第二多媒体文件名称进行正则匹配，将第二数据集合中的第二多媒体文件名称中的特征短语过滤删除以得到多媒体文件的目标名称；

4)第二更新模块，用于将第二数据集合中的第二多媒体文件名称更新为多媒体文件的目标名称，以得到第二目标数据集合。

具体结合以下示例进行说明，结合表5所示，利用预先获取的特征短语与第一数据集合中的第一多媒体文件名称进行正则匹配，例如，如表5所示的第一多媒体文件名称：《X传奇第一部第一集》，其中，包括“第一部”、“第一集”的特征短语，则在正字匹配后，将会过滤删除上述“第一部”、“第一集”的特征短语，以得到第一目标数据集合。进一步，结合表6所示，对第二数据集合中的第二多媒体文件名称的正则匹配过程与第一数据集合的正则匹配过程类似，以得到第二目标数据集合，本实施例在此不再赘述。

通过本申请提供的实施例，通过利用特征数据中的特征短语对第一数据集合及第二数据集合进行正则匹配，从而实现对第一数据集合中的第一多媒体文件名称与第二数据集合中的第二多媒体文件名称进行进一步的数据清洗，以便于得到更为原始的多媒体文件名称，进而达到在数据匹配时提高匹配的准确性的目的

作为一种可选的方案，第一匹配单元包括：

1)第二查找模块，用于通过第一目标数据集合中的多媒体文件的目标名称查找第二目标数据集合中的多媒体文件的目标名称；

2)匹配模块，用于将第一目标数据集合中与多媒体文件的目标名称绑定的栏目标识与第二数据集合中与多媒体文件的目标名称绑定的客户端标识进行匹配。

具体结合以下示例进行说明，在对第一数据集合(如节目单)进行数据清洗后得到第一目标数据集合，对第二数据集合(如播放记录)进行数据清洗后得到第二目标数据集合，如表7所示。

表7

由上述表7可知，由于清洗后的多媒体文件的目标名称一致，则可利用第一目标数据集合(如节目单)中的多媒体文件的目标名称查找第二目标数据集合(如播放记录)中的多媒体文件的目标名称，进而实现将第一目标数据集合中与多媒体文件的目标名称绑定的栏目标识与第二目标数据集合中与多媒体文件的目标名称绑定的客户端标识进行匹配，得到表8所示内容。

表8

栏目标识	客户端标识
		TV-1	ID-1
TV-1	ID-1
		TV-2	ID-2
TV-3	ID-3

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据匹配方法，其特征在于，包括：

获取第一数据集合及第二数据集合，其中，所述第一数据集合中至少包括预先设置的第一多媒体文件名称，所述第二数据集合中至少包括客户端播放的第二多媒体文件名称；

按照预定条件对所述第一数据集合进行数据清洗以得到第一目标数据集合，并按照所述预定条件对所述第二数据集合进行数据清洗以得到第二目标数据集合，其中，所述清洗用于过滤所述第一数据集合及所述第二数据集合中的特征数据；

匹配所述第一目标数据集合及所述第二目标数据集合。

2.根据权利要求1所述的方法，其特征在于，在所述按照预定条件对所述第一数据集合进行数据清洗以得到第一目标数据集合，并按照所述预定条件对所述第二数据集合进行数据清洗以得到第二目标数据集合之前，还包括：

建立包括用于所述数据清洗的所述特征数据的特征数据库，其中，所述特征数据至少包括特征字符串、特征关键词。

3.根据权利要求2所述的方法，其特征在于，所述建立特征数据库包括以下至少之一：

检测所述第一数据集合及所述第二数据集合中是否包括所述特征字符串及所述特征关键词，并将检测到的所述特征字符串及所述特征关键词添加到所述特征数据库中；

获取数据库中已保存的特征字符串集合和/或特征关键词集合，并将所述特征字符串集合和/或特征关键词集合添加到所述特征数据库中。

4.根据权利要求2所述的方法，其特征在于，所述按照预定条件对所述第一数据集合进行数据清洗以得到第一目标数据集合，并按照所述预定条件对所述第二数据集合进行数据清洗以得到第二目标数据集合包括：

根据所述特征数据库在所述第一数据集合中的所述第一多媒体文件名称中及所述第二数据集合中的所述第二多媒体文件名称中查找是否包括所述特征字符串和/或所述特征关键词；

若查找到所述特征字符串和/或所述特征关键词，则删除所述特征字符串和/或所述特征关键词。

5.根据权利要求4所述的方法，其特征在于，所述特征数据中还包括特征短语，其中，所述按照预定条件对所述第一数据集合进行数据清洗以得到第一目标数据集合，并按照所述预定条件对所述第二数据集合进行数据清洗以得到第二目标数据集合还包括：

利用所述特征短语与所述第一数据集合中的所述第一多媒体文件名称进行正则匹配，将所述第一数据集合中的所述第一多媒体文件名称中的所述特征短语过滤删除以得到所述多媒体文件的目标名称，并将所述第一数据集合中的所述第一多媒体文件名称更新为所述多媒体文件的所述目标名称，以得到所述第一目标数据集合；

利用所述特征短语与所述第二数据集合中的所述第二多媒体文件名称进行正则匹配，将所述第二数据集合中的所述第二多媒体文件名称中的所述特征短语过滤删除以得到所述多媒体文件的所述目标名称，并将所述第二数据集合中的所述第二多媒体文件名称更新为所述多媒体文件的所述目标名称，以得到所述第二目标数据集合。

6.根据权利要求5所述的方法，其特征在于，所述匹配所述第一目标数据集合及所述第二目标数据集合包括：

通过所述第一目标数据集合中的所述多媒体文件的所述目标名称查找所述第二目标数据集合中的所述多媒体文件的所述目标名称；

将所述第一目标数据集合中与所述多媒体文件的所述目标名称绑定的栏目标识与所述第二数据集合中与所述多媒体文件的所述目标名称绑定的客户端标识进行匹配。

7.一种数据匹配装置，其特征在于，包括：

获取单元，用于获取第一数据集合及第二数据集合，其中，所述第一数据集合中至少包括预先设置的第一多媒体文件名称，所述第二数据集合中至少包括客户端播放的第二多媒体文件名称；

清洗单元，用于按照预定条件对所述第一数据集合进行数据清洗以得到第一目标数据集合，并按照所述预定条件对所述第二数据集合进行数据清洗以得到第二目标数据集合，其中，所述清洗用于过滤所述第一数据集合及所述第二数据集合中的特征数据；

第一匹配单元，用于匹配所述第一目标数据集合及所述第二目标数据集合。

8.根据权利要求7所述的装置，其特征在于，还包括：

建立单元，用于在所述按照预定条件对所述第一数据集合进行数据清洗以得到第一目标数据集合，并按照所述预定条件对所述第二数据集合进行数据清洗以得到第二目标数据集合之前，建立包括用于所述数据清洗的所述特征数据的特征数据库，其中，所述特征数据至少包括特征字符串、特征关键词。

9.根据权利要求8所述的装置，其特征在于，所述建立单元包括以下至少之一：

第一建立模块，用于检测所述第一数据集合及所述第二数据集合中是否包括所述特征字符串及所述特征关键词，并将检测到的所述特征字符串及所述特征关键词添加到所述特征数据库中；

第二建立模块，用于获取数据库中已保存的特征字符串集合和/或特征关键词集合，并将所述特征字符串集合和/或特征关键词集合添加到所述特征数据库中。

10.根据权利要求8所述的装置，其特征在于，所述清洗单元包括：

第一查找模块，用于根据所述特征数据库在所述第一数据集合中的所述第一多媒体文件名称中及所述第二数据集合中的所述第二多媒体文件名称中查找是否包括所述特征字符串和/或所述特征关键词；

删除模块，用于在查找到所述特征字符串和/或所述特征关键词时，删除所述特征字符串和/或所述特征关键词。

11.根据权利要求10所述的装置，其特征在于，所述特征数据中还包括特征短语，其中，所述清洗单元还包括：

第一过滤模块，用于利用所述特征短语与所述第一数据集合中的所述第一多媒体文件名称进行正则匹配，将所述第一数据集合中的所述第一多媒体文件名称中的所述特征短语过滤删除以得到所述多媒体文件的目标名称；

第一更新模块，用于将所述第一数据集合中的所述第一多媒体文件名称更新为所述多媒体文件的所述目标名称，以得到所述第一目标数据集合；

第二过滤模块，用于利用所述特征短语与所述第二数据集合中的所述第二多媒体文件名称进行正则匹配，将所述第二数据集合中的所述第二多媒体文件名称中的所述特征短语过滤删除以得到所述多媒体文件的所述目标名称；

第二更新模块，用于将所述第二数据集合中的所述第二多媒体文件名称更新为所述多媒体文件的所述目标名称，以得到所述第二目标数据集合。

12.根据权利要求11所述的装置，其特征在于，所述第一匹配单元包括：

第二查找模块，用于通过所述第一目标数据集合中的所述多媒体文件的所述目标名称查找所述第二目标数据集合中的所述多媒体文件的所述目标名称；

匹配模块，用于将所述第一目标数据集合中与所述多媒体文件的所述目标名称绑定的栏目标识与所述第二数据集合中与所述多媒体文件的所述目标名称绑定的客户端标识进行匹配。