CN103984700A

CN103984700A - 一种用于科技信息垂直搜索的异构数据分析方法

Info

Publication number: CN103984700A
Application number: CN201410150100.2A
Authority: CN
Inventors: 曾尔曼; 洪文兴; 朱顺痣; 林清怀
Original assignee: AMOY INSTITUTE OF TECHNOVATION
Current assignee: AMOY INSTITUTE OF TECHNOVATION
Priority date: 2014-04-15
Filing date: 2014-04-15
Publication date: 2014-08-13
Anticipated expiration: 2034-04-15
Also published as: CN103984700B

Abstract

本发明公开了一种用于科技信息垂直搜索的异构数据分析方法，包括以下步骤：预先建立聚类特征集N；获得原始数据集A，对原始数据集A进行中文分词并提取关键词，得到关键词数据集B；以关键词作为基础特征，采用k-means算法进行聚类，得到聚类集C；根据聚类集C与聚类特征集N的主题相关性，对原始数据集A进行数据源归类；根据聚类特征集N与关键词数据集B的相关性，提取相应的结构化数据集Q；对结构化数据集Q进行分析、优化，得到结构化数据Q2；根据关键词数据集B与结构化数据集Q2的比对结果，进行关键词权重标记，获得权重集W。本发明提高了垂直搜索的准确度，使得用户更容易获取符合实际需求的信息。

Description

一种用于科技信息垂直搜索的异构数据分析方法

技术领域

本发明涉及信息检索技术领域，具体的说是一种用于科技信息垂直搜索的异构数据分析方法。

背景技术

垂直搜索引擎是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

对于现有的垂直搜索引擎而言，其呈现给用户的搜索结果，一般是按文档与查询关键词的相关程度、时间、引用次数等单一条件进行排序，而没有充分考虑到文档自身的内容，搜索结果准确的不高，用户需要在搜索结果中进一步查找和选取与自己要搜索的内容实际相关或有用的文档，有时用户需要重复进行多次检索，才能获得期望看到的信息。

另外，随着互联网的迅猛发展，互联网上的信息越来越多，返回给用户的搜索结果通常是成百上千个文档，文档质量、真实性参差不齐的文档罗列在一起，很容易掩盖对用户有用的文档。

发明内容

本发明的目的在于提供一种用于科技信息垂直搜索的异构数据分析方法，其提高了垂直搜索的准确度，使得用户更容易获取符合实际需求的信息。

为实现上述目的，本发明采用以下技术方案：

一种用于科技信息垂直搜索的异构数据分析方法，包括以下步骤：

S1、预先建立聚类特征集N，所述聚类特征集N包括一组命名实体以及与每个命名实体对应的特征信息知识库；

S2、获得原始数据集A，对原始数据集A进行中文分词并提取关键词，得到关键词数据集B；

S3、以关键词作为基础特征，采用k-means算法进行聚类，得到聚类集C；

S4、根据聚类集C与聚类特征集N的主题相关性，对原始数据集A进行数据源归类；

S5、根据聚类特征集N与关键词数据集B的相关性，提取相应的结构化数据集Q；

S6、对结构化数据集Q进行分析、优化，得到结构化数据Q2；

S7、根据关键词数据集B与结构化数据集Q2的比对结果，进行关键词权重标记，获得权重集W，权重集W用于垂直搜索结果的排序。

进一步地，所述步骤S4具体通过以下方法实现：对于聚类集C中的单个聚类，在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果，以该匹配结果对应的命名实体作为归类类型，将原始数据集A中与该个聚类对应的数据划分到该归类类型下，遍历聚类集C中的所有聚类，从而实现对原始数据集A的所有数据进行归类。

进一步地，所述步骤S5具体通过以下方法实现：对于关键词数据集B中的单个关键词，在特征信息知识库搜索与该关键词对应的匹配结果，将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表，将该关键词作为属性值添加到结构化数据表，遍历关键词数据集B中的所有关键词，得到结构化数据集Q。

进一步地，所述步骤S6包括以下分步骤：

S61、预先设定相似度阈值；

S62、采用相似度算法分析结构化数据集Q，计算数据相似度值；

S63、对结构化数据集Q进行数据筛选，剔除相似度值小于相似度阈值的数据，得到结构化数据集Q1；

S64、对结构化数据集Q1中的相似数据合并去重，得到结构化数据集Q2。

优选地，所述相似度算法为欧式距离相似度算法或余弦相似度算法。

优选地，所述命名实体具体为人名、地域、工作单位、职称、研究方向等。

优选地，步骤S2中所述中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：本发明通过引入聚类特征的参数，将原始数据集A的异构数据进行结构化处理，实现了对原始数据源A的数据归类和权重标记，从而提高了垂直搜索的准确度，使得用户更容易获取符合实际需求的信息。

附图说明

图1为本发明的工作流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

请参阅图1，本发明公开了一种用于科技信息垂直搜索的异构数据分析方法，包括以下步骤：

S1、预先建立聚类特征集N，所述聚类特征集N包括一组命名实体以及与每个命名实体对应的特征信息知识库，该组命名实体具体包括人名、地域、工作单位、职称和研究方向，特征信息知识库收录了与命名实体对应的信息。为了便于理解，举例加以说明，以其中的一个命名实体“工作单位”为例，特征信息知识库收录了“厦门大学、中国科学院、......”等信息；以另外一个命名实体“职称”为例，特征信息知识库收录了“高级工程师、教授、副教授、......”等信息。

S2、获得原始数据集A，对原始数据集A进行中文分词并提取关键词，得到关键词数据集B。需要说明的是，这里提到的“原始数据集A”指的是垂直搜索引擎***的网页库中的数据，其存在形式为汉字序列。举例加以说明，原始数据集A中的一条数据为“张三现为厦门大学信息科学与技术学院副教授，主要研究兴趣是数据挖掘、互联网运用与移动商务”，中文分词后得到的关键词数据集B中则包含了“张三/厦门大学/信息科学与技术学院/副教授/数据挖掘/互联网运用/移动商务”的分词结果。

在本实施中，中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。本发明也可采用其他方式进行中文分词，只要能够实现将汉字序列切分成符合要求的单独的词即可，在此不做具体限定。

S3、以关键词作为基础特征，采用k-means算法进行聚类，得到聚类集C。由于原始数据集A通常包含了众多数据信息，得到的关键词数据集B也就包含了相应数量的分词结果，如果其中的多个分词结果包含有相同的关键词，则将其作为一个聚类，如有50个分词结果均包含了关键词“厦门大学”，则将其作为一个聚类。采用k-means算法对关键词数据集B进行聚类，就得到了聚类集C。

S4、根据聚类集C与聚类特征集N的主题相关性，对原始数据集A进行数据源归类。该步骤的具体实现过程如下：

对于聚类集C中的单个聚类，在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果，以该匹配结果对应的命名实体作为归类类型，将原始数据集A中与该个聚类对应的数据划分到该归类类型下，遍历聚类集C中的所有聚类，从而实现对原始数据集A的所有数据进行归类。

举例说明，聚类集C中的某个聚类是以“厦门大学”作为基础特征的，则“厦门大学”就是该个聚类的特征关键词，在特征信息知识库搜索与“厦门大学”匹配的词，“厦门大学”在特征信息知识库中对应的命名实体是“工作单位”，以“工作单位”作为归类类型，将将原始数据集A中与该个聚类对应的数据划分到“工作单位”的类型下，对聚类集C中的每个聚类重复上述过程，就可以完成原始数据集A的所有数据归类。

S5、根据聚类特征集N与关键词数据集B的相关性，提取相应的结构化数据集Q。该步骤的具体实现过程如下：

对于关键词数据集B中的单个关键词，在特征信息知识库搜索与该关键词对应的匹配结果，将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表，将该关键词作为属性值添加到结构化数据表，遍历关键词数据集B中的所有关键词，得到结构化数据集Q。

举例说明，键词数据集B中的某个关键词为“副教授”，在特征信息知识库搜索与“副教授”匹配的词，“副教授”在特征信息知识库中对应的命名实体是“职称”，则将“职称”作为属性索引项添加到结构化数据表，将“副教授”作为属性值添加到结构化数据表，对键词数据集B中的每个关键词重复上述过程，就得到了结构化数据集Q。

S6、对结构化数据集Q进行分析、优化，得到结构化数据Q2。该步骤具体通过以下分步骤实现：

S61、预先设定相似度阈值，对于单个数据而言，若其相似度值大于相似度阈值，则为相似数据，若其相似度值小于于相似度阈值，则为离散数据。

S62、采用相似度算法分析结构化数据集Q，计算数据相似度值。相似度算法可以采用欧式距离、余弦等可用于计算数据相似度值的算法，在本实施例中采用余弦相似度算法来计算数据相似度值。

S63、对结构化数据集Q进行数据筛选，剔除相似度值小于相似度阈值的数据，即剔除离散数据，得到结构化数据集Q1。

通过对结构化数据集Q进行离散数据剔除及相似数据合并去重的处理，这样得到的结构化数据集Q2的准确性和真实性大大提高，可在后续步骤中作为基准去衡量原始数据的质量。

S7、根据关键词数据集B与结构化数据集Q2的比对结果，进行关键词权重标记，获得权重集W，权重集W用于垂直搜索结果的排序，这样可以将权重值较高的搜索结果优先展示给用户。

通过以上描述可以看出，本发明预先引入聚类特征集N，然后对原始数据集A进行中文分词，得到关键词数据集B，通过对关键词数据集B进行聚类得到聚类集C，进行实现了对原始数据集A的归类和关键词数据集B的权重标记，从而提高了垂直搜索的准确度，使得用户更容易获取符合实际需求的信息。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种用于科技信息垂直搜索的异构数据分析方法，其特征在于，包括以下步骤：

S6、对结构化数据集Q进行分析、优化，得到结构化数据Q2；

2.如权利要求1所述的一种用于科技信息垂直搜索的异构数据分析方法，其特征在于，所述步骤S4具体通过以下方法实现：对于聚类集C中的单个聚类，在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果，以该匹配结果对应的命名实体作为归类类型，将原始数据集A中与该个聚类对应的数据划分到该归类类型下，遍历聚类集C中的所有聚类，从而实现对原始数据集A的所有数据进行归类。

3.如权利要求2所述的一种用于科技信息垂直搜索的异构数据分析方法，其特征在于，所述步骤S5具体通过以下方法实现：对于关键词数据集B中的单个关键词，在特征信息知识库搜索与该关键词对应的匹配结果，将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表，将该关键词作为属性值添加到结构化数据表，遍历关键词数据集B中的所有关键词，得到结构化数据集Q。

4.如权利要求1-3任一项所述的一种用于科技信息垂直搜索的异构数据分析方法，其特征在于，所述步骤S6包括以下分步骤：

S61、预先设定相似度阈值；

5.如权利要求4所述的一种用于科技信息垂直搜索的异构数据分析方法，其特征在于：所述相似度算法为欧式距离相似度算法或余弦相似度算法。

6.如权利要求5所述的一种用于科技信息垂直搜索的异构数据分析方法，其特征在于：所述命名实体具体为人名、地域、工作单位、职称、研究方向等。

7.如权利要求5所述的一种用于科技信息垂直搜索的异构数据分析方法，其特征在于：步骤S2中所述中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。