CN103984700A - 一种用于科技信息垂直搜索的异构数据分析方法 - Google Patents
一种用于科技信息垂直搜索的异构数据分析方法 Download PDFInfo
- Publication number
- CN103984700A CN103984700A CN201410150100.2A CN201410150100A CN103984700A CN 103984700 A CN103984700 A CN 103984700A CN 201410150100 A CN201410150100 A CN 201410150100A CN 103984700 A CN103984700 A CN 103984700A
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- cluster
- collection
- data collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:预先建立聚类特征集N;获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C;根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;对结构化数据集Q进行分析、优化,得到结构化数据Q2;根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W。本发明提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
Description
技术领域
本发明涉及信息检索技术领域,具体的说是一种用于科技信息垂直搜索的异构数据分析方法。
背景技术
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
对于现有的垂直搜索引擎而言,其呈现给用户的搜索结果,一般是按文档与查询关键词的相关程度、时间、引用次数等单一条件进行排序,而没有充分考虑到文档自身的内容,搜索结果准确的不高,用户需要在搜索结果中进一步查找和选取与自己要搜索的内容实际相关或有用的文档,有时用户需要重复进行多次检索,才能获得期望看到的信息。
另外,随着互联网的迅猛发展,互联网上的信息越来越多,返回给用户的搜索结果通常是成百上千个文档,文档质量、真实性参差不齐的文档罗列在一起,很容易掩盖对用户有用的文档。
发明内容
本发明的目的在于提供一种用于科技信息垂直搜索的异构数据分析方法,其提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
为实现上述目的,本发明采用以下技术方案:
一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:
S1、预先建立聚类特征集N,所述聚类特征集N包括一组命名实体以及与每个命名实体对应的特征信息知识库;
S2、获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;
S3、以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C;
S4、根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;
S5、根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;
S6、对结构化数据集Q进行分析、优化,得到结构化数据Q2;
S7、根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W,权重集W用于垂直搜索结果的排序。
进一步地,所述步骤S4具体通过以下方法实现:对于聚类集C中的单个聚类,在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果,以该匹配结果对应的命名实体作为归类类型,将原始数据集A中与该个聚类对应的数据划分到该归类类型下,遍历聚类集C中的所有聚类,从而实现对原始数据集A的所有数据进行归类。
进一步地,所述步骤S5具体通过以下方法实现:对于关键词数据集B中的单个关键词,在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集B中的所有关键词,得到结构化数据集Q。
进一步地,所述步骤S6包括以下分步骤:
S61、预先设定相似度阈值;
S62、采用相似度算法分析结构化数据集Q,计算数据相似度值;
S63、对结构化数据集Q进行数据筛选,剔除相似度值小于相似度阈值的数据,得到结构化数据集Q1;
S64、对结构化数据集Q1中的相似数据合并去重,得到结构化数据集Q2。
优选地,所述相似度算法为欧式距离相似度算法或余弦相似度算法。
优选地,所述命名实体具体为人名、地域、工作单位、职称、研究方向等。
优选地,步骤S2中所述中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:本发明通过引入聚类特征的参数,将原始数据集A的异构数据进行结构化处理,实现了对原始数据源A的数据归类和权重标记,从而提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
附图说明
图1为本发明的工作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1,本发明公开了一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:
S1、预先建立聚类特征集N,所述聚类特征集N包括一组命名实体以及与每个命名实体对应的特征信息知识库,该组命名实体具体包括人名、地域、工作单位、职称和研究方向,特征信息知识库收录了与命名实体对应的信息。为了便于理解,举例加以说明,以其中的一个命名实体“工作单位”为例,特征信息知识库收录了“厦门大学、中国科学院、......”等信息;以另外一个命名实体“职称”为例,特征信息知识库收录了“高级工程师、教授、副教授、......”等信息。
S2、获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B。需要说明的是,这里提到的“原始数据集A”指的是垂直搜索引擎***的网页库中的数据,其存在形式为汉字序列。举例加以说明,原始数据集A中的一条数据为“张三现为厦门大学信息科学与技术学院副教授,主要研究兴趣是数据挖掘、互联网运用与移动商务”,中文分词后得到的关键词数据集B中则包含了“张三/厦门大学/信息科学与技术学院/副教授/数据挖掘/互联网运用/移动商务”的分词结果。
在本实施中,中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。本发明也可采用其他方式进行中文分词,只要能够实现将汉字序列切分成符合要求的单独的词即可,在此不做具体限定。
S3、以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C。由于原始数据集A通常包含了众多数据信息,得到的关键词数据集B也就包含了相应数量的分词结果,如果其中的多个分词结果包含有相同的关键词,则将其作为一个聚类,如有50个分词结果均包含了关键词“厦门大学”,则将其作为一个聚类。采用k-means算法对关键词数据集B进行聚类,就得到了聚类集C。
S4、根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类。该步骤的具体实现过程如下:
对于聚类集C中的单个聚类,在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果,以该匹配结果对应的命名实体作为归类类型,将原始数据集A中与该个聚类对应的数据划分到该归类类型下,遍历聚类集C中的所有聚类,从而实现对原始数据集A的所有数据进行归类。
举例说明,聚类集C中的某个聚类是以“厦门大学”作为基础特征的,则“厦门大学”就是该个聚类的特征关键词,在特征信息知识库搜索与“厦门大学”匹配的词,“厦门大学”在特征信息知识库中对应的命名实体是“工作单位”,以“工作单位”作为归类类型,将将原始数据集A中与该个聚类对应的数据划分到“工作单位”的类型下,对聚类集C中的每个聚类重复上述过程,就可以完成原始数据集A的所有数据归类。
S5、根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q。该步骤的具体实现过程如下:
对于关键词数据集B中的单个关键词,在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集B中的所有关键词,得到结构化数据集Q。
举例说明,键词数据集B中的某个关键词为“副教授”,在特征信息知识库搜索与“副教授”匹配的词,“副教授”在特征信息知识库中对应的命名实体是“职称”,则将“职称”作为属性索引项添加到结构化数据表,将“副教授”作为属性值添加到结构化数据表,对键词数据集B中的每个关键词重复上述过程,就得到了结构化数据集Q。
S6、对结构化数据集Q进行分析、优化,得到结构化数据Q2。该步骤具体通过以下分步骤实现:
S61、预先设定相似度阈值,对于单个数据而言,若其相似度值大于相似度阈值,则为相似数据,若其相似度值小于于相似度阈值,则为离散数据。
S62、采用相似度算法分析结构化数据集Q,计算数据相似度值。相似度算法可以采用欧式距离、余弦等可用于计算数据相似度值的算法,在本实施例中采用余弦相似度算法来计算数据相似度值。
S63、对结构化数据集Q进行数据筛选,剔除相似度值小于相似度阈值的数据,即剔除离散数据,得到结构化数据集Q1。
S64、对结构化数据集Q1中的相似数据合并去重,得到结构化数据集Q2。
通过对结构化数据集Q进行离散数据剔除及相似数据合并去重的处理,这样得到的结构化数据集Q2的准确性和真实性大大提高,可在后续步骤中作为基准去衡量原始数据的质量。
S7、根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W,权重集W用于垂直搜索结果的排序,这样可以将权重值较高的搜索结果优先展示给用户。
通过以上描述可以看出,本发明预先引入聚类特征集N,然后对原始数据集A进行中文分词,得到关键词数据集B,通过对关键词数据集B进行聚类得到聚类集C,进行实现了对原始数据集A的归类和关键词数据集B的权重标记,从而提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种用于科技信息垂直搜索的异构数据分析方法,其特征在于,包括以下步骤:
S1、预先建立聚类特征集N,所述聚类特征集N包括一组命名实体以及与每个命名实体对应的特征信息知识库;
S2、获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;
S3、以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C;
S4、根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;
S5、根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;
S6、对结构化数据集Q进行分析、优化,得到结构化数据Q2;
S7、根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W,权重集W用于垂直搜索结果的排序。
2.如权利要求1所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于,所述步骤S4具体通过以下方法实现:对于聚类集C中的单个聚类,在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果,以该匹配结果对应的命名实体作为归类类型,将原始数据集A中与该个聚类对应的数据划分到该归类类型下,遍历聚类集C中的所有聚类,从而实现对原始数据集A的所有数据进行归类。
3.如权利要求2所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于,所述步骤S5具体通过以下方法实现:对于关键词数据集B中的单个关键词,在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集B中的所有关键词,得到结构化数据集Q。
4.如权利要求1-3任一项所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于,所述步骤S6包括以下分步骤:
S61、预先设定相似度阈值;
S62、采用相似度算法分析结构化数据集Q,计算数据相似度值;
S63、对结构化数据集Q进行数据筛选,剔除相似度值小于相似度阈值的数据,得到结构化数据集Q1;
S64、对结构化数据集Q1中的相似数据合并去重,得到结构化数据集Q2。
5.如权利要求4所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于:所述相似度算法为欧式距离相似度算法或余弦相似度算法。
6.如权利要求5所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于:所述命名实体具体为人名、地域、工作单位、职称、研究方向等。
7.如权利要求5所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于:步骤S2中所述中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410150100.2A CN103984700B (zh) | 2014-04-15 | 2014-04-15 | 一种用于科技信息垂直搜索的异构数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410150100.2A CN103984700B (zh) | 2014-04-15 | 2014-04-15 | 一种用于科技信息垂直搜索的异构数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103984700A true CN103984700A (zh) | 2014-08-13 |
CN103984700B CN103984700B (zh) | 2017-09-26 |
Family
ID=51276673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410150100.2A Active CN103984700B (zh) | 2014-04-15 | 2014-04-15 | 一种用于科技信息垂直搜索的异构数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103984700B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636454A (zh) * | 2015-02-02 | 2015-05-20 | 哈尔滨工程大学 | 一种面向大规模异构数据的联合聚类方法 |
CN106844640A (zh) * | 2017-01-22 | 2017-06-13 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN110347820A (zh) * | 2019-05-22 | 2019-10-18 | 贵州电网有限责任公司 | 一种电网文本信息匹配的方法、***和存储介质 |
CN111460046A (zh) * | 2020-03-06 | 2020-07-28 | 合肥海策科技信息服务有限公司 | 一种基于大数据的科技信息聚类方法 |
CN113742450A (zh) * | 2021-08-30 | 2021-12-03 | 中信百信银行股份有限公司 | 用户数据等级落标的方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609450A (zh) * | 2009-04-10 | 2009-12-23 | 南京邮电大学 | 基于训练集的网页分类方法 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类*** |
-
2014
- 2014-04-15 CN CN201410150100.2A patent/CN103984700B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609450A (zh) * | 2009-04-10 | 2009-12-23 | 南京邮电大学 | 基于训练集的网页分类方法 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类*** |
Non-Patent Citations (2)
Title |
---|
吴柏林 等: "一种基于本体的垂直搜索引擎***模型", 《计算机工程与科学》 * |
苗海 等: "基于聚类算法的垂直搜索引擎技术研究", 《北京信息科技大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636454A (zh) * | 2015-02-02 | 2015-05-20 | 哈尔滨工程大学 | 一种面向大规模异构数据的联合聚类方法 |
CN104636454B (zh) * | 2015-02-02 | 2018-04-17 | 哈尔滨工程大学 | 一种面向大规模异构数据的联合聚类方法 |
CN106844640A (zh) * | 2017-01-22 | 2017-06-13 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN106844640B (zh) * | 2017-01-22 | 2020-02-21 | 漳州科技职业学院 | 一种网页数据分析处理方法 |
CN110347820A (zh) * | 2019-05-22 | 2019-10-18 | 贵州电网有限责任公司 | 一种电网文本信息匹配的方法、***和存储介质 |
CN111460046A (zh) * | 2020-03-06 | 2020-07-28 | 合肥海策科技信息服务有限公司 | 一种基于大数据的科技信息聚类方法 |
CN113742450A (zh) * | 2021-08-30 | 2021-12-03 | 中信百信银行股份有限公司 | 用户数据等级落标的方法、装置、电子设备和存储介质 |
CN113742450B (zh) * | 2021-08-30 | 2023-05-30 | 中信百信银行股份有限公司 | 用户数据等级落标的方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103984700B (zh) | 2017-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729336B (zh) | 数据处理方法、设备及*** | |
CN101694670B (zh) | 一种基于公共子串的中文Web文档在线聚类方法 | |
KR101354755B1 (ko) | 검색에 의한 주석달기를 위한 컴퓨터 판독가능 저장 매체, 컴퓨터 구현 방법, 및 컴퓨팅 장치 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN109359172B (zh) | 一种基于图划分的实体对齐优化方法 | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析***和方法 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
CN103984700A (zh) | 一种用于科技信息垂直搜索的异构数据分析方法 | |
CN108304502B (zh) | 基于海量新闻数据的快速热点检测方法及*** | |
CN105512143A (zh) | 一种网页分类方法及装置 | |
CN101799830A (zh) | 可实现多维度自由剖析的流量数据处理方法 | |
CN102542061A (zh) | 一种产品的智能分类方法 | |
CN103838754A (zh) | 信息搜索装置及方法 | |
Hayes | Using tags and clustering to identify topic-relevant blogs | |
KR20150018880A (ko) | 정보 취합 분류의 디스플레이 방법 및 시스템 | |
CN106570166B (zh) | 一种基于多个局部敏感哈希表的视频检索方法及装置 | |
CN106294358A (zh) | 一种信息的检索方法及*** | |
CN104216979A (zh) | 中文工艺专利自动分类***及利用该***进行专利分类的方法 | |
CN104317946A (zh) | 一种基于多张关键图的图像内容检索方法 | |
CN103226601B (zh) | 一种图片搜索的方法和装置 | |
Zhang et al. | A hot spot clustering method based on improved kmeans algorithm | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
CN104281710A (zh) | 一种网络数据挖掘方法 | |
Tian | A mathematical indexing method based on the hierarchical features of operators in formulae | |
CN112784040B (zh) | 基于语料库的垂直行业文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |