CN103218432A - 一种基于命名实体识别的新闻搜索结果相似度计算方法 - Google Patents
一种基于命名实体识别的新闻搜索结果相似度计算方法 Download PDFInfo
- Publication number
- CN103218432A CN103218432A CN201310129580XA CN201310129580A CN103218432A CN 103218432 A CN103218432 A CN 103218432A CN 201310129580X A CN201310129580X A CN 201310129580XA CN 201310129580 A CN201310129580 A CN 201310129580A CN 103218432 A CN103218432 A CN 103218432A
- Authority
- CN
- China
- Prior art keywords
- similarity
- keyword
- named entity
- entity recognition
- news search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于命名实体识别的新闻搜索结果相似度计算方法,该发明采用命名实体识别技术对新闻搜索结果建立多个关键词子集,对应每个子集建立一个词项矩阵,并在各个词项矩阵中分别计算相似度,最后将多个相似度加权得到最终相似度。本发明突出了新闻的特征要素,能够有效降低词项矩阵的维数,减少相似度计算时不同类别词项之间的相互影响。本发明具有基于命名实体识别提取关键词、基于关键词子集建立多个词项矩阵、基于多个词项矩阵计算加权相似度三个特点。
Description
技术领域
本发明涉及一种基于命名实体识别的新闻搜索结果相似度计算方法,主要应用于搜索引擎的聚类及文本分类应用,属于计算机科学技术领域。
背景技术
目前搜索引擎是用户在互联网上获取信息的主要途径,给人们带来了极大的便利。但是,随着互联网上信息量的增加,搜索引擎返回的检索结果日益繁杂,人们需要在大量的检索结果中筛选才能获取真正想要的信息。因此,一些研究人员采用信息检索中的聚类技术对搜索结果进行聚类,将其按类目呈现给用户,提高了搜索结果的可浏览性。
搜索结果聚类技术的原则是最小化类内相似度,最大化类间相似度。因此,搜索结果的相似度是搜索结果聚类技术的基础。传统的搜索结果相似度度量方法是基于向量空间模型(Vector Space Model)的,即将搜索结果表示成一组关键词的集合,分析每个词在各个搜索结果出现的次数以及整个搜索结果集合中出现的次数,进而利用这些词频信息将搜索结果建模成一个词项矩阵,并利用向量之间的几何距离(如余弦距离,Jaccard距离)计算搜索结果的相似度。
上述方法构建的词项矩阵中存在高维稀疏问题,并且在计算相似度的时候词与词之间会互相影响导致区分度下降。针对以上问题,本发明提出了一种基于命名实体识别的新闻搜索结果相似度计算方法,该发明通过命名实体识别技术对新闻搜索结果的关键词类别进行区分,对新闻相关性强的多个类别的关键词建立词项矩阵,并在多个词项矩阵中分别计算相似度,以达到数据降维和提高区分度的效果。
发明内容
本发明“一种基于命名实体识别的新闻搜索结果相似度计算方法”的目的在于提出一种适用于新闻搜索结果的创新型相似度计算方法。技术方案如下:
本发明由关键词提取模块、向量空间模型建模模块以及相似度加权计算模块三个部分组成。参照图1:
(1)关键词提取模块
关键词提取模块包括命名实体识别和中文分词两个组成部分。命名实体识别针对新闻搜索结果具有时间、地点、人物等特征,提取词语,并依据时间、地点、人物等新闻相关词语,进行分类,形成时间类、地点类、人物类等词语子集(这里把这些词语子集称为关键词子集)。文档的多个关键词子集组成一个集合,该集合称为关键词集合。除这些命名实体词能够表示新闻的主题外,剩余的非命名实体类名词和动词也能较好的表征新闻的主题。因此,关键词提取模块经过命名实体别后又利用分词技术筛选出剩余的非命名实体类名词和动词,作为一个关键词子集(其它类词语)添加在关键词集合的末尾,构成最终的关键词集合。关键词提取模块旨在对新闻搜索结果进行关键词提取。
(2)向量空间模型建模模块
向量空间模型建模模块主要包括关键词子集合并、权重计算和词项矩阵构建三个组成部分。关键词子集合并是对多个文档在关键词提取模块中形成的关键词子集按时间类、地点类、人物类、其它类等进行分别合并,形成按时间类、地点类、人物类等分类的新的关键词集合;权重计算是针对关键词集合中的每个词语按词频的数值计算对应的权重;词项矩阵构建是针对按时间类、地点类、人物类、其它等形成的多个关键词子集,分别建立多个与关键词子集对应的以词语权重为值的词项矩阵。向量空间模型建模模块旨在基于向量空间模型对新闻搜索结果进行数学建模。
(3)相似度加权计算模块
相似度加权计算模块主要包括子集相似度计算和相似度加权两个组成部分。子集相似度计算是针对多个文档按时间类、地点类、人物类、其它类等分类形成的词项矩阵,计算这些分类中每个类的相似度(这里称为子集相似度);相似度加权是针对子集相似度,按文档包含的多个分类相似度进行加权,以获得文档的综合相似度。相似度加权计算模块旨在获得新闻搜索文档之间的综合相似度。
(4)本发明的执行步骤
参照图2,本发明的具体实现步骤如下:
步骤1:对输入的多个新闻搜索文档,关键词提取模块对每个文档的词语进行命名实体识别,即针对新闻文档中的时间、地点、人物等特征,提取词语,并依据时间、地点、人物等新闻相关词语,进行分类,形成时间类、地点类、人物类等关键词子集。
步骤2:关键词提取模块通过中文分词技术提取各条新闻搜索文档中非命名实体词(名词和动词),作为一个关键词子集(其它类)添加在步骤1中的关键词集中。
步骤3:向量空间模型建模模块将新闻搜索多个文档中各条搜索结果的关键词集合按照地点、时间、事件、其它等类别进行关键词子集分别合并,得到新的关键词集合。这个关键词集合仍然包括多个关键词子集。
步骤4:向量空间模型建模模块对步骤3中关键词集合,分别计算每个文档中各个关键词的词频作为关键词的权重。
步骤5:向量空间模型建模模块对关键词集合中的各个关键子集分别建立词项矩阵,
步骤6:相似度加权计算模块在步骤5得到的各个词项矩阵中分别计算关键词子集相似度,即计算任两条新闻搜索结果所对应的行向量之间的相似度距离。计算如下:
通过步骤5后,一个新闻搜索结果集合S对应多个词项矩阵。假设有m条新闻搜索结果S1、S2、……、Sm,n个词项矩阵M1、M2、……、Mn。S中任意两条新闻搜索结果Si、Sj在n个词项矩阵中各对应两个行向量,计算这两个行向量之间的相似度距离作为子集相似度(Si、Sj的余弦距离)。
步骤7:相似度加权计算模块将步骤6中的各个子集相似度加权,得到任意两条新闻搜索结果的综合相似度。计算如下:
相似度加权计算模块将多个子集相似度加权得到两条新闻搜索结果Si、Sj的综合相似度Sim(Si,Sj):
Sim(Si,Sj)=a1×dist(M1(i),M1(j))+a2×dist(M2(i),M2(j))+……+an×dist(Mn(i),Mn(j))
上式中,Mk(i)表示词项矩阵Mk的第i个行向量,加权参数ak由词项矩阵Mk中的关键词数目Lk(即Mk的列数)除以总的关键词数目(即n个词项矩阵的列数之和)获得。dist(Mk(i),Mk(j))表示两个行向量的相似度距离,即子集相似度。
附图说明
图1基于命名实体识别的新闻搜索结果相似度计算方法模块示意图
图2基于命名实体识别的新闻搜索结果相似度计算方法步骤示意图
具体实施方式
下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例也仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了说明基于命名实体识别的新闻搜索结果相似度计算方法,这里给出一个包含两条新闻搜索结果的实施实例。第一条新闻搜索结果是“2013年3月10日,日本神户,日本将迎来福岛核事故两周年,神户市民举行反核大游行”,用S1表示。第二条新闻搜索结果是“2013年3月10日,日本东京,在日本311大地震两周年前夕,日本民众参加反核集会”,用S2表示。
结合图2,基于命名实体识别的新闻搜索结果相似度计算方法的具体处理过程如下:
(1).关键词提取阶段
首先,关键词提取模块对S1、S2进行分词并进行命名实体识别,标注出命名实体词。关键词提取模块把S1标注为:“2013年\时间3月10日\时间,日本\地名神户\地名,日本\地名将迎来福岛\地名核事故两周年\时间,神户\地名市民举行反核大游行”。关键词提取模块把S2标注为:“2013年\时间3月10日\时间,日本\地名东京\地名,在日本\地名311大地震两周年\时间前夕,日本\地名民众参加反核集会”。
其次,关键词提取模块将S1、S2表示成关键词集合的形式,时间类命名实体词作为第一个关键词子集,地点类命名实体词作为第二个关键词子集。
S1={{2013年,3月10日,两周年},{日本,神户,福岛}}
S2={{2013年,3月10日,两周年},{日本,东京}}
最后,关键词提取模块用分词技术筛选出S1、S2中除命名实体词外的名词和动词,作为一个关键词子集并入S1、S2集合中。
S1={{2013年,3月10日,两周年},{日本,神户,福岛},{核事故,市民,举行,反核,游行}}
S2={{2013年,3月10日,两周年},{日本,东京},{地震,民众,参加,反核,集会}}
(2).向量空间模型建模阶段
首先,向量空间模型建模模块合并S1、S2的关键词子集,形成新的关键词集合,表示为T。
T={{2013年,3月10日,两周年},{日本,神户,福岛,东京},{核事故,市民,举行,反核,游行,地震,民众,参加,集会}}
其次,向量空间模型建模模块对T中的三个关键词子集,分别建立三个词项矩阵M1,M2,M3,矩阵中的分量值通过二值法获得(也可以通过其他方法获得)。
(3).相似度加权计算阶段
首先,相似度加权计算模块分别计算M1、M2、M3中两个行向量的余弦距离C1、C2、C3,获得
C1=1,C2=0.447,C3=0.2
其次,相似度加权计算模块计算M1、M2、M3的三个参数a1、a2、a3:
a1=0.187,a2=0.25,a3=0.562
最后,相似度加权计算模块得到加权相似度Sim(S1,S2):
Sim(S1,S2)=0.187×1+0.25×0.447+0.562×0.2=0.411
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.本发明是一种基于命名实体识别的新闻搜索结果相似度计算方法,由关键词提取模块、向量空间模型建模模块、相似度加权计算模块三部分组成。
2.根据权利要求1所述方法,其特征在于对新闻文档进行命名实体识别,对新闻搜索结果中的时间、地点等进行标注,将不同类别的实体词组成多个关键词子集,多个关键词子集合成关键词集。
3.根据权利要求1所述方法,其特征在于基于关键词子集建立多个词项矩阵。
4.根据权利要求1所述方法,其特征在于基于多个词项矩阵计算加权相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310129580XA CN103218432A (zh) | 2013-04-15 | 2013-04-15 | 一种基于命名实体识别的新闻搜索结果相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310129580XA CN103218432A (zh) | 2013-04-15 | 2013-04-15 | 一种基于命名实体识别的新闻搜索结果相似度计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103218432A true CN103218432A (zh) | 2013-07-24 |
Family
ID=48816219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310129580XA Pending CN103218432A (zh) | 2013-04-15 | 2013-04-15 | 一种基于命名实体识别的新闻搜索结果相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103218432A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123349A (zh) * | 2014-07-09 | 2014-10-29 | 昆明理工大学 | 一种基于相关性知识特征提取的方法 |
CN104794135A (zh) * | 2014-01-21 | 2015-07-22 | 阿里巴巴集团控股有限公司 | 一种对搜索结果进行排序的方法和装置 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN105573984A (zh) * | 2015-12-18 | 2016-05-11 | 小米科技有限责任公司 | 社会经济指标的识别方法及装置 |
CN106021526A (zh) * | 2016-05-25 | 2016-10-12 | 东软集团股份有限公司 | 新闻分类方法及装置 |
CN106933787A (zh) * | 2017-03-20 | 2017-07-07 | 上海智臻智能网络科技股份有限公司 | 判决文书相似度的计算方法、查找装置及计算机设备 |
CN107992474A (zh) * | 2017-11-24 | 2018-05-04 | 国家计算机网络与信息安全管理中心 | 一种流式数据主题挖掘方法及其*** |
CN108241629A (zh) * | 2016-12-23 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 关键词分组方法和装置 |
CN109325108A (zh) * | 2018-08-13 | 2019-02-12 | 北京百度网讯科技有限公司 | 查询处理方法、装置、服务器及存储介质 |
CN109582969A (zh) * | 2018-12-04 | 2019-04-05 | 联想(北京)有限公司 | 实体匹配方法、装置及电子设备 |
CN109635089A (zh) * | 2018-12-14 | 2019-04-16 | 苏州阳澄湖数字文化创意园投资有限公司 | 一种基于语义网络的文学作品新颖度评价***和方法 |
US10922486B2 (en) | 2019-03-13 | 2021-02-16 | International Business Machines Corporation | Parse tree based vectorization for natural language processing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094207A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Identifying Clusters Of Words According To Word Affinities |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
-
2013
- 2013-04-15 CN CN201310129580XA patent/CN103218432A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094207A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Identifying Clusters Of Words According To Word Affinities |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
Non-Patent Citations (1)
Title |
---|
党秋月 等: "基于 OPTICS 可达图的自动识别簇方法", 《计算机应用》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794135B (zh) * | 2014-01-21 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种对搜索结果进行排序的方法和装置 |
CN104794135A (zh) * | 2014-01-21 | 2015-07-22 | 阿里巴巴集团控股有限公司 | 一种对搜索结果进行排序的方法和装置 |
CN104123349A (zh) * | 2014-07-09 | 2014-10-29 | 昆明理工大学 | 一种基于相关性知识特征提取的方法 |
CN104123349B (zh) * | 2014-07-09 | 2017-09-29 | 昆明理工大学 | 一种基于相关性知识特征提取的方法 |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN105573984A (zh) * | 2015-12-18 | 2016-05-11 | 小米科技有限责任公司 | 社会经济指标的识别方法及装置 |
CN105573984B (zh) * | 2015-12-18 | 2019-01-04 | 小米科技有限责任公司 | 社会经济指标的识别方法及装置 |
CN106021526A (zh) * | 2016-05-25 | 2016-10-12 | 东软集团股份有限公司 | 新闻分类方法及装置 |
CN106021526B (zh) * | 2016-05-25 | 2019-09-27 | 东软集团股份有限公司 | 新闻分类方法及装置 |
CN108241629A (zh) * | 2016-12-23 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 关键词分组方法和装置 |
CN106933787A (zh) * | 2017-03-20 | 2017-07-07 | 上海智臻智能网络科技股份有限公司 | 判决文书相似度的计算方法、查找装置及计算机设备 |
CN107992474A (zh) * | 2017-11-24 | 2018-05-04 | 国家计算机网络与信息安全管理中心 | 一种流式数据主题挖掘方法及其*** |
CN109325108A (zh) * | 2018-08-13 | 2019-02-12 | 北京百度网讯科技有限公司 | 查询处理方法、装置、服务器及存储介质 |
US11216618B2 (en) | 2018-08-13 | 2022-01-04 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Query processing method, apparatus, server and storage medium |
CN109325108B (zh) * | 2018-08-13 | 2022-05-27 | 北京百度网讯科技有限公司 | 查询处理方法、装置、服务器及存储介质 |
CN109582969A (zh) * | 2018-12-04 | 2019-04-05 | 联想(北京)有限公司 | 实体匹配方法、装置及电子设备 |
CN109635089A (zh) * | 2018-12-14 | 2019-04-16 | 苏州阳澄湖数字文化创意园投资有限公司 | 一种基于语义网络的文学作品新颖度评价***和方法 |
CN109635089B (zh) * | 2018-12-14 | 2023-09-05 | 李华康 | 一种基于语义网络的文学作品新颖度评价***和方法 |
US10922486B2 (en) | 2019-03-13 | 2021-02-16 | International Business Machines Corporation | Parse tree based vectorization for natural language processing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103218432A (zh) | 一种基于命名实体识别的新闻搜索结果相似度计算方法 | |
CN103207905B (zh) | 一种基于目标文本的计算文本相似度的方法 | |
CN103593792B (zh) | 一种基于中文知识图谱的个性化推荐方法与*** | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
Liao et al. | Evaluating the effectiveness of search task trails | |
CN106599181A (zh) | 一种基于主题模型的新闻热点检测方法 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN104915446A (zh) | 基于新闻的事件演化关系自动提取方法及其*** | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及*** | |
CN104408033A (zh) | 一种文本信息提取的方法及*** | |
CN103207913A (zh) | 商品细粒度语义关系的获取方法和*** | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN103699625A (zh) | 基于关键词进行检索的方法及装置 | |
CN105653518A (zh) | 一种基于微博数据的特定群体发现及扩充方法 | |
CN107153689A (zh) | 一种基于主题相似度的案件检索方法 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN103577416A (zh) | 扩展查询方法及*** | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN101826102B (zh) | 一种图书关键字自动生成的方法 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
Nandi et al. | Bangla news recommendation using doc2vec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130724 |