CN107908749B - 一种基于搜索引擎的人物检索***及方法 - Google Patents

一种基于搜索引擎的人物检索***及方法 Download PDF

Info

Publication number
CN107908749B
CN107908749B CN201711147336.0A CN201711147336A CN107908749B CN 107908749 B CN107908749 B CN 107908749B CN 201711147336 A CN201711147336 A CN 201711147336A CN 107908749 B CN107908749 B CN 107908749B
Authority
CN
China
Prior art keywords
webpage
name
visual
character
visual block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711147336.0A
Other languages
English (en)
Other versions
CN107908749A (zh
Inventor
刘扬
王佰玲
周奇
辛国栋
孙云霄
王巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN201711147336.0A priority Critical patent/CN107908749B/zh
Publication of CN107908749A publication Critical patent/CN107908749A/zh
Application granted granted Critical
Publication of CN107908749B publication Critical patent/CN107908749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于搜索引擎的人物检索***及方法,包括依次连接的数据采集模块、数据预处理模块、特征抽取模块、聚类模块;数据采集模块爬取搜索引擎检索人名返回的网页信息;数据预处理模块过滤与人名无关的网页,进行分块处理,过滤网页中与检索人名无关的视觉块;特征抽取模块抽取与检索人物相关的属性和实体,统计视觉块中词频,构造每个网页的向量表示形式,适当增加抽取的特征词在向量空间中对应维数的值,聚类模块将每个网页的向量表示形式作为输入,进行网页文本的聚类,输出网页类别标签组成的列表。本发明有效解决检索人物时返回网页中的人名歧义和信息杂乱的问题,通过抽取人物属性和人物关系构造人物摘要,为用户检索人名提供便利。

Description

一种基于搜索引擎的人物检索***及方法
技术领域
本发明涉及一种基于搜索引擎的人物检索***及方法,属于互联网和搜索技术领域。
背景技术
目前,人物检索的主要难点是,检索人名返回的网页中存在人名歧义和信息杂乱的问题。人名消歧是指将具有相同人名的多个人物个体区分开来。人名歧义的普遍存在给信息传播和资源的获取造成诸多不便,当下主流的搜索引擎提供的人名搜索结果往往是将所有重名人网页和不相关网页的混合,这些网页按照一定地规则排序,被关注度高的人物信息更有可能排在前面的位置。例如,在百度搜索引擎对“李娜”,检索结果中网页排名靠前的有“网球运动员”、“歌手”、“最美癌症女孩”、等身份的李娜,作为普通辅导教师的“李娜”的信息就淹没在这些信息海洋中,导致用户需要耗费大量的时间进行核对与筛选。
针对上面的问题,目前有三类解决办法:一、有监督的分类算法:通过人工标注语料库,选择合适的分类器模型实现网页文本的分类,该类方法的类别个数确定,不能适应数据的动态增长,而且分类器的好坏在一定程度上依赖于标记语料库的大小。二、无监督的聚类算法:主要分为传统的聚类算法、基于图分割的聚类算法和基于网络资源的聚类算法。传统的聚类算法,通过构造网页文本的向量空间模型,使用K-Means或者层次聚类算法实现人名消歧;基于图分割的聚类算法,事先以文档或特征为节点,用文档或特征之间的关系作为边来构造社会关系网,再利用图分割的方法进行聚类;基于网络资源的聚类算法,首先利用同义词词林、雅虎网络文档分类体系和***等网络资源缓解数据缺失和稀疏的问题,然后再使用聚类算法实现人名的消歧。三、混合模型:使用多个步聚的策略,将多个分类或者聚类算法整合在一起,实现人名消歧。由于网络信息的多样性和不确定性,再加上缺乏大规模人工标注的语料库,而且人工标记非常的耗时费力,从这个意义上看,基于无监督的人名消歧方法优于有监督的。
目前,人名消歧的研究主要依托于文本建模,预处理中包括抽取人物属性和命名实体,并结合人名上下文信息研究人名和人物个体的映射关系。但通过观察发现,网页中有许多与人名距离较远的文本信息和一些抽象信息,对人名消歧有重大帮助,如两个网页同属于音乐主题,或者同属于计算机领域,则两个页面很有可能对应同一个人,因此我们对整个网页进行建模;而且目前的解决办法,不能自动的识别网页集中的类别个数,需要人工的干预。
中国专利文献102054029A公开了一种基于社会网络和人名上下文的人物信息消歧处理方法,本发明涉及一种互联网人物信息的消歧处理方法。它解决了现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合的问题。用于网络人物信息检索。它包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。但是,该专利直接对网页正文文本进行抽取、分词和词性标注形成文档,目前搜索引擎检索返回的网页种类复杂,结构多样,网页中侧栏和多级标题往往包含检索人名的绝大部分信息。通过该专利的方法无法提取网页中非正文文本中的人名相关信息,严重影响聚类的效果;该专利的聚类算法,需要提取正文中的人物领域信息,提取的信息量对聚类的效果影响很大,而且需要人工指定聚类的阈值,存在人工干预对聚类效果的影响。
发明内容
针对现有技术的不足,本发明提供了一种基于搜索引擎的人物检索***;
本发明还提供了一种基于搜索引擎的人物检索方法;
首先,根据网页的实际布局,使用Vision-based Page Segmentation(VIPS)算法实现网页的分块,并提取每个视觉块中的文本、位置和链接特征,使用SVM算法过滤网页中与人名无关的视觉块;然后,采用基于混合狄利克雷过程的文本聚类方法,本方法能够根据文本中的词频统计特征自动判断该文档属于已有的类别,还是新生成的类别,自动识别网页文本集的类别个数,减少的人工干预对聚类效果的影响,有效地解决了检索人名返回网页中的人名歧义问题;最后,通过抽取的属性和人物关系生成人物摘要,为用户检索人名提供便利。
术语解释:
1、TF-IDF值,term frequency-inverse document frequency,自然语言处理中经常用到的一种统计方法,用以评估一字词对于一个文本集或一个语料库中的其中一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比。
2、VIPS视觉块算法,Vision-based Page Segmentation。
3、SVM分类算法,Support Vector Machine。
本发明的技术方案为:
一种基于搜索引擎的人物检索***,包括依次连接的数据采集模块、数据预处理模块、特征抽取模块、聚类模块;
输入检索的人名,所述数据采集模块利用爬虫***爬取多个搜索引擎检索人名返回的网页信息,构成网页集;所述网页信息是指:搜索引擎检索人名返回的若干网页,每个网页包括标题(title)、url、摘要(content),完整网页;
首先通过爬虫引擎爬取不同搜索引擎检索人名返回的每条信息中的url,然后使用网页下载工具httrack下载url中的完整网页信息。经过观察发现,搜索引擎检索人名返回的信息中只有前10页与人名的相关度较大,所以只爬取每个搜索引擎检索人名返回的前10页的网页信息)
所述数据预处理模块过滤网页集中与人名无关的网页,对过滤后网页集中的网页进行分块处理,得到每个网页的多个视觉块,并通过有监督的分类算法,过滤掉视觉块中与人名无关的视觉块信息;
视觉块是指网页经过VIPS算法后形成的分块效果;
视觉块包括图片、六元组信息<与网页上边沿的距离,与网页左边沿的距离,视觉块的长,视觉块的宽,视觉块的编号,视觉块内的文本>;与人名无关的视觉块信息包括广告、导航、弹出框、版权信息和其它与人名无关的视觉块。
所述特征抽取模块从视觉块中抽取与检索人物相关的属性和实体,实体是指网页中出现的人名;统计网页中与人名相关视觉块的词频,构造每个网页的向量表示形式,所述向量表示形式为:(x,y),x是指过滤掉人名无关视觉块后,网页文本中的词,y是指词在网页中的出现的次数;根据抽取的人物相关的属性和实体,适当增加抽取的特征词在向量空间中对应维数的值;
所述聚类模块将每个网页的向量表示形式作为输入,使用狄利克雷过程混合模型进行网页文本的聚类,输出网页类别标签组成的列表。狄利克雷过程混合模型能够自动识别网页文本集中的类别个数,不需要人工干预。
根据本发明优选的,所述数据预处理模块包括依次连接的数据清洗模块、网页分块模块、人物相关视觉块抽取模块,所述数据采集模块连接所述数据清洗模块,所述人物相关视觉块抽取模块连接所述特征抽取模块;
所述数据清洗模块通过命名实体识别器识别爬虫***爬取的每个网页中是否包含检索的人名:如果某一网页没有检索的人名或者与检索的人名不同的名字个数超过5个,则直接将该网页标记为与人名无关的网页,否则,将该网页标记为与人名相关的网页;
所述网页分块模块对所述数据清洗模块数据清洗后得到的与人名相关的网页进行视觉分块处理:通过VIPS视觉块算法实现网页分块处理,输出网页中分割的每个视觉块的六元组信息,六元组信息包括:与网页上边沿的距离、与网页左边沿的距离、视觉块的长、视觉块的宽、视觉块的编号、视觉块内的文本;
由于网页视觉块中存在广告、导航、弹出框、版权信息、弹出框和其它与人名无关的视觉块,所述人物相关视觉块抽取模块通过SVM分类算法过滤与人名无关的视觉块,即:输入每块视觉块中文本的TF-IDF值、视觉块的大小、视觉块的位置,视觉块的大小包括视觉块的长、视觉块的宽;视觉块的位置用与网页上边沿的距离、与网页左边沿的距离来表示;链入链出比特征构成视觉块的向量表示形式,输出0或1,0表示该视觉块与检索人名不相关,1表示该视觉块与检索人名相关。
根据本发明优选的,所述特征抽取模块包括人物相关属性抽取模块、人物关系抽取模块、文本向量化模块,所述数据预处理模块分别连接所述人物相关属性抽取模块、人物关系抽取模块,所述人物相关属性抽取模块、人物关系抽取模块均连接所述文本向量化模块;所述人物相关属性抽取模块使用规则和模板匹配的方法抽取出每个网页中若干维人物属性。
所述人物关系抽取模块使用命名实体识别器识别每个网页中的人名实体,统计每个人名实体出现的次数和与检索人名的距离,出现次数和与检索人名的距离判断实体的重要程度;所述人名实体即所述实体;
人名实体与检索人名的距离的计算方法为:如果检索人名和抽取的人名实体出现在一个视觉块中,该人名实体与检索人名的距离为0,否则该人名实体与检索人名的距离为1;
通过人名实体在网页中出现次数和与检索人名的距离判断实体的重要程度的计算方法为:人名实体出现的次数+(1-人名实体与检索人名的距离);
所述文本向量化模块先将抽取网页中的人物属性进行分词处理,统计其中的名词;再将网页文本分词,去停用词,并统计每个网页的词频,构造网页文本的向量表示形式;即:网页中文本中词的词频统计:{(word1,count1),(word2,count2),...,(wordn,countn)},wordi表示网页中的第i个词,counti表示第i个词在网页中出现的频数;最后,逐一查找网页文本的向量表示形式与人物属性和实体相对应的词的值,并根据人物属性值和实体的重要程度适当增加权值。
人物属性的重要程度指的是不同的属性,对人物的区分程度不同,区分程度较高的属性:性别、毕业学校、作品名、学历、身高、体重、邮箱、电话、出生日期,增加的权重值为5;其他11个属性增加的权重为3。将人名实体和人物属性的权值与对应的网页文本向量表示的词对应的值相加得到最后的网页文本的向量表示形式。
根据本发明优选的,抽取出每个网页中20维人物属性,20维人物属性包括出生地、职业名、毕业学校、出生日期、民族、性别、作品名、个人经历、政治面貌、学历、宗教信仰、身高、体重、邮箱、婚姻状况、国籍、成就、血型、爱好、电话。
根据本发明优选的,所述爬虫***是基于Scrapy-redis的分布式爬取***。
一种基于搜索引擎的人物检索方法,包括:
(1)利用爬虫***爬取多个搜索引擎检索人名返回的网页信息,构成网页集;
(2)过滤网页集中与人名无关的网页,对过滤后网页集中的网页进行分块处理,得到每个网页的多个视觉块,并通过有监督的分类算法,过滤掉网页中与人名无关的视觉块;
(3)从视觉块中抽取与检索人物相关的属性和实体,实体是指网页中出现的人名;统计网页中与人名相关视觉块的词频,构造每个网页的向量表示形式,所述向量表示形式为:(x,y),x是指过滤掉人名无关视觉块后,网页文本中的词,y是指词在网页中的出现的次数;根据抽取的人物属性和实体,适当增加抽取的特征词在向量空间中对应维数的值;
(4)将每个网页的向量表示形式作为输入,使用狄利克雷过程混合模型进行网页文本的聚类,输出网页类别标签组成的列表。狄利克雷过程混合模型能够自动识别网页文本集中的类别个数,不需要人工干预。
根据本发明优选的,所述步骤(2),包括:
A、通过命名实体识别器识别爬虫***爬取的每个网页中是否包含检索的人名:如果某一网页没有检索的人名或者与检索的人名不同的名字个数超过5个,则直接将该网页标记为与人名无关的网页,否则,将该网页标记为与人名相关的网页;
B、对步骤A数据清洗后得到的与人名相关的网页进行视觉分块处理:通过VIPS视觉块算法实现网页分块处理,输出网页中分割的每个视觉块的六元组信息,六元组信息包括:与网页上边沿的距离、与网页左边沿的距离、视觉块的长、视觉块的宽、视觉块的编号、视觉块内的文本;
C、通过SVM分类算法过滤人名无关的视觉块,即:输入每块视觉块中文本的TF-IDF值、视觉块的大小、位置,链入链出比特征构成的视觉块的向量表示形式,输出0或1,0表示该视觉块与检索人名不相关,1表示该视觉块与检索人名相关,并去掉人名无关的视觉块。
根据本发明优选的,所述步骤(3),包括:
a、使用规则和模板匹配的方法,抽取出每个网页中20维人物属性;
b、使用命名实体识别器识别每个网页中的人名实体,统计每个人名实体出现的次数和与检索人名的距离,根据出现次数和与检索人名的距离判断人名实体的重要程度;
c、将抽取的网页中的若干维人物属性进行分词处理,统计其中的名词;
d、将网页文本分词,去停用词,并统计每个网页中词的词频,构造网页文本的向量表示形式;
e、逐一查找网页文本的向量表示形式中与人物属性值和人名实体相对应的词的值,并根据人物属性和人名实体的重要程度适当增加权值。
根据本发明优选的,所述步骤a,抽取出每个网页中20维人物属性,20维人物属性包括出生地、职业名、毕业学校、出生日期、民族、性别、作品名、个人经历、政治面貌、学历、宗教信仰、身高、体重、邮箱、婚姻状况、国籍、成就、血型、爱好、电话。
本发明的有益效果为:
1、本发明提供了一种基于混合狄利克雷过程文本聚类的人物检索方法,该方法能够有效解决检索人物时返回网页中的人名歧义和信息杂乱的问题,并通过抽取人物属性和人物关系构造人物摘要,为用户检索人名提供便利。
2、本发明提供一种异构网页(异构网页指的是不同网页类型(贴吧,新闻,论坛,学校政府网站,博客,财经等))中人物相关信息抽取的方法,首先使用VIPS算法将网页进行分块处理,然后基于视觉块的六元组和链接信息构建视觉块的向量表示形式,使用SVM算法,将每个视觉块分为人名相关或者人名无关,有效的避免网页中人名无关信息对人名消歧的影响。
附图说明
图1为本发明基于搜索引擎的人物检索***的结构框图;
图2为本发明基于搜索引擎的人物检索方法的流程示意图;
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于搜索引擎的人物检索***,如图1所示,包括依次连接的数据采集模块、数据预处理模块、特征抽取模块、聚类模块;
输入检索的人名,数据采集模块利用基于Scrapy-redis的分布式爬取***爬取多个搜索引擎检索人名返回的网页信息,构成网页集;网页信息是指:搜索引擎检索人名返回的若干网页,每个网页包括标题(title)、url、摘要(content),完整网页;
首先通过爬虫引擎爬取不同搜索引擎检索人名返回的每条信息中的url,然后使用网页下载工具httrack下载url中的完整网页信息。经过观察发现,搜索引擎检索人名返回的信息中只有前10页与人名的相关度较大,所以只爬取每个搜索引擎检索人名返回的前10页的网页信息。
数据预处理模块过滤网页集中与人名无关的网页,对过滤后网页集中的网页进行分块处理,得到每个网页的多个视觉块,并通过有监督的分类算法,过滤掉视觉块中与人名无关的视觉块信息;
视觉块是指网页经过VIPS算法后形成的分块效果;
视觉块包括图片、六元组信息<与网页上边沿的距离,与网页左边沿的距离,视觉块的长,视觉块的宽,视觉块的编号,视觉块内的文本>;与人名无关的视觉块包括广告、导航、弹出框、版权信息和其它与人名无关的视觉块。
特征抽取模块从视觉块中抽取与检索人物相关的属性和实体,实体是指网页中出现的人名;统计网页中与人名相关视觉块的词频,构造每个网页的向量表示形式,所述向量表示形式为:(x,y),x是指过滤掉人名无关视觉块后,网页文本中的词,y是指词在网页中的出现的次数;根据抽取的人物属性值和人名实体,适当增加抽取的特征词在向量空间中对应维数的值;
聚类模块将每个网页的向量表示形式作为输入,使用狄利克雷过程混合模型进行网页文本的聚类,输出网页类别标签组成的列表。狄利克雷过程混合模型能够自动识别网页文本集中的类别个数,不需要人工干预。
狄利克雷过程混合模型可以理解为一个具有无限分布量的无限混合模型,是具有狄利克雷过程先验假设的有限混合模型的极限形式。假设模型的样本集(每一维是每个网页的向量表示形式)为X={x1,x2,…xn}是服从下列分布的独立同分布的变量:
G~DP(α,H) (1)
θi|G~G (2)
xii~F(θi) (3)
观测变量xi服从参数为θi的分布F(θi),G是参数θi的先验分布,并且G是参数为α,基分布为H的狄利克雷过程的概率测度;如果样本xi和xj具有相同的参数,则两个样本聚为一类;
实施例2
根据实施例1所述的一种基于搜索引擎的人物检索***,其区别在于:
数据预处理模块包括依次连接的数据清洗模块、网页分块模块、人物相关视觉块抽取模块,数据采集模块连接数据清洗模块,人物相关视觉块抽取模块连接特征抽取模块;
数据清洗模块通过命名实体识别器识别爬虫***爬取的每个网页中是否包含检索的人名:如果某一网页没有检索的人名或者与检索的人名不同的名字个数超过5个,则直接将该网页标记为与人名无关的网页,否则,将该网页标记为与人名相关的网页;
网页分块模块对数据清洗模块数据清洗后得到的与人名相关的网页进行视觉分块处理:通过VIPS视觉块算法实现网页分块处理,输出网页中分割的每个视觉块的六元组信息,六元组信息包括:与网页上边沿的距离、与网页左边沿的距离、视觉块的长、视觉块的宽、视觉块的编号、视觉块内的文本;
由于网页视觉块中存在广告、导航、弹出框、版权信息、弹出框和其它与人名无关的视觉块,人物相关视觉块抽取模块通过SVM分类算法过滤人名无关的视觉块,即:输入每块视觉块中文本的TF-IDF值、视觉块的大小、视觉块的位置,视觉块的大小包括视觉块的长、视觉块的宽;视觉块的位置用与网页上边沿的距离、与网页左边沿的距离来表示;链入链出比特征构成视觉块的向量表示形式,输出0或1,0表示该视觉块与检索人名不相关,1表示该视觉块与检索人名相关。
实施例3
根据实施例1或2所述的一种基于搜索引擎的人物检索***,其区别在于:
特征抽取模块包括人物相关属性抽取模块、人物关系抽取模块、文本向量化模块,数据预处理模块分别连接人物相关属性抽取模块、人物关系抽取模块,人物相关属性抽取模块、人物关系抽取模块均连接文本向量化模块;人物相关属性抽取模块使用规则和模板匹配的方法抽取出每个网页中20维人物属性,20维人物属性包括出生地、职业名、毕业学校、出生日期、民族、性别、作品名、个人经历、政治面貌、学历、宗教信仰、身高、体重、邮箱、婚姻状况、国籍、成就、血型、爱好、电话。
规则匹配是使用正则表达式抽取网页文本中的人物相关属性,例如,“:”冒号前面如果是指定的20维属性,则冒号后面是对应属性的值;使用11位的数字匹配电话号码。
模板匹配是指根据人工制定的模板匹配网页文本中每句话的20维的人物属性,例如,<人名>出生于<出生日期>;<人名>从事于<职业名>。
人物关系抽取模块使用命名实体识别器识别每个网页中的人名实体,统计每个人名实体出现的次数和与检索人名的距离,通过人名实体出现次数和与检索人名的距离判断人名实体的重要程度;
人名实体与检索人名的距离的计算方法为:如果检索人名和人名实体出现在一个视觉块中,该人名实体与检索人名的距离为0,否则该人名实体与检索人名的距离为1;
通过出现次数和与检索人名的距离判断实体的重要程度的计算方法为:人名实体出现的次数+(1–人名实体与检索人名的距离);
文本向量化模块先将抽取网页中的人物属性进行分词处理,统计其中的名词;再将网页文本分词,去停用词,并统计每个网页的词频,构造网页文本的向量表示形式;即:网页中文本中词的词频统计:{(word1,count1),(word2,count2),...,(wordn,countn)},wordi表示网页中的第i个词,counti表示第i个词在网页中出现的频数;最后,逐一查找网页文本的向量表示形式与人物属性和实体相对应的词的值,并根据人物属性值和实体的重要程度适当增加权值。
人物属性的重要程度指的是不同的属性,对人物的区分程度不同,区分程度较高的属性:性别、毕业学校、作品名、学历、身高、体重、邮箱、电话、出生日期,增加的权重值为5;其他11个属性增加的权重为3。将人名实体和人物属性的权值与对应的网页文本向量表示的词对应的值相加得到最后的网页文本的向量表示形式。
实施例4
一种基于搜索引擎的人物检索方法,如图2所示,包括:
(1)利用爬虫***爬取多个搜索引擎检索人名返回的网页信息,构成网页集;
(2)过滤网页集中与人名无关的网页,对过滤后网页集中的网页进行分块处理,得到每个网页的多个视觉块,并通过有监督的分类算法,过滤掉网页中与人名无关的视觉块;包括:
A、通过命名实体识别器识别爬虫***爬取的每个网页中是否包含检索的人名:如果某一网页没有检索的人名或者与检索的人名不同的名字个数超过5个,则直接将该网页标记为与人名无关的网页,否则,将该网页标记为与人名相关的网页;
B、对步骤A数据清洗后得到的与人名相关的网页进行视觉分块处理:通过VIPS视觉块算法实现网页分块处理,输出网页中分割的每个视觉块的六元组信息,六元组信息包括:与网页上边沿的距离、与网页左边沿的距离、视觉块的长、视觉块的宽、视觉块的编号、视觉块内的文本;
C、通过SVM分类算法过滤人名无关的视觉块,即:输入每块视觉块中文本的TF-IDF值、视觉块的大小、位置和链入链出比特征构成的视觉块的向量表示形式;输出0或1,0表示该视觉块与检索人名不相关,1表示该视觉块与检索人名相关,并去掉与检索人名无关的视觉块。
(3)从视觉块中抽取与检索人物相关的属性和实体,实体是指网页中出现的人名;统计网页中与人名相关视觉块的词频,构造每个网页的向量表示形式,所述向量表示形式为:(x,y),x是指过滤掉人名无关视觉块后,网页文本中的词,y是指词在网页中的出现的次数;根据抽取的人物属性值和人名实体,适当增加抽取的特征词在向量空间中对应维数的值;包括:
a、使用规则和模板匹配的方法,抽取出每个网页中20维人物属性,20维人物属性包括出生地、职业名、毕业学校、出生日期、民族、性别、作品名、个人经历、政治面貌、学历、宗教信仰、身高、体重、邮箱、婚姻状况、国籍、成就、血型、爱好、电话。
b、使用命名实体识别器识别每个网页中的人名实体,统计每个人名实体出现的次数和与检索人名的距离,根据出现次数和与检索人名的距离判断实体的重要程度;
c、将抽取的网页中的20维人物属性进行分词处理,统计其中的名词;
d、将网页文本分词,去停用词,并统计每个网页中词的词频,构造网页文本的向量表示形式;
e、逐一查找网页文本的向量表示形式中与人物属性值和人名实体相对应的词的值,并根据人物属性和人名实体的重要程度适当增加权值。
实施例5
根据实施例1所述的一种基于搜索引擎的人物检索方法,其区别在于:设狄利克雷过程的参数为α,包括步骤如下:
(1)输入检索的人名;
(2)根据输入的人名,爬虫***爬取不同搜索引擎检索该人名返回的网页数据集;
(3)对于爬虫***爬取的网页数据集,使用命名实体识别器识别每个网页中的人名实体,如果没有检索的人名或者名字不同的人名个数超过5个,则直接将该网页标记为无关类别,其它的网页标记为与人名相关的网页;
(4)对于步骤(3)处理后的人名相关网页,使用VIPS视觉分块算法,进行网页的分块处理;
(5)对于步骤(4)中分块的网页,提取视觉分块,每个视觉块中文本的TF-IDF值、视觉块的大小、位置(视觉块的大小:视觉块的长、视觉块的宽;位置:与网页上边沿的距离、与网页左边沿的距离),链入链出比特征构成视觉块的向量表示形式,使用SVM分类算法,过滤网页中人名无关的视觉块;
(6)对于步骤(5)中人名相关的视觉块,提取人物相关视觉块中的20维人物属性、人名实体和文本信息,构造网页文本的向量表示形式,并根据提取的人物属性和人名实体适当的调整向量的值;
(7)对于步骤(6)构造网页文本集的向量表示形式,使用狄利克雷过程混合模型,进行文本的聚类操作,输出的是网页数据集的类别列表:[label1,label2,…labeln],其中labeli∈(1,n)并且labeli∈N,N表示最后的类别个数;
(8)根据聚类后的类别标签和每个类别中的人物属性,进行人物属性的融合,并构造每个类别的三元组:<[第i个类别检索的人名,相关的人名],[融合的属性列表],[类别i的网页集合]>,然后按照每个真实人物个体的重要程度,可视化的展示所有类别的三元组。

Claims (7)

1.一种基于搜索引擎的人物检索***,其特征在于,包括依次连接的数据采集模块、数据预处理模块、特征抽取模块、聚类模块;
输入检索的人名,所述数据采集模块利用爬虫***爬取多个搜索引擎检索人名返回的网页信息,构成网页集;所述网页信息是指:搜索引擎检索人名返回的若干网页,每个网页包括标题、url、摘要、完整网页;
所述数据预处理模块过滤网页集中与人名无关的网页,对过滤后网页集中的网页进行分块处理,得到每个网页的多个视觉块,并通过有监督的分类算法,过滤掉视觉块中与人名无关的视觉块信息;
所述特征抽取模块从视觉块中抽取与检索人物相关的属性和实体,实体是指网页中出现的人名;统计网页中与人名相关视觉块的词频,构造每个网页的向量表示形式,所述向量表示形式为:(x,y),x是指过滤掉人名无关视觉块后,网页文本中的词,y是指词在网页中的出现的次数;根据抽取的人物属性值和人名实体,适当增加抽取的特征词在向量空间中对应维数的值;
所述聚类模块将每个网页的向量表示形式作为输入,使用狄利克雷过程混合模型进行网页文本的聚类,输出网页类别标签组成的列表;
假设模型的样本集为X={x1,x2,…xn}是服从下列分布的独立同分布的变量:
G~DP(α,H) (1)
θi|G~G (2)
xii~F(θi) (3)
观测变量xi服从参数为θi的分布F(θi),G是参数θi的先验分布,并且G是参数为α,基分布为H的狄利克雷过程的概率测度;如果样本xi和xj具有相同的参数,则两个样本聚为一类;
所述数据预处理模块包括依次连接的数据清洗模块、网页分块模块、人物相关视觉块抽取模块,所述数据采集模块连接所述数据清洗模块,所述人物相关视觉块抽取模块连接所述特征抽取模块;
所述数据清洗模块通过命名实体识别器识别爬虫***爬取的每个网页中是否包含检索的人名:如果某一网页没有检索的人名或者与检索的人名不同的名字个数超过5个,则直接将该网页标记为与人名无关的网页,否则,将该网页标记为与人名相关的网页;
所述网页分块模块对所述数据清洗模块数据清洗后得到的与人名相关的网页进行视觉分块处理:通过VIPS视觉块算法实现网页分块处理,输出网页中分割的每个视觉块的六元组信息,六元组信息包括:与网页上边沿的距离、与网页左边沿的距离、视觉块的长、视觉块的宽、视觉块的编号、视觉块内的文本;
所述人物相关视觉块抽取模块通过SVM分类算法过滤人名无关的视觉块,即:输入每块视觉块中文本的TF-IDF值、视觉块的大小、视觉块的位置,视觉块的大小包括视觉块的长、视觉块的宽;视觉块的位置用与网页上边沿的距离、与网页左边沿的距离来表示;链入链出比特征构成视觉块的向量表示形式,输出0或1,0表示该视觉块与检索人名不相关,1表示该视觉块与检索人名相关。
2.根据权利要求1所述的一种基于搜索引擎的人物检索***,其特征在于,所述特征抽取模块包括人物相关属性抽取模块、人物关系抽取模块、文本向量化模块,所述数据预处理模块分别连接所述人物相关属性抽取模块、人物关系抽取模块,所述人物相关属性抽取模块、人物关系抽取模块均连接所述文本向量化模块;所述人物相关属性抽取模块使用规则和模板匹配的方法抽取出每个网页中若干维人物属性;
所述人物关系抽取模块使用命名实体识别器识别每个网页中的人名实体,统计每个人名实体出现的次数和与检索人名的距离,出现次数和与检索人名的距离判断实体的重要程度;
人名实体与检索人名的距离的计算方法为:如果检索人名和抽取的人名实体出现在一个视觉块中,该人名实体与检索人名的距离为0,否则该人名实体与检索人名的距离为1;
通过人名实体在网页中出现次数和与检索人名的距离判断实体的重要程度的计算方法为:人名实体出现的次数+(1-人名实体与检索人名的距离);
所述文本向量化模块先将抽取的网页中的人物属性进行分词处理,统计其中的名词;再将网页文本分词,去停用词,并统计每个网页的词频,构造网页文本的向量表示形式,逐一查找网页文本的向量表示形式与人物属性和实体相对应的词的值,并根据人物属性值和实体的重要程度适当增加权值。
3.根据权利要求2所述的一种基于搜索引擎的人物检索***,其特征在于,抽取出每个网页中20维人物属性,20维人物属性包括出生地、职业名、毕业学校、出生日期、民族、性别、作品名、个人经历、政治面貌、学历、宗教信仰、身高、体重、邮箱、婚姻状况、国籍、成就、血型、爱好、电话。
4.根据权利要求2所述的一种基于搜索引擎的人物检索***,其特征在于,所述爬虫***是基于Scrapy-redis的分布式爬取***。
5.一种基于搜索引擎的人物检索方法,其特征在于,包括:
(1)利用爬虫***爬取多个搜索引擎检索人名返回的网页信息,构成网页集;
(2)过滤网页集中与人名无关的网页,对过滤后网页集中的网页进行分块处理,得到每个网页的多个视觉块,并通过有监督的分类算法,过滤掉网页中与人名无关的视觉块;包括:
A、通过命名实体识别器识别爬虫***爬取的每个网页中是否包含检索的人名:如果某一网页没有检索的人名或者与检索的人名不同的名字个数超过5个,则直接将该网页标记为与人名无关的网页,否则,将该网页标记为与人名相关的网页;
B、对步骤A数据清洗后得到的与人名相关的网页进行视觉分块处理:通过VIPS视觉块算法实现网页分块处理,输出网页中分割的每个视觉块的六元组信息,六元组信息包括:与网页上边沿的距离、与网页左边沿的距离、视觉块的长、视觉块的宽、视觉块的编号、视觉块内的文本;
C、通过SVM分类算法过滤人名无关的视觉块,即:输入每块视觉块中文本的TF-IDF值、视觉块的大小、视觉块的位置,链入链出比特征构成视觉块的向量表示形式,输出0或1,0表示该视觉块与检索人名不相关,1表示该视觉块与检索人名相关,并去掉与检索人名无关的视觉块;
(3)从视觉块中抽取与检索人物相关的属性和实体,实体是指网页中出现的人名;统计网页中与人名相关视觉块的词频,构造每个网页的向量表示形式,所述向量表示形式为:(x,y),x是指过滤掉人名无关视觉块后,网页文本中的词,y是指词在网页中的出现的次数;根据抽取的人物属性值和人名实体,适当增加抽取的特征词在向量空间中对应维数的值;
(4)将每个网页的向量表示形式作为输入,使用狄利克雷过程混合模型进行网页文本的聚类,输出网页类别标签组成的列表;
假设模型的样本集为X={x1,x2,…xn}是服从下列分布的独立同分布的变量:
G~DP(α,H) (1)
θi|G~G (2)
xii~F(θi) (3)
观测变量xi服从参数为θi的分布F(θi),G是参数θi的先验分布,并且G是参数为α,基分布为H的狄利克雷过程的概率测度;如果样本xi和xj具有相同的参数,则两个样本聚为一类。
6.根据权利要求5所述的一种基于搜索引擎的人物检索方法,其特征在于,所述步骤(3),包括:
a、使用规则和模板匹配的方法,抽取出每个网页中若干维人物属性;
b、使用命名实体识别器识别每个网页中的人名实体,统计每个人名实体出现的次数和与检索人名的距离,出现次数和与检索人名的距离判断实体的重要程度;
c、将抽取的网页中的20维人物属性进行分词处理,统计其中的名词;
d、将网页文本分词,去停用词,并统计每个网页中词的词频,构造网页文本的向量表示形式;
e、逐一查找网页文本的向量表示形式中与人物属性值和人名实体相对应的词的值,并根据人物属性和人名实体的重要程度适当增加权值。
7.根据权利要求6所述的一种基于搜索引擎的人物检索方法,其特征在于,所述步骤a,抽取出每个网页中20维人物属性,20维人物属性包括出生地、职业名、毕业学校、出生日期、民族、性别、作品名、个人经历、政治面貌、学历、宗教信仰、身高、体重、邮箱、婚姻状况、国籍、成就、血型、爱好、电话。
CN201711147336.0A 2017-11-17 2017-11-17 一种基于搜索引擎的人物检索***及方法 Active CN107908749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711147336.0A CN107908749B (zh) 2017-11-17 2017-11-17 一种基于搜索引擎的人物检索***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711147336.0A CN107908749B (zh) 2017-11-17 2017-11-17 一种基于搜索引擎的人物检索***及方法

Publications (2)

Publication Number Publication Date
CN107908749A CN107908749A (zh) 2018-04-13
CN107908749B true CN107908749B (zh) 2020-04-10

Family

ID=61846123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711147336.0A Active CN107908749B (zh) 2017-11-17 2017-11-17 一种基于搜索引擎的人物检索***及方法

Country Status (1)

Country Link
CN (1) CN107908749B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359301A (zh) * 2018-10-19 2019-02-19 国家计算机网络与信息安全管理中心 一种网页内容的多维度标注方法及装置
CN109948154B (zh) * 2019-03-12 2023-05-05 南京邮电大学 一种基于邮箱名的人物获取及关系推荐***和方法
CN111241283B (zh) * 2020-01-15 2023-04-07 电子科技大学 一种科研学者画像的快速表征方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687924A (zh) * 2005-04-28 2005-10-26 中国科学院计算技术研究所 互联网人物信息搜索引擎的生成方法
CN102054029A (zh) * 2010-12-17 2011-05-11 哈尔滨工业大学 一种基于社会网络和人名上下文的人物信息消歧处理方法
CN102831128B (zh) * 2011-06-15 2015-03-25 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN102880623B (zh) * 2011-07-13 2015-09-09 富士通株式会社 同名人物搜索方法及***
CN104376116A (zh) * 2014-12-01 2015-02-25 国家电网公司 一种人物信息的搜索方法及装置
US20160314130A1 (en) * 2015-04-24 2016-10-27 Tribune Broadcasting Company, Llc Computing device with spell-check feature

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"面向网络人物搜索的中文人名消歧";沈剑平;《中国优秀硕士学位论文全文数据库•信息科技辑》;20120215;I138-2615 *

Also Published As

Publication number Publication date
CN107908749A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
US9514216B2 (en) Automatic classification of segmented portions of web pages
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN103455487B (zh) 一种搜索词的提取方法及装置
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN107885793A (zh) 一种微博热点话题分析预测方法及***
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及***
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
CN105843796A (zh) 一种微博情感倾向分析方法及装置
TW202001620A (zh) 自動化網站資料蒐集方法
CN102955848A (zh) 一种基于语义的三维模型检索***和方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN108021715B (zh) 基于语义结构特征分析的异构标签融合***
CN108363748B (zh) 基于知乎的话题画像***及话题画像方法
Raghuvanshi et al. A brief review on sentiment analysis
CN111680131B (zh) 基于语义的文档聚类方法、***及计算机设备
CN107908749B (zh) 一种基于搜索引擎的人物检索***及方法
Nualart et al. How we draw texts: a review of approaches to text visualization and exploration
Nandi et al. Bangla news recommendation using doc2vec
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
CN116484079A (zh) 属性词挖掘方法及相关产品
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Yang

Inventor after: Wang Bailing

Inventor after: Zhou Qi

Inventor after: Xin Guodong

Inventor after: Sun Yunxiao

Inventor after: Wang Wei

Inventor before: Zhou Qi

Inventor before: Liu Yang

Inventor before: Wang Bailing

Inventor before: Xin Guodong

Inventor before: Sun Yunxiao

Inventor before: Wang Wei

GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Sun Yunxiao

Inventor after: Liu Yang

Inventor after: Wang Bailing

Inventor after: Zhou Qi

Inventor after: Xin Guodong

Inventor after: Wang Wei

Inventor before: Liu Yang

Inventor before: Wang Bailing

Inventor before: Zhou Qi

Inventor before: Xin Guodong

Inventor before: Sun Yunxiao

Inventor before: Wang Wei