CN103399885A - 兴趣点代表图片的挖掘方法、装置和服务器 - Google Patents

兴趣点代表图片的挖掘方法、装置和服务器 Download PDF

Info

Publication number
CN103399885A
CN103399885A CN201310306642XA CN201310306642A CN103399885A CN 103399885 A CN103399885 A CN 103399885A CN 201310306642X A CN201310306642X A CN 201310306642XA CN 201310306642 A CN201310306642 A CN 201310306642A CN 103399885 A CN103399885 A CN 103399885A
Authority
CN
China
Prior art keywords
website
interest
representative picture
point
representing pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310306642XA
Other languages
English (en)
Other versions
CN103399885B (zh
Inventor
孙明芳
牛正雨
刘峰
吴一璞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310306642.XA priority Critical patent/CN103399885B/zh
Publication of CN103399885A publication Critical patent/CN103399885A/zh
Application granted granted Critical
Publication of CN103399885B publication Critical patent/CN103399885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种兴趣点代表图片的挖掘方法、装置和服务器。所述兴趣点代表图片的挖掘方法包括:根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点;根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面,其中,所述代表页面包括所述实体站点的介绍信息;读取所述代表页面,获取代表图片集合;以及获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片。所述兴趣点代表图片的挖掘方法和装置能够自动的从兴趣点对应的实体站点上挖掘代表图片,并且获取的代表图片清晰度更高,更加符合用户直观了解兴趣点的需求。

Description

兴趣点代表图片的挖掘方法、装置和服务器
技术领域
本发明涉及网络通信领域,尤其涉及一种兴趣点代表图片的挖掘方法、装置和服务器。
背景技术
随着移动互联网的蓬勃发展,基于位置的服务(Location-based service,LBS)被更多的用户接受。兴趣点(Point of interest,POI)是基于位置的服务中的重要概念。兴趣点表示电子地图中的位置实体,这些位置实体可以是工厂、学校、店铺、公园等。兴趣点数据通常包括位置实体的名称、地址、联系电话、位置坐标等信息。在一些基于位置的服务的应用中,兴趣点(Point ofinterest,POI)数据还包括一张代表图片。代表图片一般显示兴趣点的概貌,使用户对其检索的兴趣点有更加直观的认识。
现有技术中,兴趣点的代表图片的一般都是从垂直站点获取的。垂直站点是解决用户在特定领域的特定需求的一类网络站点,同综合型的网络站点相比,垂直站点提供的服务更加专业。然而,从垂直站点获取的代表图片经常不够清晰,而且时常带有水印信息。而随着互联网的迅速普及,越来越多的商家、企事业单位等经营实体开始拥有自己的实体站点。但是,目前仍然没有从实体站点上获取兴趣点的代表图片的解决方案。
发明内容
有鉴于此,本发明提出一种兴趣点代表图片的挖掘方法、装置和服务器,能够从兴趣点的实体站点上更加准确的获得更为清晰的代表图片。
第一方面,本发明实施例提供了一种兴趣点代表图片的挖掘方法,所述方法包括:
根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点;
根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面,其中,所述代表页面包括所述实体站点的介绍信息;
读取所述代表页面,获取代表图片集合;以及
获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片。
第二方面,本发明实施例提供了一种兴趣点代表图片的挖掘装置,所述装置包括:
实体站点获取模块,用于根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点;
代表页面查找模块,用于根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面,其中,所述代表页面包括所述实体站点的介绍信息;
代表图片集合获取模块,用于读取所述代表页面,获取代表图片集合;以及
代表图片获取模块,用于获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片。
第三方面,本发明实施例提供了一种服务器,所述服务器包括如上第二方面所述的兴趣点代表图片的挖掘装置。
本发明通过利用兴趣点的名称和地址从互联网上获取所述兴趣点的实体站点,从实体站点的众多网页中获取代表网页,从代表网页中获取代表图片集合,及利用图片分类器从所述代表图片集合中获取代表图片,实现了从互联网的实体站点中对兴趣点的代表图片的获取,扩大了搜索代表图片的范围,提高了代表图片获取的准确性,并且提高了获取的代表图片的清晰度。
附图说明
图1是本发明第一实施例提供的兴趣点代表图片的挖掘方法的流程示意图。
图2是本发明第一实施例提供的实体站点获取的流程示意图。
图3是本发明第一实施例提供的代表页面查找的流程示意图。
图4是本发明第一实施例提供的代表图片集合获取的流程示意图。
图5是本发明第二实施例提供的兴趣点代表图片的挖掘方法的流程示意图。
图6是本发明第三实施例提供的兴趣点代表图片的挖掘装置的结构示意图。
图7是可以实施本发明实施例的服务器的示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1至图4示出了本发明的第一实施例。
图1是本发明第一实施例提供的兴趣点代表图片的挖掘方法的流程图。参见图1,所述兴趣点代表图片的挖掘方法包括:步骤S110,根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点;步骤S120,根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面,其中,所述代表页面包括所述实体站点的介绍信息;步骤S130,读取所述代表页面,获取代表图片集合;以及步骤S140,获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片。
在步骤S110中,根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点。
在生活中,人们可能使用不同的名词来指代同一个兴趣点。例如,“中国人民解放军总医院”又被人们称为“解放军总医院”,或者“301医院”。为了避免因为使用不同的名称造成不能正确获取实体站点的情况,本发明利用兴趣点的名称和地址相结合的方式来获取所述兴趣点对应的实体站点。
图2是本发明第一实施例提供的实体站点获取的流程图。参见图2,所述步骤S110包括:子步骤S111,根据预定义的语义规则对所述兴趣点的名称进行切词,搜索至少一个首页的标题完全包含所述切词结果的站点,组成候选站点集合;子步骤S112,获取每个候选站点的现实地址信息;以及子步骤S113,将每个候选站点的现实地址信息与所述兴趣点的地址进行比较,将相似度最高的候选站点作为所述兴趣点的实体站点。
在子步骤S111中,根据预定义的语义规则对所述兴趣点的名称进行切词,搜索至少一个首页的标题完全包含所述切词结果的站点,组成候选站点集合。
本领域的技术人员应该理解,所述兴趣点的名称是由多个汉字组成的字符串。为了能够获得与所述兴趣点的名称相关的实体站点,首先按照预定义的语义规则将所述兴趣点的名称对应的字符串进行切词,生成切词结果。
在本实施例的一个优选实施方式中,切词处理采用基于理解的切词处理方法。并且,用于进行中文理解的语义规则是预先定义的。
所述切词结果是由至少一个字符串组成的字符串数据。例如,对“北京医院”进行切词得到的切词结果是由“北京”,“医院”两个字符串组成的字符串数组。
然后,在互联网上搜索站点标题完全包含所述切词结果的实体站,由搜索得到的实体站点构成所述兴趣点的候选站点集合。
例如,使用对“北京医院”的切词结果,即“北京”、“医院”两个字符串,从互联网上找出站点首页的标题包含“北京”以及“医院”两个字符串的所有实体站构成候选站点集合。经过搜索,获得了两个实体站点,分别是:“北京医院”,其首页的统一资源定位符(Uniform resource locator,URL)是“http://www.bjhmoh.cn/”;“北京中医药大学第三附属医院”,其首页的统一资源定位符是“http://www.zydsy.com/cn/index/index.aspx”。由上述两个实体站点共同组成所述候选站点集合。
在子步骤S112中,获取每个候选站点的现实地址信息。
所述现实地址信息是所述兴趣点所代表的实体在地图中的实际地址。在实体站点的页面中通常包括其所代表的实体在地图中的实际地址,即所述实体站点的现实地址信息。例如,北京医院的现实地址信息是“北京市东城区东单大华路1号”。在本实施例中,对所述候选站点集合中的每个候选站点,都需要获取其现实地址信息。
在所述候选站点集合中的候选站点中,所述现实地址信息有时包括在所述候选站点的首页上,有时包括在所述候选站点的联系页面上。因此,获取每个候选站点的现实地址信息的子步骤可以通过读取所述候选站点的首页、读取所述候选站点的联系页面或者两者的结合来完成。
如果通过读取所述候选站点的首页获取所述候选站点的现实地址信息,从所述候选站点的首页中查找第一关键词,并将所述第一关键词后的长度小于第一长度阈值的字符串作为所述候选站点的现实地址信息。在本实施例的一个优选实施方式中,所述第一关键词是“地址”。在本实施例的另一个优选实施方式中,所述第一长度阈值是35。
如果通过读取所述候选站点的联系页面获取所述候选站点的现实地址信息,通过从所述候选站点的首页上的锚文本中查找第二关键词找到所述候选站点的联系页面,再从所述联系页面中查找第一关键词,将联系页面中查找到的第一关键词后的长度小于第一长度阈值的字符串作为所述候选站点的现实地址信息。在本实施例的一个优选实施方式中,所述第一关键词是“地址”,所述第二关键词是“联系我们”。并且,在本实施例的另一个优选实施方式中,所述第一长度阈值是35。
对由“北京医院”和“北京中医药大学第三附属医院”两个实体站点共同组成的候选站点集合中的每个候选站点获取现实地址信息。“北京医院”对应的实体站点的现实地址信息是“北京市东城区东单大华路1号”;而“北京中医药大学第三附属医院”对应的实体站点的现实地址信息是“北京市朝阳区安外小关51号”。
在子步骤S113中,将每个候选站点的现实地址信息与所述兴趣点的地址进行比较,将相似度最高的候选站点作为所述兴趣点的实体站点。
获取了所述候选站点的现实地址信息后,将所述兴趣点的地址与每个候选站点的现实地址信息进行比较,以从至少一个候选站点中确定一个候选站点为所述兴趣点对应的实体站点。
首先,直接将所述兴趣点的地址与每个候选站点的现实地址信息进行比较,如果有一个候选站点的现实地址信息与所述兴趣点的地址相匹配,则确定该候选站点为所述兴趣点对应的实体站点。
如果通过所述兴趣点地址与所述候选站点的现实地址信息的直接比较没能确定所述兴趣点对应的实体站点,将所述兴趣点的地址进行全角/半角字符转换,再与每个候选站点的现实地址信息进行比较。如果经过全角/半角字符转换后有一个候选站点的现实地址信息与所述兴趣点的地址相匹配,则确定该候选站点为所述兴趣点对应的实体站点。
如果经过所述兴趣点地址与所述候选站点的现实地址信息的直接比较以及全角/半角字符转后的兴趣点地址与所述候选站点的现实地址信息的比较仍没能确定所述兴趣点对应的实体站点,将所述兴趣点的地址进行切词,根据每个候选站点的现实地址信息中包括对所述兴趣点的地址进行切词的切词结果的情况计算所述兴趣点与所述候选站点的现实地址信息的相似度,并将相似度最高的现实地址信息对应的候选站点确定为所述兴趣点对应的实体站点。具体的,假设对所述兴趣点的地址进行切词后的切词结果中有P个字符串,其中,q个字符串包括在一个候选站点的现实地址信息中,则所述候选站点的现实地址信息与所述兴趣点的地址的相似度为(q÷P)×100%。
在本实施例的一个优选实施方式中,切词处理采用基于理解的切词处理方法。并且,用于进行中文理解的语义规则是预先定义的。
在经过地址信息比较后,将所述候选站点集合中“北京医院”对应的实体站点,即统一资源定位符是“http://www.bjhmoh.cn/”的实体站点作为所述兴趣点的实体站点。
在步骤S120中,根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面,其中,所述代表页面包括所述实体站点的介绍信息。
在实体站点的介绍页面中,通常会对所述实体站点对应的实体进行详细的介绍,也经常会出现展示所述实体的概貌的图片。因此,需要获取所述实体站点的介绍页面作为所述实体的代表页面。
锚文本是互联网上的一类链接,这类链接以文本关键词为链接,指向另一个网页。
图3是本发明第一实施例提供的代表页面查找的流程示意图。参见图3,所述步骤S120包括:子步骤S121,将所述实体站点的首页上的所有链接中锚文本包含第三关键词的链接所指向的页面作为代表页面。在本实施例的一个优选实施方式中,所述第三关键词包括“介绍”、“简介”或者“概况”。
在子步骤S121中,将所述实体站点的首页上的所有链接中锚文本包含第三关键词的链接所指向的页面作为代表页面。
本领域技术人员应该理解,所述实体站点一般都有一个介绍所述实体的基本信息的页面。这个页面包括对所述实体的介绍信息,主要为所述实体站点的访问者介绍所述实体的基本情况。因此,这样的页面被称为所述实体站点的介绍页面。而且,所述实体站点的介绍页面经常会包括展示所述实体的图片,这些图片通常包括展示所述实体的建筑概貌的图片。因此,需要将所述介绍页面作为所述实体站点的代表页面。
所述实体站点的首页上一般会有指向所述介绍页面的链接,而这些链接通常与具有第三关键词的锚文本相关联。所述第三关键词包括“介绍”、“简介”或者“概况”。因此,通过识别所述实体站点上所有链接的锚文本是否包含第三关键词来识别所述实体站点的代表页面。
在本实施例的一个优选实施方式中,所述步骤S120还包括子步骤S122,将所述实体站点的首页上锚文本的长度小于第二长度阈值的链接所指向的页面作为代表页面。在所述优选实施方式中,所述第二长度阈值的取值是5。
在子步骤S122中,将所述实体站点的首页上锚文本的长度小于第二长度阈值的链接所指向的页面作为代表页面。
本领域技术人员应该理解,在所述实体站点的首页上,指向所述介绍页面的链接的锚文本都比较短。为了防止对指向所述介绍页面的链接的误识别,需要限定指向所述介绍页面的链接对应的锚文本的长度。因此,限定指向所述介绍页面,即选择出来的代表页面的链接对应的锚文本的长度小于第二长度阈值。在本实施例的一个优选实施方式中,所述第二长度阈值的取值是5。
在本实施例的一个优选实施方式中,所述步骤S120还包括子步骤S123,如果查找到的代表页面是至少两个,从所述至少两个代表页面中去除重复的代表页面。
在子步骤S123中,如果查找到的代表页面是至少两个,从所述至少两个代表页面中去除重复的代表页面。
在所述实体站点的首页上的链接中,有可能出现两个以上的链接指向同一个页面的情形。为了避免从所述实体站点获取的两个以上链接指向同一个代表页面,造成后续重复的处理操作,需要对获取的代表页面进行去重处理。
如果获取到的代表页面是至少两个,则将所述至少两个代表页面的统一资源定位符(Uniform resource locator,URL)进行比较;如果代表页面中两个以上的页面的统一资源定位符相同,则去除重复的统一资源定位符对应的代表页面。
经过对“北京医院”对应的实体站点的首页上的锚文本的查找,确定统一资源定位符是“http://www.bjhmoh.cn/templates/T_new_second/index.aspx?nodeid=103”的页面为所述实体站点的代表页面。
在步骤S130中,读取所述代表页面,获取代表图片集合。
图4是本发明第一实施例提供的代表图片集合获取的流程示意图。参见图4,所述步骤S130包括:子步骤S131,解析所述代表页面,获取所述代表页面的文档对象模型(DOM)树;子步骤S132,遍历所述文档对象模型(DOM)树,根据所述代表页面的内容将所述代表页面分成不同的内容块;子步骤S133,根据内容块的内容特征对不同内容块进行标注,并将被标注为网页核心内容块的内容块作为目标内容块;以及子步骤S134,读取所述目标内容块中像素值大于最小像素阈值的图片,获得代表图片集合。
在子步骤S131中,解析所述代表页面,获取所述代表页面的文档对象模型(DOM)树。
文档对象模型(Document object model,DOM)是由W3C组织提供的跨平台,并且与编程语言无关的对HTML、XHTML和XML文件进行交互的编程规范。它提供了强大的对HTML、XHTML和XML文件进行读写操作的应用编程接口(Application programming interface,API)。根据文档对象模型(DOM)的规范,HTML、XHTML和XML文件中的每一个对象被作为一个节点,所有的节点呈树状结构排列。文档模型对象(DOM)的这种树状结构被称为文档模型对象(DOM)树。在本实施例中,使用文档模型对象(DOM)的树状结构对所述代表页面进行解析,并从所述代表页面中获取代表图片集合。
目前,互联网上大多数的网页都使用HTML语言。为了获取所述实体站点的代表图片,对所述代表页面进行解析,获取所述代表页面的文档对象模型(DOM)树。
在子步骤S132中,遍历所述文档对象模型(DOM)树,根据所述代表页面的内容将所述代表页面分成不同的内容块。
文档节点是HTML页面的文档对象模型(DOM)树的根节点。可以根据所述代表页面的文档节点的子节点的分布将所述代表页面的文档对象模型(DOM)树拆分成多个子树,其中,每一个子树对应于所述代表页面的一块显示区块。所述显示区块被称为所述代表页面的内容块。也就是说,通过将所述代表页面的文档对象模型(DOM)树拆分成多个子树将所述代表页面分成不同的内容块。
在子步骤S133中,根据内容块的内容特征对不同内容块进行标注,并将被标注为网页核心内容块的内容块作为目标内容块。
在本实施例中,采用内容块分类器对具有不同内容特征的内容块进行标注。所述内容块分类器是依照机器学习的方法训练形成的对网页的内容块进行分类的分类器。所述内容块分类器可以将网页上的内容块标注为“导航栏内容块”、“网页核心内容块”和“联系信息内容块”。
完成对不同内容块的标注后,将所述“网页核心内容块”作为提取所述代表图片的目标内容块。
在子步骤S134中,读取所述目标内容块中像素值大于最小像素阈值的图片,获得代表图片集合。
在所述目标内容块中的图片对象,有的像素值太低,不适合作为所述实体站点的代表图片。为了避免使用像素值太低的图片作为所述实体站点的代表图片,对所述代表图片的像素设置了最低像素阈值。在本实施例的一个优选实施方式中,所述最低像素阈值是1万像素。
选定所述代表页面上的目标内容块后,从所述代表页面的文档对象模型(DOM)树中识别图片对象,读取识别出的图片对象对应的图片,将读取的图片中像素值大于所述最低像素阈值的图片收集起来,组成代表图片集合。
在步骤S140中,获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片。
从所述代表页面的目标内容块中获取的代表图片集合中的图片的内容可能千差万别。但是,由于本实施例的基于位置的服务(LBS)的应用背景,需要从所述代表图片集合中选取图片的内容是建筑的图片作为代表图片。进行所述代表图片的选取的标准是所述代表图片集合中的图片的内容特征。
所述步骤S140包括子步骤S141,采用预先训练得到的图片分类器从代表图片集合中选取图片内容是建筑的概率最大的至少一张图片作为代表图片。
为了按照图片内容对所述代表图片集合中的图片的进行是否建筑图片的区分,采用一个图片分类器。所述图片分类器采用图像模式识别技术对输入的图片的内容是否是建筑进行判断,并输出所述输入图片的内容是建筑的概率值。所述图片分类器需要预先读取大量建筑图片和非建筑图片,并提取建筑图片的共有内容特征训练形成图片分类模型。所述图片分类模型形成后,输入所述图片分类器一张图片,所述图片分类器判断输入的图片的内容是建筑的概率,并输出所述概率。
在子步骤S141中,将获取的代表图片集合中的图片输入至所述图片分类器,所述图片分类器根据预先训练得到的图片分类模型判断所述输入图片的内容是建筑的概率,最后从代表图片集合中选取图片内容是建筑的概率最大的至少一张图片作为代表图片。
本实施例通过从互联网上获取兴趣点的实体站点,从所述实体站点中查找代表页面,从所述代表页面中获取代表图片集合,最后从所述代表图片集合中选取代表图片,实现了基于位置服务中兴趣点代表图片从实体站点的自动获取,整个获取过程无需人工干预,图片获取的准确率高,而且获取的代表图片具有更高的清晰度。
图5示出了本发明的第二实施例。
图5是本发明第二实施例提供的兴趣点代表图片的挖掘方法的流程示意图。参见图5,所述兴趣点代表图片的挖掘方法包括:步骤S510,根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点;步骤S520,根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面,其中,所述代表页面包括所述实体站点的介绍信息;步骤S530,读取所述代表页面,获取代表图片集合;步骤S540,获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片;以及步骤S550,对所述代表图片进行附加处理。
在本实施例中,步骤S510至步骤S540分别于本发明第一实施例中的步骤S110至步骤S140相同,在此不再赘述。
在步骤S550中,对所述代表图片进行附加处理,其中,所述附加处理包括缩放、剪裁、水印去除和边缘锐化。
通过步骤S510至步骤S540获取的代表图片有时不能满足直接在基于位置服务(LBS)的应用中显示的要求,需要对所述代表图片做进一步的附加处理。比如,获取的代表图片的尺寸不符合要求,需要对所述代表图片进行缩放或者剪裁。或者,获取的代表图片中包括水印,需要对所述代表图片中的水印进行去除。再比如,获取的代表图片中建筑与背景之间的界限不明显,需要对所述代表图片进行边缘锐化。
本实施例通过实体站点获取、代表页面查找、代表图片集合获取、代表图片获取和代表图片附加处理,不仅从实体站点上更加准确的获取清晰度更高的代表图片,而且对从实体站点获取的代表图片做进一步的附加图像处理,使得从实体站点上获取的代表图片能够直接在基于位置的服务中应用。
图6是本发明第二实施例提供的兴趣点代表图片的挖掘装置的结构示意图。所述兴趣点代表图片的挖掘装置600包括:实体站点获取模块610,代表页面获取模块620,代表图片集合获取模块630,代表图片获取模块640,以及代表图片附加处理模块650。
所述实体站点获取模块610用于根据兴趣点的名称和地址从互联网上搜索所述兴趣点的实体站点,并将搜索到的实体站点与所述兴趣点关联。所述实体站点获取模块610包括候选站点获取子模块611、现实地址信息获取子模块612和现实地址信息比较子模块613。
所述候选站点获取子模块611用于根据预定义的语义规则对所述兴趣点的名称进行切词,搜索至少一个首页的标题完全包含所述切词结果的站点,组成候选站点集合。
所述现实地址信息获取子模块612用于从候选站点内搜索所述候选站点对应的实体的现实地址信息。由于在所述候选站点内,所述实体的现实地址信息可能显示在所述候选站点的首页上,也可能显示在所述候选站点的联系页上,所以所述现实地址信息获取子模块可以从所述候选站点的首页上获取所述候选站点的现实地址信息,也可以从所述候选站点的联系页上获取所述候选站点的现实地址信息。
所述现实地址信息比较子模块613用于将每个候选站点的现实地址信息与所述兴趣点的地址进行比较,将相似度最高的候选站点作为所述兴趣点的实体站点。对了提高对所述候选站点的现实地址信息的识别效率,所述现实地址信息比较子模块613可以将所述兴趣点的地址与所述候选站点的现实地址信息进行直接比较、全角/半角转换后比较,或者对所述兴趣点的地址进行切词后比较。
所述代表页面获取模块620用于根据所述实体站点的首页上的锚文本查找所述实体站点的一个或多个代表页面。所述代表页面获取模块620包括关键词识别子模块621。
所述关键词识别子模块621用于将所述实体站点的首页上的所有链接中锚文本包含第三关键词的链接所指向的页面作为代表页面。在本实施例的一个优选实施方式中,所述第三关键词是“联系我们”。
在本实施例的一个优选实施方式中,所述代表页面获取模块620还包括锚文本限长子模块622。所述锚文本限长子模块622用于将所述实体站点的首页上锚文本的长度小于第二长度阈值的链接所指向的页面作为代表页面。在本实施例的一个优选实施方式中,所述第二长度阈值的取值是5。
在本实施例的另一个优选实施方式中,所述代表页面获取模块620还包括代表页面去重子模块623。所述代表页面去重子模块623用于如果查找到的代表页面是至少两个,从所述至少两个代表页面中去除重复的代表页面。判定至少两个代表页面是重复页面的方式是比较至少两个代表页面的统一资源定位符(URL)。
所述代表图片集合获取模块630用于读取所述代表页面,获取代表图片集合。所述代表图片集合获取模块630包括代表页面解析子模块631、内容块划分子模块632、目标内容块确定子模块633和代表图片集合获取子模块634。
所述代表页面解析子模块631用于解析所述代表页面,获取所述代表页面的文档对象模型(DOM)树。所述文档对象模型(DOM)是W3G组织公布的用用与HTML文件、XHTML文件和XML文件进行交互的编程规范。利用文档对象模型(DOM)可以对HTML文件、XHTML文件和XML文件内的各种对象进行操作。所述代表页面解析子模块631将所述代表页面解析为文档对象模型(DOM)树,为其他模块从所述代表页面中获取代表图片提供可利用的数据结构。
所述内容划分子模块632用于遍历所述文档对象模型(DOM)树,根据所述代表页面的内容将所述代表页面分成不同的内容块。所述内容划分子模块632通过将所述代表页面的文档对象模型(DOM)树划分为不同的子树,将所述代表页面分成不同的内容块。
所述目标内容块确定子模块633用于根据内容块的内容特征对不同内容块进行标注,并将被标注为网页核心内容块的内容块作为目标内容块。
在根据内容块的内容特征对不同内容块进行标注时,使用了内容块分类器。所述内容块分类器是利用机器学习方法训练的对网页内容块进行标注的分类器。经过所述内容块分类器对不同内容块的标注,将被标注为网页核心内容块的内容块作为目标内容块。
所述代表图片集合获取子模块634用于读取所述目标内容块中像素值大于最小像素阈值的图片,获得代表图片集合。
所述代表图片获取模块640用于获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片。
所述代表图片获取模块640包括代表图片获取子模块641。所述代表图片获取子模块641用于采用预先训练得到的图片分类器从代表图片集合中选取图片内容是建筑的概率最大的至少一张图片作为代表图片。
所述代表图片附加处理模块650用于对所述代表图片进行附加处理,其中,所述附加处理包括缩放、剪裁、水印去除和边缘锐化。
本实施例利用实体站点获取模块、代表页面查找模块、代表图片集合获取模块和代表图片获取模块实现了从实体站点上获取兴趣点的代表图片,与现有技术中从垂直站点中获得代表图片相比较,本实施例获取的图片更加准确,清晰度更高,而且整个代表图片的获取过程不需要人工干预,完全自动。
图7是可以实施本发明实施例的服务器的示意图。所述服务器为数据处理***,图7阐释了服务器的多个组件,并不意味着代表组件连接的任何特定架构和方式。还应当知道具有较少组件或者可能具有较多组件其他数据处理***也可以用于本发明。
如图7所示,服务器A0是数据处理***的一种形式,其可以形成为个人计算机、笔记本计算机、平板电脑、数字媒体播放器、智能移动通信终端等各种终端形式。服务器A0可以包括总线A1。微处理器A2、易失性存储器A3以及非易失性存储器A4均连接到总线A1,某些情况下,服务器还可以包括硬盘存储器A5,这些部件通过总线A1进行数据交换和通信。微处理器A2可以是独立的微处理器,也可以是一个或者多个微处理器集合。总线A1将上述多个组件连接在一起,同时将上述组件连接到显示控制器A6和显示装置以及输入/输出(I/0)装置A7。输入/输出(I/0)装置A7至少包括用于输入语音的语音采集装置和用于进行显示的显示装置,其还可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置A7通过输入/输出控制器A8与***相连。
服务器A0中的易失性存储器A3也称为内存,其具有数据读写速度快的特点,具体地,易失性存储器A3可由动态随机读写存储器(DRAM)实现,动态随机读写存储器需要持续供电以更新或者维持存储器中的数据。
通常而言,非易失性存储器A4是指当电流关掉后,所存储的数据不会消失的存储器,其可以包括例如只读存储器(ROM)、闪存(Flash Memory)等。
总线A1可以包括通过多个本领域公知的桥连接器、控制器和/或适配器,相互连接的一条或者多条总线。在实施例中I/0控制器A8包括用于控制USB***设备的USB(通用串行总线)适配器、用于IEEE1394***设备的IEEE1394控制器或者用于控制蓝牙***设备的蓝牙控制器,以及适用于其它***设备接口标准的***设备控制器。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的通信终端实施,对于语音信息的发送以及接收功能可以集成于同一通信终端上以使得通信终端既可以发送也可以接收语音信息。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (19)

1.一种兴趣点代表图片的挖掘方法,其特征在于,包括:
根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点;
根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面,其中,所述代表页面包括所述实体站点的介绍信息;
读取所述代表页面,获取代表图片集合;以及
获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片。
2.根据权利要求1所述的兴趣点代表图片的挖掘方法,其特征在于,所述根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点包括:
根据预定义的语义规则对所述兴趣点的名称进行切词,搜索至少一个首页的标题完全包含所述切词结果的站点,组成候选站点集合;
获取每个候选站点的现实地址信息,其中,所述现实地址信息是所述候选站点所代表的实体在地图中的实际地址;以及
将每个候选站点的现实地址信息与所述兴趣点的地址进行比较,将相似度最高的候选站点作为所述兴趣点的实体站点。
3.根据权利要求2所述的兴趣点代表图片的挖掘方法,其特征在于,获取每个候选站点的现实地址信息包括:
从所述候选站点的首页中查找第一关键词,并将所述第一关键词后的长度小于第一长度阈值的字符串作为所述候选站点的现实地址信息;或者
通过从所述候选站点的首页上的锚文本中查找第二关键词找到所述候选站点的联系页面,再从所述联系页面中查找第一关键词,将联系页面中查找到的第一关键词后的长度小于第一长度阈值的字符串作为所述候选站点的现实地址信息。
4.根据权利要求1所述的兴趣点代表图片的挖掘方法,其特征在于,所述根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面包括:
将所述实体站点的首页上的锚文本包含第三关键词的链接所指向的页面作为代表页面。
5.根据权利要求4所述的兴趣点代表图片的挖掘方法,其特征在于,所述根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面还包括:
将所述实体站点的首页上锚文本的长度小于第二长度阈值的链接所指向的页面作为代表页面。
6.根据权利要求4所述的兴趣点代表图片的挖掘方法,其特征在于,所述根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面还包括:
如果查找到的代表页面是至少两个,从所述至少两个代表页面中去除重复的代表页面。
7.根据权利要求1所述的兴趣点代表图片的挖掘方法,其特征在于,所述读取所述代表页面,获取代表图片集合包括:
解析所述代表页面,获取所述代表页面的文档对象模型(DOM)树;
遍历所述文档对象模型(DOM)树,根据所述代表页面的内容将所述代表页面分成不同的内容块;
根据内容块的内容特征对不同内容块进行标注,并将被标注为网页核心内容块的内容块作为目标内容块;以及
读取所述目标内容块中像素值大于最小像素阈值的图片,获得代表图片集合。
8.根据权利要求1所述的兴趣点代表图片的挖掘方法,其特征在于,所述获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片包括:
采用预先训练得到的图片分类器从代表图片集合中选取图片内容是建筑的概率最大的至少一张图片作为代表图片。
9.根据权利要求1所述的兴趣点代表图片的挖掘方法,其特征在于,在经过图片过滤获得所述兴趣点的代表图片后,所述方法还包括:
对所述代表图片进行附加处理,其中,所述附加处理包括缩放、剪裁、水印去除和边缘锐化。
10.一种兴趣点代表图片的挖掘装置,其特征在于,包括:
实体站点获取模块,用于根据兴趣点的名称和地址从互联网上获取所述兴趣点对应的实体站点;
代表页面查找模块,用于根据所述实体站点的首页上的锚文本查找所述实体站点的至少一个代表页面,其中,所述代表页面包括所述实体站点的介绍信息;
代表图片集合获取模块,用于读取所述代表页面,获取代表图片集合;以及
代表图片获取模块,用于获取所述代表图片集合中最为符合预定特征的至少一张图片作为所述兴趣点的代表图片。
11.根据权利要求10所述的兴趣点代表图片的挖掘装置,其特征在于,所述实体站点获取模块包括:
候选站点集合生成子模块,用于根据预定义的语义规则对所述兴趣点的名称进行切词,搜索至少一个首页的标题完全包含所述切词结果的站点,组成候选站点集合;
现实地址信息读取子模块,用于获取每个候选站点的现实地址信息,其中,所述现实地址信息是所述候选站点所代表的实体在地图中的实际地址;以及
现实地址信息比较子模块,用于将每个候选站点的现实地址信息与所述兴趣点的地址进行比较,将相似度最高的候选站点作为所述兴趣点的实体站点。
12.根据权利要求11所述的兴趣点代表图片的挖掘装置,其特征在于,所述现实地址信息读取子模块获取每个候选站点的现实地址信息的操作包括:
从所述候选站点的首页中查找第一关键词,并将所述第一关键词后的长度小于第一长度阈值的字符串作为所述候选站点的现实地址信息;或者
通过从所述候选站点的首页上的锚文本中查找第二关键词找到所述候选站点的联系页面,再从所述联系页面中查找第一关键词,将联系页面中查找到的第一关键词后的长度小于第一长度阈值的字符串作为所述候选站点的现实地址信息。
13.根据权利要求10所述的兴趣点代表图片的挖掘装置,其特征在于,所述代表页面查找模块包括:
关键词识别子模块,用于将所述实体站点的首页上的所有链接中锚文本包含第三关键词的链接所指向的页面作为代表页面。
14.根据权利要求13所述的兴趣点代表图片的挖掘装置,其特征在于,所述代表页面查找模块还包括:
锚文本限长子模块,用于将所述实体站点的首页上锚文本的长度小于第二长度阈值的链接所指向的页面作为代表页面。
15.根据权利要求13所述的兴趣点代表图片的挖掘装置,其特征在于,所述代表页面查找模块还包括:
代表页面去重子模块,用于在查找到的代表页面是至少两个时,从所述至少两个代表页面中去除重复的代表页面。
16.根据权利要求10所述的兴趣点代表图片的挖掘装置,其特征在于,所述代表图片集合获取模块包括:
代表页面解析子模块,用于解析所述代表页面,获取所述代表页面的文档对象模型(DOM)树;
内容块划分子模块,用于遍历所述文档对象模型(DOM)树,根据所述代表页面的内容将所述代表页面分成不同的内容块;
目标内容块确定子模块,用于根据内容块的内容特征对不同内容块进行标注,并将被标注为网页核心内容块的内容块作为目标内容块;以及
代表图片集合获取子模块,用于读取所述目标内容块中像素值大于最小像素阈值的图片,获得代表图片集合。
17.根据权利要求10所述的兴趣点代表图片的挖掘装置,其特征在于,所述代表图片获取模块包括:
代表图片获取子模块,用于采用预先训练得到的图片分类器从代表图片集合中选取图片内容是建筑的概率最大的至少一张图片作为代表图片。
18.根据权利要求10所述的兴趣点代表图片的挖掘装置,其特征在于,所述兴趣点代表图片的挖掘装置还包括:
代表图片附加处理模块,用于对所述代表图片进行附加处理,其中,所述附加处理包括缩放、剪裁、水印去除和边缘锐化。
19.一种服务器,其特征在于,所述服务器包括权利要求10-18任一所述的兴趣点代表图片的挖掘装置。
CN201310306642.XA 2013-07-19 2013-07-19 兴趣点代表图片的挖掘方法、装置和服务器 Active CN103399885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310306642.XA CN103399885B (zh) 2013-07-19 2013-07-19 兴趣点代表图片的挖掘方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310306642.XA CN103399885B (zh) 2013-07-19 2013-07-19 兴趣点代表图片的挖掘方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN103399885A true CN103399885A (zh) 2013-11-20
CN103399885B CN103399885B (zh) 2017-02-08

Family

ID=49563515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310306642.XA Active CN103399885B (zh) 2013-07-19 2013-07-19 兴趣点代表图片的挖掘方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN103399885B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104916240A (zh) * 2015-06-11 2015-09-16 张迪 基于北斗定位的导游***
CN105069076A (zh) * 2015-07-31 2015-11-18 北京奇虎科技有限公司 确定官网首页中的地址信息的方法及装置
CN105159885A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN105190619A (zh) * 2013-04-25 2015-12-23 Nec个人电脑株式会社 终端装置以及装置的程序
CN107292302A (zh) * 2016-03-31 2017-10-24 高德信息技术有限公司 检测图片中兴趣点的方法和***
CN107402019A (zh) * 2016-05-19 2017-11-28 北京搜狗科技发展有限公司 一种视频导航的方法、装置及服务器
CN108197203A (zh) * 2017-12-28 2018-06-22 百度在线网络技术(北京)有限公司 一种门脸头图挑选方法、装置、服务器和存储介质
CN110516094A (zh) * 2019-08-29 2019-11-29 百度在线网络技术(北京)有限公司 门类兴趣点数据的去重方法、装置、电子设备及存储介质
CN110609879A (zh) * 2018-06-14 2019-12-24 百度在线网络技术(北京)有限公司 兴趣点判重方法、装置、计算机设备及存储介质
CN111737430A (zh) * 2020-06-16 2020-10-02 北京百度网讯科技有限公司 实体链接方法、装置、设备以及存储介质
CN111832483A (zh) * 2020-07-14 2020-10-27 北京百度网讯科技有限公司 一种兴趣点有效性识别方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100004995A1 (en) * 2008-07-07 2010-01-07 Google Inc. Claiming Real Estate in Panoramic or 3D Mapping Environments for Advertising
CN102521253A (zh) * 2011-11-17 2012-06-27 西安交通大学 一种可视化的网络用户多媒体管理方法
CN102694829A (zh) * 2011-03-23 2012-09-26 腾讯科技(深圳)有限公司 一种展示信息的方法、装置和后台服务器
CN102841920A (zh) * 2012-06-30 2012-12-26 北京百度网讯科技有限公司 一种页面信息提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100004995A1 (en) * 2008-07-07 2010-01-07 Google Inc. Claiming Real Estate in Panoramic or 3D Mapping Environments for Advertising
CN102694829A (zh) * 2011-03-23 2012-09-26 腾讯科技(深圳)有限公司 一种展示信息的方法、装置和后台服务器
CN102521253A (zh) * 2011-11-17 2012-06-27 西安交通大学 一种可视化的网络用户多媒体管理方法
CN102841920A (zh) * 2012-06-30 2012-12-26 北京百度网讯科技有限公司 一种页面信息提取方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105190619A (zh) * 2013-04-25 2015-12-23 Nec个人电脑株式会社 终端装置以及装置的程序
CN105190619B (zh) * 2013-04-25 2019-08-06 Nec个人电脑株式会社 终端装置以及装置的程序
CN104916240B (zh) * 2015-06-11 2018-03-30 辽宁北斗平台科技有限公司 基于北斗定位的导游***
CN104916240A (zh) * 2015-06-11 2015-09-16 张迪 基于北斗定位的导游***
CN105069076A (zh) * 2015-07-31 2015-11-18 北京奇虎科技有限公司 确定官网首页中的地址信息的方法及装置
CN105159885A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN107292302A (zh) * 2016-03-31 2017-10-24 高德信息技术有限公司 检测图片中兴趣点的方法和***
CN107402019A (zh) * 2016-05-19 2017-11-28 北京搜狗科技发展有限公司 一种视频导航的方法、装置及服务器
CN108197203A (zh) * 2017-12-28 2018-06-22 百度在线网络技术(北京)有限公司 一种门脸头图挑选方法、装置、服务器和存储介质
CN110609879A (zh) * 2018-06-14 2019-12-24 百度在线网络技术(北京)有限公司 兴趣点判重方法、装置、计算机设备及存储介质
CN110609879B (zh) * 2018-06-14 2022-11-01 百度在线网络技术(北京)有限公司 兴趣点判重方法、装置、计算机设备及存储介质
CN110516094A (zh) * 2019-08-29 2019-11-29 百度在线网络技术(北京)有限公司 门类兴趣点数据的去重方法、装置、电子设备及存储介质
CN111737430A (zh) * 2020-06-16 2020-10-02 北京百度网讯科技有限公司 实体链接方法、装置、设备以及存储介质
CN111737430B (zh) * 2020-06-16 2024-04-05 北京百度网讯科技有限公司 实体链接方法、装置、设备以及存储介质
CN111832483A (zh) * 2020-07-14 2020-10-27 北京百度网讯科技有限公司 一种兴趣点有效性识别方法、装置、设备以及存储介质
CN111832483B (zh) * 2020-07-14 2024-03-08 北京百度网讯科技有限公司 一种兴趣点有效性识别方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN103399885B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103399885B (zh) 兴趣点代表图片的挖掘方法、装置和服务器
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN109783651B (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
US10452737B2 (en) Identification of content in an electronic document
US9514216B2 (en) Automatic classification of segmented portions of web pages
Sweeney et al. Effective search results summary size and device screen size: Is there a relationship?
US10824628B2 (en) Method, terminal device and storage medium for mining entity description tag
CN102460432B (zh) 选择性内容提取
CN103544178A (zh) 一种用于提供与目标页面相对应的重构页面的方法和设备
CN107656997B (zh) 自然语言处理方法、装置、存储介质及终端设备
CN104598577A (zh) 一种网页正文的提取方法
CN111310693A (zh) 图像中文本的智能标注方法、装置及存储介质
CN110298039B (zh) 事件地的识别方法、***、设备及计算机可读存储介质
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN113239256B (zh) 生成网站签名的方法、识别网站的方法及装置
CN103870501A (zh) 一种自动匹配方法及装置
KR20180035477A (ko) 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
CN112148869B (zh) 文本参考信息生成方法、装置、电子设备及存储介质
CN106033405B (zh) 网络书籍目录完整性检测方法和装置
CN114818688A (zh) 一种文本关键内容提取方法、装置及服务器
CN107622052B (zh) 自然语言处理方法、装置、存储介质及终端设备
CN107203748B (zh) 一种基于内容的网页笔记存储、匹配和还原的方法和装置
CN113922979B (zh) 网络安全设备配置***、配置方法、计算机设备
CN102750344B (zh) 基于知识问答平台的回答排重方法及装置
JP2013149130A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant