CN110162356B - 页面的融合方法、装置、存储介质及电子装置 - Google Patents

页面的融合方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110162356B
CN110162356B CN201810456491.9A CN201810456491A CN110162356B CN 110162356 B CN110162356 B CN 110162356B CN 201810456491 A CN201810456491 A CN 201810456491A CN 110162356 B CN110162356 B CN 110162356B
Authority
CN
China
Prior art keywords
page
keyword
target
similarity
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810456491.9A
Other languages
English (en)
Other versions
CN110162356A (zh
Inventor
高航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810456491.9A priority Critical patent/CN110162356B/zh
Publication of CN110162356A publication Critical patent/CN110162356A/zh
Application granted granted Critical
Publication of CN110162356B publication Critical patent/CN110162356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种页面的融合方法、装置、存储介质及电子装置。其中,该方法包括:从待融合的第一页面中提取第一关键词,以及从待融合的第二页面中提取第二关键词;从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词;根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。本发明解决了相关技术中对页面进行融合时融合效率较低的技术问题。

Description

页面的融合方法、装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种页面的融合方法、装置、存储介质及电子装置。
背景技术
由于互联网页面是用户编辑而成,即用户原创内容(User Generated Content,简称为UGC)方式。所以,对于站点下相同实体的页面就有可能存在冗余页面。例如:百科页面中某明星的信息被用户A编辑形成了一个页面,同时又被用户B编辑形成了另一个页面。由于构建知识库时,需要整合页面信息,以丰富知识库实体信息,所以就需要进行页面融合。现有的页面融合方案采用的是关键字段的完全匹配方式判断页面是否应当融合。
如果采用字段匹配方案,首先,需要对所有页面提取关键字段;然后,依据页面是否拥有相同关键字段进行分桶;最后,依据若干其他辅助信息判断页面是否应当融合。这种方式以人工配置为主,导致了页面的融合效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种页面的融合方法、装置、存储介质及电子装置,以至少解决相关技术中对页面进行融合时融合效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种页面的融合方法,包括:从待融合的第一页面中提取第一关键词,并从待融合的第二页面中提取第二关键词;从所述第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足所述第一目标条件的第二目标关键词,其中,所述第一权重用于指示每个所述第一关键词对所述第一页面的代表性,所述第二权重用于指示每个所述第二关键词对所述第二页面的代表性;根据所述第一目标关键词和所述第二目标关键词确定所述第一页面和所述第二页面的目标页面相似度;在所述目标页面相似度满足第二目标条件的情况下,将所述第一页面和所述第二页面融合。
根据本发明实施例的另一方面,还提供了一种页面的融合装置,包括:第一提取模块,用于从待融合的第一页面中提取第一关键词,并从待融合的第二页面中提取第二关键词;第二提取模块,用于从所述第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足所述第一目标条件的第二目标关键词,其中,所述第一权重用于指示每个所述第一关键词对所述第一页面的代表性,所述第二权重用于指示每个所述第二关键词对所述第二页面的代表性;第一确定模块,用于根据所述第一目标关键词和所述第二目标关键词确定所述第一页面和所述第二页面的目标页面相似度;融合模块,用于在所述目标页面相似度满足第二目标条件的情况下,将所述第一页面和所述第二页面融合。
根据本发明实施例的另一方面,还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。
在本发明实施例中,采用从待融合的第一页面中提取第一关键词,以及从待融合的第二页面中提取第二关键词;从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词;根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合的方式,将从页面中提取的关键词中权重满足第一目标条件的关键词确定为页面的目标关键词,从而从页面中提取出对页面起到代表作用的关键词,根据第一页面和第二页面各自对应的目标关键词确定二者之间的目标页面相似度,如果该目标页面相似度满足第二目标条件,则可以将第一页面和第二页面融合,从而根据能够代表页面的关键词判定页面的相似程度,再将相似程度满足条件的页面融合,在实现了页面的自动融合的同时,根据能够代表页面的关键词确定页面之间的相似度,使得对页面相似性的判定更加准确,从而提高了对页面进行融合的准确度,从而实现了提高对页面进行融合时的融合效率的技术效果,进而解决了相关技术中对页面进行融合时融合效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的页面的融合方法的示意图;
图2是根据本发明实施例的一种可选的页面的融合方法的应用环境示意图;
图3是根据本发明可选的实施方式的一种可选的页面的融合方法的示意图一;
图4是根据本发明可选的实施方式的一种可选的页面的融合方法的示意图二;
图5是根据本发明可选的实施方式的一种可选的页面的融合方法的示意图三;
图6是根据本发明可选的实施方式的一种可选的页面的融合方法的示意图四;
图7是根据本发明可选的实施方式的一种可选的页面的融合方法的示意图五;
图8是根据本发明实施例的一种可选的页面的融合装置的示意图;
图9是根据本发明实施例的一种可选的页面的融合方法的应用场景示意图;以及
图10是根据本发明实施例的一种可选的电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种页面的融合方法,如图1所示,该方法包括:
S102,从待融合的第一页面中提取第一关键词,并从待融合的第二页面中提取第二关键词;
S104,从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词。可选地,在本实施例中,第一权重用于指示每个第一关键词对第一页面的代表性,第二权重用于指示每个第二关键词对第二页面的代表性;
S106,根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;
S108,在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。
可选地,在本实施例中,上述页面的融合方法可以应用于如图2所示的服务器202所构成的硬件环境中。如图2所示,服务器202从待融合的第一页面中提取第一关键词,并从待融合的第二页面中提取第二关键词;从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词,其中,第一权重用于指示每个第一关键词对第一页面的代表性,第二权重用于指示每个第二关键词对第二页面的代表性;根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。
可选地,在本实施例中,上述页面的融合方法可以但不限于应用于对页面进行融合的场景中。其中,上述页面的融合方法可以但不限于应用于各种类型的应用中,例如,在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的,可以但不限于应用于在上述浏览器应用中对网页页面进行融合的场景中,或还可以但不限于应用于在上述多媒体应用中对多媒体资源页面进行融合的场景中,以提高页面融合的融合效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,可以但不限于从页面的简介部分,或页面其他短文本拼接而成的文本中提取关键词。
可选地,在本实施例中,在提取关键词之间,还可以对页面中的文本进行分词,再从分词后得到的词语中提取关键词。
可选地,在本实施例中,权重可以用于指示一个关键词对一个网页的代表性。关键词对应的权重可以但不限于是采用tf-idf算法计算得到的,或者还可以但不限于是采用textrank算法计算得到的,或者,为了同时利用tf-idf算法和textrank算法提取关键词的优点,可以将tf-idf所得的词权重和textrank所得的词权重分别进行归一化处理,然后取二者的平均值作为关键词的权重。
可选地,在本实施例中,使用权重需满足的第一目标条件对页面的关键词进行筛选,从而能够筛选出最能够代表页面的一个或者一些关键词作为目标关键词。第一目标条件可以但不限于为对页面最具代表性的关键词的权重需满足的条件,例如:对页面的代表性最高的N个关键词作为对页面最具代表性的关键词,或者,对页面的代表性落入一定阈值范围内的关键词对页面最具代表性的关键词。
可选地,在本实施例中,可以但不限于通过训练深度学习模型来获取页面之间的相似度,使用标注的样本训练深度学习模型,得到一个输入参数为两组页面的目标关键词,输出参数为两组页面的相似度的模型,称为相似度模型。在确定页面相似度时可以直接将获取到的第一页面的第一目标关键词和第二页面的第二目标关键词输入到相似度模型中,获取到的相似度模型的输出值即为第一页面和第二页面的目标页面相似度。
可选地,在本实施例中,第一关键词和第二关键词可以但不限于分别包括多个关键词,例如:在页面中提取全部具有实际意义的关键词。第一目标关键词和第二目标关键词可以但不限于包括多个词,例如:从页面中提取出全部具有实际意义的词100个,再在这100个词中获取权重较大的30个词作为该页面对应的目标关键词。
可选地,在本实施例中,对第一页面和第二页面的融合可以但不限于是针对页面中包括的实体进行融合。实体融合是指将多个实体的信息进行整合,合并成为一个实体。实体信息可用若干三元组表示{S,P,O},S表示主体,P表示属性,O表示属性值,多实体融合是指在相同主体S的条件下,将所有实体的所有属性P、属性值O合并到一个主体S下的过程。
在一个可选的实施方式中,如图3所示,从待融合的页面A中提取第一关键词(关键词1、关键词2、……、关键词30),并从待融合的页面B中提取第二关键词(关键词a、关键词b、……、关键词m),确定每个第一关键词对应的第一权重,并确定每个第二关键词对应的第二权重,从(关键词1、关键词2、……、关键词30)中提取第一权重满足第一目标条件的第一目标关键词有(关键词3、关键词6、关键词17、关键词22),并从(关键词a、关键词b、……、关键词m)中提取第二权重满足第一目标条件的第二目标关键词有(关键词a、关键词d、关键词g、关键词k),根据(关键词3、关键词6、关键词17、关键词22)和(关键词a、关键词d、关键词g、关键词k)确定第一页面和第二页面的目标页面相似度,在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。
可见,通过上述步骤,将从页面中提取的关键词中权重满足第一目标条件的关键词确定为页面的目标关键词,从而从页面中提取出对页面起到代表作用的关键词,根据第一页面和第二页面各自对应的目标关键词确定二者之间的目标页面相似度,如果该目标页面相似度满足第二目标条件,则可以将第一页面和第二页面融合,从而根据能够代表页面的关键词判定页面的相似程度,再将相似程度满足条件的页面融合,在实现了页面的自动融合的同时,根据能够代表页面的关键词确定页面之间的相似度,使得对页面相似性的判定更加准确,从而提高了对页面进行融合的准确度,从而实现了提高对页面进行融合时的融合效率的技术效果,进而解决了相关技术中对页面进行融合时融合效率较低的技术问题。
作为一种可选的方案,根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度包括:
S1,根据具有对应关系的关键词对和页面相似度,获取第一目标关键词和第二目标关键词对应的页面相似度;
S2,将第一目标关键词和第二目标关键词对应的页面相似度确定为目标页面相似度。
可选地,在本实施例中,可以预先建立关键词对和页面相似度之间的对应关系,再从该对应关系中获取第一目标关键词和第二目标关键词对应的页面相似度,将其确定为目标页面相似度。
可选地,在本实施例中,具有对应关系的关键词对和页面相似度可以但不限于是以表格形式存储的对应关系,以关键词对为key值,以页面相似度为value值,以存储key-value键值对的形式在表格中存储上述对应关系。从表格中查找关键词对对应的页面相似度时,可以查找表格中存储的第一目标关键词对应的键值对,再在这些键值对中查找第二目标关键词对应的value值,将该value值确定为目标页面相似度。
例如:在一个可选的实施方式中,如表1所示,存储了具有对应关系的关键词对和页面相似度,在表格中查找关键词对[(A1,A2,A3,A4,A5,A6,A7),(A2,A3,A5,A7,A9,A10,A19)]对应的页面相似度时,首先查找到第一目标关键词(A1,A2,A3,A4,A5,A6,A7)对应的多个相关目标关键词,以及获取对应的页面相似度,例如包括:[(A1,A2,A3,A5,A6,A7,A8),75%],[(A2,A3,A5,A7,A9,A10,A19),40%],[(A1,A2,A3,A4,A5,A8,A9),62.5%],再从上述对应关系中查找到第二目标关键词(A2,A3,A5,A7,A9,A10,A19)以及对应的页面相似度为40%,则可以将40%确定为目标页面相似度。
表1
Figure BDA0001659798850000081
Figure BDA0001659798850000091
作为一种可选的方案,根据具有对应关系的关键词对和页面相似度,获取第一目标关键词和第二目标关键词对应的页面相似度包括:
S1,将第一目标关键词和第二目标关键词输入相似度模型,其中,相似度模型是使用具有对应关系的关键词对和页面相似度训练深度学习模型得到的模型;
S2,获取相似度模型输出的目标概率值,将目标概率值确定为目标页面相似度,其中,概率值用于指示第一页面和第二页面为相似页面的概率。
可选地,在本实施例中,可以使用具有对应关系的关键词对和页面相似度作为训练样本训练深度学习模型,从而得到以目标关键词为输入参数,以概率值为输出参数的相似度模型,将第一目标关键词和第二目标关键词输入到相似度模型中,获取到相似度模型输出的目标概率值,并将该目标概率值确定为目标页面相似度。
可选地,在本实施例中,上述深度学习模型可以但不限于包括卷积神经网络(Convolutional Neural Network,简称为CNN)模型ZCNN模型是一种前馈神经网络,包括卷积层(convolutional layer)和池化层(pooling layer),它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色的表现。或者,上述深度学习模型可以但不限于包括VGG模型等等。
作为一种可选的方案,在将第一目标关键词和第二目标关键词输入相似度模型之前,还包括:
S1,获取页面样本集合,并按照每个页面的页面标题信息中包括的实体对页面样本集合中的页面进行分桶,得到具有对应关系的实体和页面集合;
S2,分别在每个分桶中对页面集合中的每个页面提取关键词;
S3,分别在每个分桶中将每个页面的关键词中第三权重满足第一目标条件的关键词确定为每个页面对应的关键词集合;
S4,在每个分桶中,将每个页面中关键词集合匹配的页面相似度确定为第一相似度值,并将每个页面中关键词集合不匹配或不完全匹配的页面相似度确定为第二相似度值;
S5,分别在每个分桶中建立匹配的关键词集合和第一相似度值的对应关系,以及不匹配或不完全匹配的关键词集合和第二相似度的对应关系;
S6,分别从每个分桶中获取第一数量的具有对应关系的匹配的关键词集合和第一相似度值,以及第二数量的具有对应关系的不匹配的关键词集合和第二相似度值,得到具有对应关系的关键词对和页面相似度;
S7,使用具有对应关系的关键词对和页面相似度训练深度学习模型得到相似度模型。
可选地,在本实施例中,从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分、可识别的事物。实体可以指人,如教师、学生等,也可以指物,如书、仓库等。其不仅可以指能触及的客观对象,还可以指抽象的事件,如演出、足球赛等。
可选地,在本实施例中,按照页面标题信息中包括的实体对页面样本集合中的页面进行分桶,将相同的实体划分到相同的分桶中,得到具有对应关系的实体和页面集合。再分别从每个分桶中获取训练样本,使得得到的训练样本分布均匀,从而提高了相似度模型的准确率。
可选地,在本实施例中,分别从各个分桶下获取第一数量匹配的页面对作为训练相似度模型的正样本,获取第二数量不匹配的页面对作为训练相似度模型的负样本。
作为一种可选的方案,将每个页面中关键词集合匹配的两个页面对应的页面相似度确定为第一相似度值,并将每个页面中关键词集合不匹配的两个页面对应的页面相似度确定为第二相似度值包括:
S1,从每个关键词集合中提取特征信息;
S2,将特征信息相同的关键词集合确定为匹配的关键词集合,将特征信息不同的关键词集合确定为不匹配的关键词集合;
S3,确定匹配的关键词集合对应第一相似度值,不匹配的关键词集合对应第二相似度值。
可选地,在本实施例中,分别在每个分桶中确定两个页面是否匹配可以但不限于是依据严格条件进行匹配。例如:匹配获取相似种子页时,从相同分桶的实体页面中,提取一部分明确相同的实体页面作为训练数据的正样本。
如图4所示,刘某某的简介页面一和简介页面二均是刘某某的基本信息。为保证页面确实描述的是同一实体,即应当融合,需要使用页面的关键信息作为特征信息,确定其是否能完全匹配。例如,两个页面的“出生日期”和“血型”都完全相同,则确认这两个页面是匹配的,将这两个页面作为相似度计算的正样本。
可选地,在本实施例中,同桶下,随机负采样生成训练集。由于相似度计算只在同名实体页面中进行,为了与相似度预测时保持一致,在选择负样本时也在同名实体页面中进行。与选取相似度页面的正例页面对相对应,选取页面负例时,以页面关键字段(即特征信息)的不匹配作为选择条件。例如:如图5所示,有页面三和页面四两个页面,这两个页面中提取出的“出生日期”和“血型”不完全相同,则确认这两个页面是不匹配的,将这两个页面作为相似度计算的负样本。
可选地,在本实施例中,第一相似度值可以但不限于是1,第二相似度值可以但不限于是0。则训练后得到的相似度模型的输出参数是一个0到1之间的概率值。或者,也可以将第一相似度值设为100,第二相似度值设为0,则训练后得到的相似度模型的输出参数是一个0到100之间的数值,也可以认为是概率值。
需要说明的是,上述第一相似度值和第二相似度值只是一个示例,本实施例中对此不作限定。
可选地,在本实施例中,上述得到的具有对应关系的关键词集合对和相似度值可以用三元组{P1,P2,Label}的形式表示,其中P1、P2是实体页面对应的id,Labe表示页面是否相似,取值为0(不相似)或1(相似),例如{121,122,0}、{121,123,1}。
作为一种可选的方案,使用具有对应关系的关键词对和页面相似度训练深度学习模型得到相似度模型包括:
S1,将匹配的关键词集合和不匹配的关键词集合作为深度学习模型的输入值,将第一相似度值和第二相似度值作为深度学习模型的输出值对深度学习模型进行训练;
S2,将训练后得到的深度学习模型确定为相似度模型。
可选地,在本实施例中,如图6所示,以深度学习模型为CNN模型为例,将上述三元组中的P1和P2对应的页面分别作为CNN模型输入层的两个通道层,然后经过CNN的卷积、池化、全连接等处理后,输出模型预测值,最后与Label计算误差后反向传播。模型整体架构以CNN为主体,将实体页面转化为CNN的两个输入通道。
可选地,在本实施例中,如图7所示,对两个候选页面进行关键词提取,得到N(N等于词向量维度)个关键词,如果页面关键词不足N个,则以特殊字符填充,这样每个页面就可以用关键词代表,然后,以关键词对应的词向量替换关键词,将关键词转化为二维词向量矩阵,最后将二维矩阵进行合并,得到N*N*2的三维矩阵,该三维矩阵对应CNN的输入。这样进行转化,能够有效利用人们的自然语言表述习惯。
作为一种可选的方案,从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词包括:
S1,从第一关键词中提取第一权重高于目标权重的第一目标关键词,并从第二关键词中提取第二权重高于目标权重的第二目标关键词;或者,
S2,按照第一权重从大到小对第一关键词进行排序,并按照第二权重从大到小对第二关键词进行排序;从排序后的第一关键词中提取排位在前第三数量的关键词作为第一目标关键词,并从排序后的第二关键词中提取排位在前第三数量的关键词作为第二目标关键词。
可选地,在本实施例中,第一目标条件可以是一个阈值范围,或者,也可以是一个排序的范围。以提取第一目标关键词为例,第一关键词(关键词1、关键词2、……、关键词30)对应的第一权重分别为0.7、0.4、……、0.88,一种方式可以是提取第一权重高于0.65的第一关键词作为第一目标关键词,则获取到的第一目标关键词为关键词1、关键词5、关键词10、……、关键词30。另一中方式可以是按第一权重从大到小的顺序对第一关键词进行排序:关键词30、关键词7、关键词28、……、关键词2,从排序后的第一关键词中提取排位在前10的关键词作为所述第一目标关键词,则获取到的第一目标关键词可能为:关键词30、关键词7、关键词28、关键词3、关键词17、关键词9、关键词22、关键词14、关键词3、关键词6。
作为一种可选的方案,目标页面相似度满足第二目标条件包括:
S1,在目标页面相似度越高表示第一页面和第二页面越相似的情况下,确定目标页面相似度高于第一目标相似度为目标页面相似度满足第二目标条件;或者,
S2,在目标页面相似度越低表示第一页面和第二页面越相似的情况下,确定目标页面相似度低于第二目标相似度为目标页面相似度满足第二目标条件。
可选地,在本实施例中,将两个较为相似的页面进行融合,则根据目标页面相似度所表示的含义确定能够融合的页面需满足的第二目标条件。如果目标页面相似度高表示两个页面相似,则可以融合的页面的相似度需高于第一目标相似度,如果目标页面相似度低表示两个页面相似,则可以融合的页面的相似度需低于第二目标相似度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述页面的融合方法的页面的融合装置,如图8所示,该装置包括:
第一提取模块82,用于从待融合的第一页面中提取第一关键词,以及从待融合的第二页面中提取第二关键词;
第二提取模块84,用于从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词。可选地,在本实施例中,第一权重用于指示每个第一关键词对第一页面的代表性,第二权重用于指示每个第二关键词对第二页面的代表性;
第一确定模块86,用于根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;
融合模块88,用于在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。
可选地,在本实施例中,上述页面的融合装置可以应用于如图2所示的服务器202所构成的硬件环境中。如图2所示,服务器202从待融合的第一页面中提取第一关键词,并从待融合的第二页面中提取第二关键词;从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词,其中,第一权重用于指示每个第一关键词对第一页面的代表性,第二权重用于指示每个第二关键词对第二页面的代表性;根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。
可选地,在本实施例中,上述页面的融合装置可以但不限于应用于对页面进行融合的场景中。其中,上述页面的融合装置可以但不限于应用于各种类型的应用中,例如,在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的,可以但不限于应用于在上述浏览器应用中对网页页面进行融合的场景中,或还可以但不限于应用于在上述多媒体应用中对多媒体资源页面进行融合的场景中,以提高页面融合的融合效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,可以但不限于从页面的简介部分,或页面其他短文本拼接而成的文本中提取关键词。
可选地,在本实施例中,在提取关键词之间,还可以对页面中的文本进行分词,再从分词后得到的词语中提取关键词。
可选地,在本实施例中,权重可以用于指示一个关键词对一个网页的代表性。关键词对应的权重可以但不限于是采用tf-idf算法计算得到的,或者还可以但不限于是采用textrank算法计算得到的,或者,为了同时利用tf-idf算法和textrank算法提取关键词的优点,可以将tf-idf所得的词权重和textrank所得的词权重分别进行归一化处理,然后取二者的平均值作为关键词的权重。
可选地,在本实施例中,使用权重需满足的第一目标条件对页面的关键词进行筛选,从而能够筛选出最能够代表页面的一个或者一些关键词作为目标关键词。第一目标条件可以但不限于为对页面最具代表性的关键词的权重需满足的条件,例如:对页面的代表性最高的N个关键词作为对页面最具代表性的关键词,或者,对页面的代表性落入一定阈值范围内的关键词对页面最具代表性的关键词。
可选地,在本实施例中,可以但不限于通过训练深度学习模型来获取页面之间的相似度,使用标注的样本训练深度学习模型,得到一个输入参数为两组页面的目标关键词,输出参数为两组页面的相似度的模型,称为相似度模型。在确定页面相似度时可以直接将获取到的第一页面的第一目标关键词和第二页面的第二目标关键词输入到相似度模型中,获取到的相似度模型的输出值即为第一页面和第二页面的目标页面相似度。
可选地,在本实施例中,第一关键词和第二关键词可以但不限于分别包括多个关键词,例如:在页面中提取全部具有实际意义的关键词。第一目标关键词和第二目标关键词可以但不限于包括多个词,例如:从页面中提取出全部具有实际意义的词100个,再在这100个词中获取权重较大的30个词作为该页面对应的目标关键词。
可选地,在本实施例中,对第一页面和第二页面的融合可以但不限于是针对页面中包括的实体进行融合。实体融合是指将多个实体的信息进行整合,合并成为一个实体。实体信息可用若干三元组表示{S,P,O},S表示主体,P表示属性,O表示属性值,多实体融合是指在相同主体S的条件下,将所有实体的所有属性P、属性值O合并到一个主体S下的过程。
在一个可选的实施方式中,如图3所示,从待融合的页面A中提取第一关键词(关键词1、关键词2、……、关键词30),并从待融合的页面B中提取第二关键词(关键词a、关键词b、……、关键词m),确定每个第一关键词对应的第一权重,并确定每个第二关键词对应的第二权重,从(关键词1、关键词2、……、关键词30)中提取第一权重满足第一目标条件的第一目标关键词有(关键词3、关键词6、关键词17、关键词22),并从(关键词a、关键词b、……、关键词m)中提取第二权重满足第一目标条件的第二目标关键词有(关键词a、关键词d、关键词g、关键词k),根据(关键词3、关键词6、关键词17、关键词22)和(关键词a、关键词d、关键词g、关键词k)确定第一页面和第二页面的目标页面相似度,在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。
可见,通过上述装置,将从页面中提取的关键词中权重满足第一目标条件的关键词确定为页面的目标关键词,从而从页面中提取出对页面起到代表作用的关键词,根据第一页面和第二页面各自对应的目标关键词确定二者之间的目标页面相似度,如果该目标页面相似度满足第二目标条件,则可以将第一页面和第二页面融合,从而根据能够代表页面的关键词判定页面的相似程度,再将相似程度满足条件的页面融合,在实现了页面的自动融合的同时,根据能够代表页面的关键词确定页面之间的相似度,使得对页面相似性的判定更加准确,从而提高了对页面进行融合的准确度,从而实现了提高对页面进行融合时的融合效率的技术效果,进而解决了相关技术中对页面进行融合时融合效率较低的技术问题。
作为一种可选的方案,第一确定模块包括:
获取单元,用于根据具有对应关系的关键词对和页面相似度,获取第一目标关键词和第二目标关键词对应的页面相似度;
第一确定单元,用于将第一目标关键词和第二目标关键词对应的页面相似度确定为目标页面相似度。
可选地,在本实施例中,可以预先建立关键词对和页面相似度之间的对应关系,再从该对应关系中获取第一目标关键词和第二目标关键词对应的页面相似度,将其确定为目标页面相似度。
可选地,在本实施例中,具有对应关系的关键词对和页面相似度可以但不限于是以表格形式存储的对应关系,以关键词对为key值,以页面相似度为value值,以存储key-value键值对的形式在表格中存储上述对应关系。从表格中查找关键词对对应的页面相似度时,可以查找表格中存储的第一目标关键词对应的键值对,再在这些键值对中查找第二目标关键词对应的value值,将该value值确定为目标页面相似度。
例如:在一个可选的实施方式中,如表2所示,存储了具有对应关系的关键词对和页面相似度,在表格中查找关键词对[(A1,A2,A3,A4,A5,A6,A7),(A2,A3,A5,A7,A9,A10,A19)]对应的页面相似度时,首先查找到第一目标关键词(A1,A2,A3,A4,A5,A6,A7)对应的相关目标关键词,以及获取对应的页面相似度,例如包括:[(A1,A2,A3,A5,A6,A7,A8),75%],[(A2,A3,A5,A7,A9,A10,A19),40%],[(A1,A2,A3,A4,A5,A8,A9),62.5%],再从上述对应关系中查找到第二目标关键词(A2,A3,A5,A7,A9,A10,A19)以及获得对应的页面相似度为40%,则可以将40%确定为目标页面相似度。
表2
Figure BDA0001659798850000191
作为一种可选的方案,获取单元包括:
输入子单元,用于将第一目标关键词和第二目标关键词输入相似度模型,其中,相似度模型是使用具有对应关系的关键词对和页面相似度训练深度学习模型得到的模型;
获取子单元,用于获取相似度模型输出的目标概率值,将目标概率值确定为目标页面相似度,其中,概率值用于指示第一页面和第二页面为相似页面的概率。
可选地,在本实施例中,可以使用具有对应关系的关键词对和页面相似度作为训练样本训练深度学习模型,从而得到以目标关键词为输入参数,以概率值为输出参数的相似度模型,将第一目标关键词和第二目标关键词输入到相似度模型中,获取到相似度模型输出的目标概率值,并将该目标概率值确定为目标页面相似度。
可选地,在本实施例中,上述深度学习模型可以但不限于包括卷积神经网络(Convolutional Neural Network,简称为CNN)模型。CNN模型是一种前馈神经网络,包括卷积层(convolutional layer)和池化层(pooling layer),它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色的表现。或者,上述深度学习模型可以但不限于包括VGG模型等等。
作为一种可选的方案,上述装置还包括:
处理模块,用于获取页面样本集合,并按照每个页面的页面标题信息中包括的实体对页面样本集合中的页面进行分桶,得到具有对应关系的实体和页面集合;
第三提取模块,用于分别在每个分桶中对页面集合中的每个页面提取关键词;
第二确定模块,用于分别在每个分桶中将每个页面的关键词中第三权重满足第一目标条件的关键词确定为每个页面对应的关键词集合;
第三确定模块,用于在每个分桶中,将每个页面中关键词集合匹配的页面相似度确定为第一相似度值,并将每个页面中关键词集合不匹配或不完全匹配的页面相似度确定为第二相似度值;
建立模块,用于分别在每个分桶中建立匹配的关键词集合和第一相似度值的对应关系,以及不匹配或不完全匹配的关键词集合和第二相似度的对应关系;
获取模块,用于分别从每个分桶中获取第一数量的具有对应关系的匹配的关键词集合和第一相似度值,以及第二数量的具有对应关系的不匹配的关键词集合和第二相似度值,得到具有对应关系的关键词对和页面相似度;
训练模块,用于使用具有对应关系的关键词对和页面相似度训练深度学习模型得到相似度模型。
可选地,在本实施例中,从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分、可识别的事物。实体可以指人,如教师、学生等,也可以指物,如书、仓库等。其不仅可以指能触及的客观对象,还可以指抽象的事件,如演出、足球赛等。
可选地,在本实施例中,按照页面标题信息中包括的实体对页面样本集合中的页面进行分桶,将相同的实体划分到相同的分桶中,得到具有对应关系的实体和页面集合。再分别从每个分桶中获取训练样本,使得得到的训练样本分布均匀,从而提高了相似度模型的准确率。
可选地,在本实施例中,分别从各个分桶下获取第一数量匹配的页面对作为训练相似度模型的正样本,获取第二数量不匹配的页面对作为训练相似度模型的负样本。
作为一种可选的方案,第三确定模块包括:
提取单元,用于从每个关键词集合中提取特征信息;
第二确定单元,用于将特征信息相同的关键词集合确定为匹配的关键词集合,将特征信息不同的关键词集合确定为不匹配的关键词集合;
第三确定单元,用于确定匹配的关键词集合对应第一相似度值,不匹配的关键词集合对应第二相似度值。
可选地,在本实施例中,分别在每个分桶中确定两个页面是否匹配可以但不限于是依据严格条件进行匹配。例如:匹配获取相似种子页时,从相同分桶的实体页面中,提取一部分明确相同的实体页面作为训练数据的正样本。如图4所示,刘某某的简介页面一和简介页面二均是刘某某的基本信息。为保证页面确实描述的是同一实体,即应当融合,需要使用页面的关键信息作为特征信息,确定其是否能完全匹配。例如,两个页面的“出生日期”和“血型”都完全相同,则确认这两个页面是匹配的,将这两个页面作为相似度计算的正样本。
可选地,在本实施例中,同桶下,随机负采样生成训练集。由于相似度计算只在同名实体页面中进行,为了与相似度预测时保持一致,在选择负样本时也在同名实体页面中进行。与选取相似度页面的正例页面对相对应,选取页面负例时,以页面关键字段(即特征信息)的不匹配作为选择条件。例如:如图5所示,有页面三和页面四两个页面,这两个页面中提取出的“出生日期”和“血型”不完全相同,则确认这两个页面是不匹配的,将这两个页面作为相似度计算的负样本。
可选地,在本实施例中,第一相似度值可以但不限于是1,第二相似度值可以但不限于是0。则训练后得到的相似度模型的输出参数是一个0到1之间的概率值。或者,也可以将第一相似度值设为100,第二相似度值设为0,则训练后得到的相似度模型的输出参数是一个0到100之间的数值,也可以认为是概率值。
需要说明的是,上述第一相似度值和第二相似度值只是一个示例,本实施例中对此不作限定。
可选地,在本实施例中,上述得到的具有对应关系的关键词集合对和相似度值可以用三元组{P1,P2,Label}的形式表示,其中P1、P2是实体页面对应的id,Labe表示页面是否相似,取值为0(不相似)或1(相似),例如{121,122,0}、{121,123,1}。
作为一种可选的方案,训练模块包括:
训练单元,用于将匹配的关键词集合和不匹配的关键词集合作为深度学习模型的输入值,将第一相似度值和第二相似度值作为深度学习模型的输出值对深度学习模型进行训练;
第四确定单元,用于将训练后得到的深度学习模型确定为相似度模型。
可选地,在本实施例中,如图6所示,以深度学习模型为CNN模型为例,将上述三元组中的P1和P2对应的页面分别作为CNN模型输入层的两个通道层,然后经过CNN的卷积、池化、全连接等处理后,输出模型预测值,最后与Label计算误差后反向传播。模型整体架构以CNN为主体,将实体页面转化为CNN的两个输入通道。
可选地,在本实施例中,如图7所示,对两个候选页面进行关键词提取,得到N(N等于词向量维度)个关键词,如果页面关键词不足N个,则以特殊字符填充,这样每个页面就可以用关键词代表,然后,以关键词对应的词向量替换关键词,将关键词转化为二维词向量矩阵,最后将二维矩阵进行合并,得到N*N*2的三维矩阵,该三维矩阵对应CNN的输入。这样进行转化,能够有效利用人们的自然语言表述习惯。
作为一种可选的方案,第二提取模块包括:
第一提取单元,用于从第一关键词中提取第一权重高于目标权重的第一目标关键词,并从第二关键词中提取第二权重高于目标权重的第二目标关键词;或者,
第二提取单元,用于按照第一权重从大到小对第一关键词进行排序,并按照第二权重从大到小对第二关键词进行排序;从排序后的第一关键词中提取排位在前第三数量的关键词作为第一目标关键词,并从排序后的第二关键词中提取排位在前第三数量的关键词作为第二目标关键词。
可选地,在本实施例中,第一目标条件可以是一个阈值范围,或者,也可以是一个排序的范围。以提取第一目标关键词为例,第一关键词(关键词1、关键词2、……、关键词30)对应的第一权重分别为0.7、0.4、……、0.88,一种方式可以是提取第一权重高于0.65的第一关键词作为第一目标关键词,则获取到的第一目标关键词为关键词1、关键词5、关键词10、……、关键词30。另一中方式可以是按第一权重从大到小的顺序对第一关键词进行排序:关键词30、关键词7、关键词28、……、关键词2,从排序后的第一关键词中提取排位在前10的关键词作为所述第一目标关键词,则获取到的第一目标关键词可能为:关键词30、关键词7、关键词28、关键词3、关键词17、关键词9、关键词22、关键词14、关键词3、关键词6。
作为一种可选的方案,融合模块用于:
在目标页面相似度越高表示第一页面和第二页面越相似的情况下,确定目标页面相似度高于第一目标相似度为目标页面相似度满足第二目标条件;或者,
在目标页面相似度越低表示第一页面和第二页面越相似的情况下,确定目标页面相似度低于第二目标相似度为目标页面相似度满足第二目标条件。
可选地,在本实施例中,将两个较为相似的页面进行融合,则根据目标页面相似度所表示的含义确定能够融合的页面需满足的第二目标条件。如果目标页面相似度高表示两个页面相似,则可以融合的页面的相似度需高于第一目标相似度,如果目标页面相似度低表示两个页面相似,则可以融合的页面的相似度需低于第二目标相似度。
本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境,本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。
作为一种可选的实施例,上述页面的融合方法可以但不限于应用于如图9所示的对页面进行融合的场景中。在本场景中,如图9所示,对页面进行融合的过程包括如下步骤:
步骤1,页面按照标题中实体名进行分桶。
步骤2,对页面文本分词,提取关键词。对实体页面的简介部分,或页面其他短文本拼接而成的文本,采用分词后的关键词提取,按照词的权重排序,取头部重要词作为页面的代表。
步骤3,依据严格条件,获取相似种子页。为了提取模型的训练数据,从相同分桶的实体页面中,提取一部分明确相同的实体页面作为训练数据的正样本。
步骤4,同桶下,随机负采样生成训练集。在选择负样本时也在同名实体页面中进行。与选取相似度页面的正例页面pair相对应,选取页面负例时,以页面关键字段的不匹配作为选择条件。
步骤5,训练CNN模型。有了步骤3与步骤4的正负样本,就可以开始进行模型的训练。并可以使用训练后的模型对页面进行融合。
根据本发明实施例的又一个方面,还提供了一种用于实施上述页面的融合的电子装置,如图10所示,该电子装置包括:一个或多个(图中仅示出一个)处理器1002、存储器1004、传感器1006、编码器1008以及传输装置1010,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从待融合的第一页面中提取第一关键词,以及从待融合的第二页面中提取第二关键词;
S2,从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词;
S3,根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;
S4,在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的页面的融合方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标组件的控制方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1010包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1010为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器1002用于存储应用程序。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,从待融合的第一页面中提取第一关键词,以及从待融合的第二页面中提取第二关键词;
S2,从第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足第一目标条件的第二目标关键词;
S3,根据第一目标关键词和第二目标关键词确定第一页面和第二页面的目标页面相似度;
S4,在目标页面相似度满足第二目标条件的情况下,将第一页面和第二页面融合。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种页面的融合方法,其特征在于,包括:
从待融合的第一页面中提取第一关键词,以及从待融合的第二页面中提取第二关键词;
从所述第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足所述第一目标条件的第二目标关键词;
在每个分桶中建立匹配的关键词集合和第一相似度值的对应关系,以及不匹配或不完全匹配的关键词集合和第二相似度值的对应关系,得到具有对应关系的关键词对和页面相似度,其中,按照每个页面的页面标题信息中包括的实体对页面样本集合中的页面进行分桶;
使用所述具有对应关系的关键词对和页面相似度训练深度学习模型得到相似度模型;
将所述第一目标关键词和所述第二目标关键词输入所述相似度模型以确定所述第一页面和所述第二页面的目标页面相似度;
在所述目标页面相似度满足第二目标条件的情况下,将所述第一页面和所述第二页面融合。
2.根据权利要求1所述的方法,其特征在于,将所述第一目标关键词和所述第二目标关键词输入相似度模型以确定所述第一页面和所述第二页面的目标页面相似度包括:
根据具有对应关系的关键词对和页面相似度,获取所述第一目标关键词和所述第二目标关键词对应的页面相似度;
将所述第一目标关键词和所述第二目标关键词对应的页面相似度确定为所述目标页面相似度。
3.根据权利要求2所述的方法,其特征在于,根据具有对应关系的关键词对和页面相似度,获取所述第一目标关键词和所述第二目标关键词对应的页面相似度包括:
将所述第一目标关键词和所述第二目标关键词输入所述相似度模型;
获取所述相似度模型输出的目标概率值,将所述目标概率值确定为所述目标页面相似度,其中,所述概率值用于指示所述第一页面和所述第二页面为相似页面的概率。
4.根据权利要求3所述的方法,其特征在于,所述得到具有对应关系的关键词对和页面相似度包括:
获取所述页面样本集合,并按照每个页面的页面标题信息中包括的实体对所述页面样本集合中的页面进行分桶,得到具有对应关系的实体和页面集合;
分别在每个分桶中对所述页面集合中的每个页面提取关键词;
分别在所述每个分桶中将所述每个页面的关键词中第三权重满足所述第一目标条件的关键词确定为所述每个页面对应的关键词集合;
在所述每个分桶中,将所述每个页面中所述关键词集合匹配的页面相似度确定为所述第一相似度值,并将所述每个页面中所述关键词集合不匹配或不完全匹配的页面相似度确定为所述第二相似度值;
分别从所述每个分桶中获取第一数量的具有对应关系的匹配的关键词集合和第一相似度值,以及第二数量的具有对应关系的不匹配的关键词集合和第二相似度值,得到所述具有对应关系的关键词对和页面相似度。
5.根据权利要求4所述的方法,其特征在于,将所述每个页面中所述关键词集合匹配的两个页面对应的页面相似度确定为第一相似度值,并将所述每个页面中所述关键词集合不匹配的两个页面对应的页面相似度确定为第二相似度值包括:
从每个所述关键词集合中提取特征信息;
将所述特征信息相同的关键词集合确定为匹配的关键词集合,将所述特征信息不同的关键词集合确定为不匹配的关键词集合;
确定匹配的关键词集合对应所述第一相似度值,不匹配的关键词集合对应所述第二相似度值。
6.根据权利要求5所述的方法,其特征在于,使用所述具有对应关系的关键词对和页面相似度训练深度学习模型得到相似度模型包括:
将所述匹配的关键词集合和所述不匹配的关键词集合作为所述深度学习模型的输入值,将所述第一相似度值和所述第二相似度值作为所述深度学习模型的输出值对所述深度学习模型进行训练;
将训练后得到的深度学习模型确定为所述相似度模型。
7.根据权利要求1所述的方法,其特征在于,从所述第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足所述第一目标条件的第二目标关键词包括:
从所述第一关键词中提取所述第一权重高于目标权重的第一目标关键词,并从第二关键词中提取第二权重高于所述目标权重的第二目标关键词;或者,
按照所述第一权重从大到小对所述第一关键词进行排序,并按照所述第二权重从大到小对所述第二关键词进行排序;从排序后的所述第一关键词中提取排位在前第三数量的关键词作为所述第一目标关键词,并从排序后的所述第二关键词中提取排位在前所述第三数量的关键词作为所述第二目标关键词。
8.根据权利要求1所述的方法,其特征在于,所述目标页面相似度满足所述第二目标条件包括:
在所述目标页面相似度越高表示所述第一页面和所述第二页面越相似的情况下,确定所述目标页面相似度高于第一目标相似度为所述目标页面相似度满足所述第二目标条件;或者,
在所述目标页面相似度越低表示所述第一页面和所述第二页面越相似的情况下,确定所述目标页面相似度低于第二目标相似度为所述目标页面相似度满足所述第二目标条件。
9.一种页面的融合装置,其特征在于,包括:
第一提取模块,用于从待融合的第一页面中提取第一关键词,以及从待融合的第二页面中提取第二关键词;
第二提取模块,用于从所述第一关键词中提取第一权重满足第一目标条件的第一目标关键词,并从第二关键词中提取第二权重满足所述第一目标条件的第二目标关键词;
建立模块,用于在每个分桶中建立匹配的关键词集合和第一相似度值的对应关系,以及不匹配的关键词集合和第二相似度的对应关系,得到具有对应关系的关键词对和页面相似度,其中,按照每个页面的页面标题信息中包括的实体对页面样本集合中的页面进行分桶;
训练模块,用于使用所述具有对应关系的关键词对和页面相似度训练深度学习模型得到相似度模型;
第一确定模块,用于将所述第一目标关键词和所述第二目标关键词输入所述相似度模型以确定所述第一页面和所述第二页面的目标页面相似度;
融合模块,用于在所述目标页面相似度满足第二目标条件的情况下,将所述第一页面和所述第二页面融合。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块包括:
获取单元,用于根据具有对应关系的关键词对和页面相似度,获取所述第一目标关键词和所述第二目标关键词对应的页面相似度;
第一确定单元,用于将所述第一目标关键词和所述第二目标关键词对应的页面相似度确定为所述目标页面相似度。
11.根据权利要求10所述的装置,其特征在于,所述获取单元包括:
输入子单元,用于将所述第一目标关键词和所述第二目标关键词输入所述相似度模型;
获取子单元,用于获取所述相似度模型输出的目标概率值,将所述目标概率值确定为所述目标页面相似度,其中,所述概率值用于指示所述第一页面和所述第二页面为相似页面的概率。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
处理模块,用于获取所述页面样本集合,并按照每个页面的页面标题信息中包括的实体对所述页面样本集合中的页面进行分桶,得到具有对应关系的实体和页面集合;
第三提取模块,用于分别在每个分桶中对所述页面集合中的每个页面提取关键词;
第二确定模块,用于分别在所述每个分桶中将所述每个页面的关键词中第三权重满足所述第一目标条件的关键词确定为所述每个页面对应的关键词集合;
第三确定模块,用于分别在所述每个分桶中将所述每个页面中所述关键词集合匹配的两个页面对应的页面相似度确定为所述第一相似度值,并将所述每个页面中所述关键词集合不匹配的两个页面对应的页面相似度确定为所述第二相似度值;
获取模块,用于分别从所述每个分桶中获取第一数量的具有对应关系的匹配的关键词集合和第一相似度值,以及第二数量的具有对应关系的不匹配的关键词集合和第二相似度值,得到所述具有对应关系的关键词对和页面相似度。
13.根据权利要求12所述的装置,其特征在于,第三确定模块包括:
提取单元,用于从每个所述关键词集合中提取特征信息;
第二确定单元,用于将所述特征信息相同的关键词集合确定为匹配的关键词集合,将所述特征信息不同的关键词集合确定为不匹配的关键词集合;
第三确定单元,用于确定匹配的关键词集合对应所述第一相似度值,不匹配的关键词集合对应所述第二相似度值。
14.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
CN201810456491.9A 2018-05-14 2018-05-14 页面的融合方法、装置、存储介质及电子装置 Active CN110162356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810456491.9A CN110162356B (zh) 2018-05-14 2018-05-14 页面的融合方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810456491.9A CN110162356B (zh) 2018-05-14 2018-05-14 页面的融合方法、装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110162356A CN110162356A (zh) 2019-08-23
CN110162356B true CN110162356B (zh) 2021-09-28

Family

ID=67644902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810456491.9A Active CN110162356B (zh) 2018-05-14 2018-05-14 页面的融合方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110162356B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4431744B2 (ja) * 2004-06-07 2010-03-17 独立行政法人情報通信研究機構 Webページ情報融合表示装置、Webページ情報融合表示方法、Webページ情報融合表示プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN101706790A (zh) * 2009-09-18 2010-05-12 浙江大学 搜索引擎中包含web对象的聚类方法
CN102323954A (zh) * 2011-09-14 2012-01-18 杨继能 一种通过内置辅助浏览视窗整合网页资源的搜索引擎技术
CN102693304A (zh) * 2012-05-22 2012-09-26 北京邮电大学 一种搜索引擎的反馈信息处理方法及搜索引擎
CN103246719A (zh) * 2013-04-27 2013-08-14 北京交通大学 一种基于Web的网络信息资源整合方法
CN103345476A (zh) * 2013-06-09 2013-10-09 北京百度网讯科技有限公司 用于确定与目标页面相对应的呈现信息的方法与设备
CN103744683A (zh) * 2014-01-24 2014-04-23 中科创达软件股份有限公司 一种信息融合方法和装置
CN103902596A (zh) * 2012-12-28 2014-07-02 中国电信股份有限公司 高频页面内容聚类方法和***
CN103955529A (zh) * 2014-05-12 2014-07-30 中国科学院计算机网络信息中心 一种互联网信息搜索聚合呈现方法
CN105159881A (zh) * 2015-08-28 2015-12-16 北京奇艺世纪科技有限公司 一种聚合页面中数据模块的方法及装置
CN106303613A (zh) * 2015-06-29 2017-01-04 中兴通讯股份有限公司 页面融合方法及装置
CN106407195A (zh) * 2015-07-28 2017-02-15 北京京东尚科信息技术有限公司 用于网页消重的方法和***
CN107577671A (zh) * 2017-09-19 2018-01-12 中央民族大学 一种基于多特征融合的主题词提取方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4431744B2 (ja) * 2004-06-07 2010-03-17 独立行政法人情報通信研究機構 Webページ情報融合表示装置、Webページ情報融合表示方法、Webページ情報融合表示プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN101706790A (zh) * 2009-09-18 2010-05-12 浙江大学 搜索引擎中包含web对象的聚类方法
CN102323954A (zh) * 2011-09-14 2012-01-18 杨继能 一种通过内置辅助浏览视窗整合网页资源的搜索引擎技术
CN102693304A (zh) * 2012-05-22 2012-09-26 北京邮电大学 一种搜索引擎的反馈信息处理方法及搜索引擎
CN103902596A (zh) * 2012-12-28 2014-07-02 中国电信股份有限公司 高频页面内容聚类方法和***
CN103246719A (zh) * 2013-04-27 2013-08-14 北京交通大学 一种基于Web的网络信息资源整合方法
CN103345476A (zh) * 2013-06-09 2013-10-09 北京百度网讯科技有限公司 用于确定与目标页面相对应的呈现信息的方法与设备
CN103744683A (zh) * 2014-01-24 2014-04-23 中科创达软件股份有限公司 一种信息融合方法和装置
CN103955529A (zh) * 2014-05-12 2014-07-30 中国科学院计算机网络信息中心 一种互联网信息搜索聚合呈现方法
CN106303613A (zh) * 2015-06-29 2017-01-04 中兴通讯股份有限公司 页面融合方法及装置
CN106407195A (zh) * 2015-07-28 2017-02-15 北京京东尚科信息技术有限公司 用于网页消重的方法和***
CN105159881A (zh) * 2015-08-28 2015-12-16 北京奇艺世纪科技有限公司 一种聚合页面中数据模块的方法及装置
CN107577671A (zh) * 2017-09-19 2018-01-12 中央民族大学 一种基于多特征融合的主题词提取方法

Also Published As

Publication number Publication date
CN110162356A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110781668B (zh) 文本信息的类型识别方法及装置
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111611801B (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN109992781B (zh) 文本特征的处理方法、装置和存储介质
CN113486173B (zh) 文本标注神经网络模型及其标注方法
CN113590854B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN111563192A (zh) 实体对齐方法、装置、电子设备及存储介质
CN113761105A (zh) 文本数据处理方法、装置、设备以及介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN114281984A (zh) 一种风险检测方法、装置、设备及计算机可读存储介质
CN114398973B (zh) 一种媒体内容标签识别方法、装置、设备及存储介质
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN114281934A (zh) 文本识别方法、装置、设备及存储介质
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN110162356B (zh) 页面的融合方法、装置、存储介质及电子装置
CN115129908A (zh) 一种模型优化方法、装置、设备、存储介质及程序产品
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN116414938A (zh) 一种知识点标注方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant