CN110889020B - 站点资源挖掘方法、装置以及电子设备 - Google Patents
站点资源挖掘方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN110889020B CN110889020B CN201911157986.2A CN201911157986A CN110889020B CN 110889020 B CN110889020 B CN 110889020B CN 201911157986 A CN201911157986 A CN 201911157986A CN 110889020 B CN110889020 B CN 110889020B
- Authority
- CN
- China
- Prior art keywords
- retrieval
- site
- intention
- score
- sites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005065 mining Methods 0.000 title claims abstract description 40
- 230000014509 gene expression Effects 0.000 claims abstract description 76
- 238000012216 screening Methods 0.000 claims abstract description 13
- 230000006399 behavior Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 235000013372 meat Nutrition 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 235000004936 Bromus mango Nutrition 0.000 description 2
- 241001093152 Mangifera Species 0.000 description 2
- 235000014826 Mangifera indica Nutrition 0.000 description 2
- 235000009184 Spondias indica Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 235000015277 pork Nutrition 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000651994 Curio Species 0.000 description 1
- 241000233805 Phoenix Species 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种站点资源挖掘方法、装置以及电子设备,涉及资源挖掘领域。具体实现方案为:对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;获取同一检索意图下的至少一个待选站点,以及各待选站点的分数;根据各待选站点的分数选择符合检索意图的待选站点。通过选取同一检索意图下的至少一个待选站点,根据各个待选站点的分数,筛选符合检索意图的站点。针对某一检索意图的站点进行挖掘,提高了符合检索意图的站点挖掘的准确率,降低了资源挖掘工作量。
Description
技术领域
本申请涉及一种大数据领域,尤其涉及一种资源挖掘领域。
背景技术
用户点击资源,可能是用户被展示的局部信息吸引,而进入查看内容,并不能说明此资源符合用户的搜索目的。不是资源点击量越高,用户需求满足的就越好。目前筛选符合检索目的的资源的方式,通常都是基于用户点击等行为特征来筛选符合检索目的的资源。然而,用户对资源的点击量越大,资源就是符合检索目的的资源,这种仅仅通过点击量来挖掘的资源并不一定是真正符合用户检索目的的资源。
发明内容
本申请实施例提供一种站点资源挖掘方法、装置以及电子设备,以解决现有技术中的一个或多个技术问题。
在第一方面,本申请实施例提供了一种站点资源挖掘方法,包括:…
对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;
获取同一检索意图下的至少一个待选站点,以及各待选站点的分数;
根据各待选站点的分数选择符合检索意图的待选站点。
在本实施方式中,通过选取同一检索意图下的至少一个待选站点,根据各个待选站点的分数,筛选符合检索意图的站点。针对某一检索意图的站点进行挖掘,提高了符合检索意图的站点挖掘的准确率,降低了资源挖掘工作量。
在一种实施方式中,对多个检索表达进行聚类,每类检索表达各自对应同一检索意图,包括:
根据多个检索表达以及各检索表达的输入时间,生成检索行为时间向量;
利用时间滑动窗口作用于检索行为时间向量,确定检索意图的持续时间;
根据检索意图的持续时间对多个检索表达进行聚类,确定每类检索表达各自对应的同一检索意图。
在本实施方式中,利用时间滑动窗口确定检索意图的持续时间,根据检索意图的持续时间对检索表达聚类,能够加快聚类速度,提高聚类的精确度。
在一种实施方式中,获取同一检索意图下的至少一个待选站点,包括:
获取同一检索意图下的多个站点,以及各站点的切换时间;
筛选出切换时间大于切换时间阈值的站点,得到有效站点;
有效站点的被点击的时间点大于同一检索意图的持续时间内的时间点阈值,且有效站点的切换时间大于切换时间均值的情况下,确定有效站点为同一检索意图下的待选站点。
在本实施方式中,通过对用户在检索过程中涉及的各个站点进行初步筛选,得到同一检索意图下的有效站点,并且在有效站点中确定出同一检索意图下的待选站点,能够有效避免无效站点对同一检索意图下的待选站点的确定有不好的影响,提高确定同一检索意图下的待选站点的准确率。
在一种实施方式中,获取各待选站点的分数,包括:
获取待选站点的投票数,作为绝对分数;
计算待选站点的投票数和同一检索意图的投票数的比值,得到相对分数;
其中,待选站点的第一分数包括绝对分数和相对分数中的一种。
在本实施方式中,在每一相同检索意图下,根据计算得到的待选站点的分数,对待选站点重新排序,以便于优先展示分数高的待选站点。
在一种实施方式中,获取各待选站点的分数,还包括:
在同一检索意图下的各待选站点之间的第一分数的差值小于误差的情况下,获取与同一检索意图相似的检索意图为相似检索意图,并计算同一检索意图与相似检索意图的相似度;
计算相似检索意图的投票数与相似度的乘积,乘积与待选站点的投票数之和,得到待选站点的第二分数。
在本实施方式中,在每一相似检索意图下,根据计算得到的待选站点的分数,对待选站点重新排序,优先展示分数高的待选站点。通过相似检索意图,来辅助选择符合原始检索意图的站点,进一步提高站点挖掘的准确率。
在一种实施方式中,根据各待选站点的分数选择符合检索意图的待选站点,包括:
选择第一分数大于分数阈值的待选站点,或第二分数大于分数阈值的待选站点,作为符合检索意图的待选站点。
第二方面,本申请实施例提供了一种站点资源挖掘装置,包括:
检索表达聚类模块,用于对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;
待选站点获取模块,用于获取同一检索意图下的至少一个待选站点;
待选站点分数获取模块,用于获取各待选站点的分数;
待选站点选择模块,用于根据各待选站点的分数选择符合检索意图的待选站点。
在一种实施方式中,检索表达聚类模块包括:
向量生成子模块,用于根据多个检索表达以及各检索表达的输入时间,生成检索行为时间向量;
持续时间确定子模块,用于利用时间滑动窗口作用于检索行为时间向量,确定检索意图的持续时间;
意图确定子模块,用于根据检索意图的持续时间对多个检索表达进行聚类,确定每类检索表达各自对应的同一检索意图。
在一种实施方式中,待选站点获取模块包括:
切换时间获取子模块,用于获取同一检索意图下的多个站点,以及各站点的切换时间;
有效站点筛选子模块,用于筛选出切换时间大于切换时间阈值的站点,得到有效站点;
待选站点确定子模块,用于有效站点的被点击的时间点大于同一检索意图的持续时间内的时间点阈值,且有效站点的切换时间大于切换时间均值的情况下,确定有效站点为同一检索意图下的待选站点。
在一种实施方式中,待选站点分数获取模块包括:
第一分数计算子模块,用于获取待选站点的投票数,作为绝对分数;计算待选站点的投票数和同一检索意图的投票数的比值,得到相对分数;其中,待选站点的第一分数包括绝对分数和相对分数中的一种。
在一种实施方式中,待选站点分数获取模块还包括:
意图相似度计算子模块,用于在同一检索意图下的各待选站点之间的第一分数的差值小于误差的情况下,获取与同一检索意图相似的检索意图为相似检索意图,并计算同一检索意图与相似检索意图的相似度;
第二分数计算子模块,用于计算相似检索意图的投票数与相似度的乘积,乘积与待选站点的投票数之和,得到待选站点的第二分数。
在一种实施方式中,待选站点选择模块包括:
选择子模块,用于选择第一分数大于分数阈值的待选站点,或第二分数大于分数阈值的待选站点,作为符合检索意图的待选站点。
上述申请中的一个实施例具有如下优点或有益效果:因为利用获取同一检索意图下的各个待选站点,以及各个待选站点的分数,根据待选站点的分数选择符合检索意图的站点的技术手段,所以克服了现有技术中仅以站点点击量确定检索意图的站点,导致站点检索并不准确的技术问题,达到了提高针对用户的检索意图的站点挖掘的准确率,降低资源挖掘工作量的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提供的一种站点资源挖掘方法流程示意图;
图2是根据本申请实施例提供的另一种站点资源挖掘方法流程示意图;
图3是根据本申请实施例提供的检索表达聚类过程的场景示意图;
图4是根据本申请实施例提供的另一检索表达聚类过程的场景示意图;
图5是根据本申请实施例提供的检索表达聚类结果矩形图;
图6是根据本申请实施例提供的检索表达聚类结果图;
图7是根据本申请实施例提供的一种站点资源挖掘装置结构框图;
图8是根据本申请实施例提供的另一种站点资源挖掘装置结构框图;
图9是用来实现本申请实施例的一种站点资源挖掘方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一
在一种具体实施方式中,如图1所示,提供了一种站点资源挖掘方法,包括:
步骤S10:对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;
步骤S20:获取同一检索意图下的至少一个待选站点,以及各待选站点的分数;
步骤S30:根据各待选站点的分数选择符合检索意图的待选站点。
在一种示例中,检索意图是用户的最终检索目的。由于同一检索意图可能对应用户在检索过程中输入的多种检索表达,所以,用户在每天或者每小时内输入各种检索表达的情况下,将检索表达进行聚类,以便根据每类检索表达得到对应的检索意图。聚类算法可以选用凝聚层次聚类算法(Hierarchical Clustering)。例如,检索意图是“红烧肉的最佳做法”,检索表达可能包括“肉怎么做”、“红烧肉用什么肉好吃”、“怎么做红烧肉最好吃”等。可以通过用户的检索行为找到符合同一检索意图的网站的站点资源,作为待选站点。
检索行为可以包括对网站的点击、停留、回退、下次点击以及浏览行为等。在找到检索意图对应的网站站点之前,用户可能点击浏览了很多其它网站站点,经过多次跳转之后,最终在符合检索意图的网站上找到要搜索的内容。例如,检索意图是“观看电视剧人民的名义”,经过“人民的名义百度百科”、“优酷视频”、“人民的名义剧情介绍”、“芒果TV”、“爱奇艺”、“人民的名义剧情介绍”、“腾讯视频”、“凤凰新闻网”、“人民的名义演员介绍”等几个站点之后,进入到“哔哩哔哩”网站中人民的名义进行观看。待选站点可以包括停留时间较长的“芒果TV”、“优酷视频”、“爱奇艺”、“腾讯视频”视频网站的站点。获取同一检索意图下的各个待选站点的分数,待选站点的分数可以包括待选站点的投票数。如果投票数大于阈值,说明检索意图在该待选站点中有效播放量较多。
本实施方式提出的站点资源挖掘方法,通过选取同一检索意图下的至少一个待选站点,根据各个待选站点的分数,筛选符合检索意图的站点。针对某一检索意图的站点进行挖掘,提高了符合检索意图的站点挖掘的准确率,降低了资源挖掘工作量。
在一种实施方式中,如图2所示,步骤S10包括:
步骤S101:根据多个检索表达以及各检索表达的输入时间,生成检索行为时间向量;
步骤S102:利用时间滑动窗口作用于所述检索行为时间向量,确定检索意图的持续时间;
步骤S103:根据所述检索意图的持续时间对多个检索表达进行聚类,确定每类检索表达各自对应的同一检索意图。
在本实施方式中,获取用户输入的各个检索表达,记录各检索表达的出现时间,形成检索表达和时间的队列,即检索行为时间向量。嵌套的时间滑动窗口作用于检索行为时间向量时,确定检索意图的持续时间,即从开始检索到达到检索目的的持续时长。根据检索意图的持续时间,对检索意图分为长时间的检索意图和短时间的检索意图。可以定义找到符合检索意图的待选站点,所持续的检索时长在1小时以上,这个检索意图就是长时间的检索意图。可以定义找到符合检索意图的待选站点,所持续的检索时长可以在1小时之内,这个检索意图就是短时间的检索意图。例如,第一个用户用了5分钟检索找到符合检索意图的待选站点,这个检索意图就是短时间检索意图。第二个用户用了2小时找到符合检索意图的待选站点,这个检索意图就是长时间检索意图。当然,长时间意图检索和短时间意图检索中定义的检索时长可根据实际情况进行适应性调整,均在本实施方式的保护范围内。然后,根据检索意图的持续时间对多个检索表达进行聚类。获取每天的多个检索表达,利用小时级别的窗口确定出符合长时间意图检索的多个检索表达,将符合长时间意图的多个检索表达按照检索意图聚类。获取每小时的多个检索表达,利用分钟级的窗口确定出符合短时间意图检索的多个检索表达,将符合短时间意图检索的多个检索表达进行聚类。
在一种示例中,聚类的具体步骤可以包括:首先将每一个数据点P即检索表达看作单一的簇,如图3所示,P0-P6六簇数据点,即六个检索表达。然后选择测量两个簇之间距离的度量标准,例如平均距离,它将两个簇之间的距离定义为第一个簇中的数据点与第二个簇中的数据点之间的平均距离。每次迭代时,将两个具有最小平均距离的两个簇,合并成为一个簇。例如,如图4所示,将数据点P5和P6合并为一个簇。然后,重复迭代步骤,直至所有的数据点合并成一个簇,选择需要的簇。图3和图4中的横纵轴分别是将检索表达转换为向量的向量维度。如图5所示,纵轴表示向量之间的距离。最终将P0-P6六个簇的数据点,分为三类。如图6所示,聚类结果包括第一类检索表达即第一检索意图:电脑重装***,第二类检索表达即第二检索意图:手机刷***,第三类检索表达即第三检索意图:更换XX型号手机教程。
本实施方式提供的利用时间滑动窗口确定检索意图的持续时间,根据检索意图的持续时间对检索表达聚类,能够加快聚类速度,提高聚类的精确度。
在一种实施方式中,如图2所示,步骤S20中,获取同一检索意图下的至少一个待选站点,包括:
步骤S201:获取同一检索意图下的多个站点,以及各站点的切换时间;
步骤S202:筛选出切换时间大于切换时间阈值的站点,得到有效站点;
步骤S203:有效站点的被点击的时间点大于同一检索意图的持续时间内的时间点阈值,且有效站点的切换时间大于切换时间均值的情况下,确定有效站点为同一检索意图下的待选站点。
本实施方式中,由于有的站点,在用户向检索意图目标进行检索过程中,跳转的并不相关的网页,是无效站点,所以,需要筛选出同一检索意图下的有效站点。同一检索意图下的站点是否有效,可以通过获取站点的切换时间来确定,将切换时间大于切换时间阈值的站点保留,得到有效站点。其中,时间阈值的求法:T=时间均值*(1-C/标准差),其中,C为常量,与检索表达所属垂类相关,标准差其中,N是一次检索过程中涉及站点总数,xi是检索行为在某一站点的停留时间(站点的切换时间),μ是xi的均值。如果检索行为在有效站点发生的时间点在检索过程中的前期或者中期,说明同一个检索意图,用户并未获取满意的站点,检索就停止了。如果检索行为在有效站点发生的时间点,位于检索过程中的后期,即有效站点的被点击的时间点大于时间阈值,并且检索行为在有效站点的停留时间大于检索行为在各个有效站点的平均停留时间,或者,有效站点的切换时间大于切换时间均值,说明同一个检索意图,此站点为用户满意的站点,是同一检索意图下的待选站点。在最后一次检索后停止检索的情况下,表明用户获取了满意的站点。
本实施方式中,通过对用户在检索过程中涉及的各个站点进行初步筛选,得到同一检索意图下的有效站点,并且在有效站点中确定出同一检索意图下的待选站点,能够有效避免无效站点对同一检索意图下的待选站点的确定有不好的影响,提高确定同一检索意图下的待选站点的准确率。
在一种实施方式中,如图2所示,步骤S20中,获取各待选站点的分数,包括:
步骤S204:获取待选站点的投票数,作为绝对分数;
步骤S205:计算待选站点的投票数和同一检索意图的投票数的比值,得到相对分数,其中,待选站点的第一分数包括绝对分数和相对分数中的一种。
在本实施方式中,待选站点的分数可以包括相对分数和绝对分数,相对分数=待选站点的投票人数/该检索意图下投票总人数,绝对分数=待选站点的投票人数。在一种示例中,计算得到的“优酷视频”待选站点的相对分数为80/120、“爱奇艺”待选站点的相对分数为70/120、“腾讯视频”待选站点的相对分数为60/120。根据分数对此三个待选站点进行排序,序列为“优酷视频”、“爱奇艺”、“腾讯视频”,可以取分数最高的待选站点“优酷视频”作为符合检索意图的站点。
在本实施方式中,在每一相同检索意图下,根据计算得到的待选站点的分数,对待选站点重新排序,以便于优先展示分数高的待选站点。
在一种实施方式中,如图2所示,步骤S20中,获取各待选站点的分数,还包括:
步骤S206:在同一检索意图下的各待选站点之间的第一分数的差值小于误差的情况下,获取与同一检索意图相似的检索意图为相似检索意图,并计算同一检索意图与相似检索意图的相似度;
步骤S207:计算相似检索意图的投票数与相似度的乘积,乘积与待选站点的投票数之和,得到待选站点的第二分数。
在一种示例中,当同一检索意图下的各个待选站点的第一分数之间区分度不足的时候,例如,绝对分数差或相对分数差小于误差10%,引入相似检索意图的分数作为辅助。确定相似检索意图的方法可以包括:根据文本距离分析意图的相似性,或者根据检索结果中站点重复率分析意图结果的相似性。例如,原始检索意图(A检索意图)为“红烧肉的南方做法”,相似检索意图(B检索意图)为“红烧肉的北方做法”。用户带着A检索意图搜索,浏览网页之后最终在W站点结束。另一用户带着B检索意图搜索,浏览网页之后也在W站点结束。从搜索开始到结束的站点重合度越高,两个检索意图越相似。最后共同结束的站点为W站点为满足相似检索意图的站点。相似检索意图下的待选站点的分数(第二分数)=原始检索意图下的待选站点的分数(绝对分数)+相似度*相似检索意图的投票分值。相似检索意图下各个待选站点的分数计算出来后,与原始检索意图的待选站点筛选方式类似,在此不再赘述。
本实施方式中,在每一相似检索意图下,根据计算得到的待选站点的分数,对待选站点重新排序,优先展示分数高的待选站点。通过相似检索意图,来辅助选择符合原始检索意图的站点,进一步提高站点挖掘的准确率。
在一种实施方式中,如图2所示,步骤S30,包括:
步骤S301:选择第一分数大于分数阈值的待选站点,或第二分数大于分数阈值的待选站点,作为符合检索意图的待选站点。
实施例二
在另一种具体实施方式中,如图7所示,提供了一种站点资源挖掘装置100,包括:
检索表达聚类模块110,用于对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;
待选站点获取模块120,用于获取同一检索意图下的至少一个待选站点;
待选站点分数获取模块130,用于获取各待选站点的分数;
待选站点选择模块140,用于根据各待选站点的分数选择符合检索意图的待选站点。
在一种实施方式中,如图8所示,提供了一种站点资源挖掘装置200,检索表达聚类模块110包括:
向量生成子模块111,用于根据多个检索表达以及各检索表达的输入时间,生成检索行为时间向量;
持续时间确定子模块112,用于利用时间滑动窗口作用于检索行为时间向量,确定检索意图的持续时间;
意图确定子模块113,用于根据检索意图的持续时间对多个检索表达进行聚类,确定每类检索表达各自对应的同一检索意图。
在一种实施方式中,待选站点获取模块120包括:
切换时间获取子模块121,用于获取同一检索意图下的多个站点,以及各站点的切换时间;
有效站点筛选子模块122,用于筛选出切换时间大于切换时间阈值的站点,得到有效站点;
待选站点确定子模块123,用于有效站点的被点击的时间点大于同一检索意图的持续时间内的时间点阈值,且有效站点的切换时间大于切换时间均值的情况下,确定有效站点为同一检索意图下的待选站点。
在一种实施方式中,待选站点分数获取模块130包括:
第一分数计算子模块131,用于获取待选站点的投票数,作为绝对分数;计算待选站点的投票数和同一检索意图的投票数的比值,得到相对分数;其中,待选站点的第一分数包括绝对分数和相对分数中的一种。
在一种实施方式中,待选站点分数获取模块130还包括:
意图相似度计算子模块132,用于在同一检索意图下的各待选站点之间的第一分数的差值小于误差的情况下,获取与同一检索意图相似的检索意图为相似检索意图,并计算同一检索意图与相似检索意图的相似度;
第二分数计算子模块133,用于计算相似检索意图的投票数与相似度的乘积,乘积与待选站点的投票数之和,得到待选站点的第二分数。
在一种实施方式中,待选站点选择模块140包括:
选择子模块141,用于选择第一分数大于分数阈值的待选站点,或第二分数大于分数阈值的待选站点,作为符合检索意图的待选站点。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的一种站点资源挖掘的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface,GUI)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图9中以一个处理器901为例。
存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的一种站点资源挖掘方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的一种站点资源挖掘方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的一种站点资源挖掘方法对应的程序指令/模块(例如,附图7所示的检索表达聚类模块110、待选站点获取模块120、待选站点分数获取模块130、待选站点选择模块140)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的一种站点资源挖掘方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据一种站点资源挖掘方法的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至一种站点资源挖掘方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一种站点资源挖掘方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与一种站点资源挖掘方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(Liquid Cr9stal Displa9,LCD)、发光二极管(LightEmitting Diode,LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用集成电路(Application Specific Integrated Circuits,ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(programmable logic device,PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode Ra9Tube,阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,因为获取同一检索意图下的各个待选站点,以及各个待选站点的分数,根据待选站点的分数来确定待选站点的站点序列,进而选择位于站点序列符合检索意图的站点的技术手段,所以克服了现有技术中仅以站点点击量确定检索意图的站点,导致站点检索并不准确的技术问题,达到了提高针对用户的检索意图的站点挖掘的准确率,降低资源挖掘工作量的技术效果。…
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种站点资源挖掘方法,其特征在于,包括:
对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;
获取同一检索意图下的至少一个待选站点,以及各所述待选站点的分数;
根据各所述待选站点的分数选择符合所述检索意图的待选站点;
其中,所述对多个检索表达进行聚类,每类检索表达各自对应同一检索意图,包括:
根据多个检索表达以及各检索表达的输入时间,生成检索行为时间向量;
利用时间滑动窗口作用于所述检索行为时间向量,确定检索意图的持续时间;
根据所述检索意图的持续时间对多个检索表达进行聚类,确定每类检索表达各自对应的同一检索意图;
所述检索意图为用户的检索目的,所述检索意图的持续时间为从开始检索到达到所述检索目的的持续时长。
2.根据权利要求1所述的方法,其特征在于,获取同一检索意图下的至少一个待选站点,包括:
获取同一检索意图下的多个站点,以及各所述站点的切换时间;
筛选出所述切换时间大于切换时间阈值的站点,得到有效站点;
所述有效站点的被点击的时间点大于所述同一检索意图的持续时间内的时间点阈值,且所述有效站点的切换时间大于切换时间均值的情况下,确定所述有效站点为所述同一检索意图下的待选站点。
3.根据权利要求1所述的方法,其特征在于,获取各所述待选站点的分数,包括:
获取所述待选站点的投票数,作为绝对分数;
计算所述待选站点的投票数和所述同一检索意图的投票数的比值,得到相对分数;
其中,所述待选站点的第一分数包括所述绝对分数和所述相对分数中的一种。
4.根据权利要求3所述的方法,其特征在于,获取各所述待选站点的分数,还包括:
在所述同一检索意图下的各待选站点之间的第一分数的差值小于误差的情况下,获取与所述同一检索意图相似的检索意图为相似检索意图,并计算所述同一检索意图与所述相似检索意图的相似度;
计算所述相似检索意图的投票数与所述相似度的乘积,所述乘积与所述待选站点的投票数之和,得到所述待选站点的第二分数。
5.根据权利要求4所述的方法,其特征在于,根据各所述待选站点的分数选择符合所述检索意图的待选站点,包括:
选择所述第一分数大于分数阈值的待选站点,或所述第二分数大于所述分数阈值的待选站点,作为符合所述检索意图的待选站点。
6.一种站点资源挖掘装置,其特征在于,包括:
检索表达聚类模块,用于对多个检索表达进行聚类,每类检索表达各自对应同一检索意图;
待选站点获取模块,用于获取同一检索意图下的至少一个待选站点;
待选站点分数获取模块,用于获取各所述待选站点的分数;
待选站点选择模块,用于根据各所述待选站点的分数选择符合所述检索意图的待选站点;
其中,所述检索表达聚类模块包括:
向量生成子模块,用于根据多个检索表达以及各检索表达的输入时间,生成检索行为时间向量;
持续时间确定子模块,用于利用时间滑动窗口作用于所述检索行为时间向量,确定检索意图的持续时间;
意图确定子模块,用于根据所述检索意图的持续时间对多个检索表达进行聚类,确定每类检索表达各自对应的同一检索意图;
所述检索意图为用户的检索目的,所述检索意图的持续时间为从开始检索到达到所述检索目的的持续时长。
7.根据权利要求6所述的装置,其特征在于,所述待选站点获取模块包括:
切换时间获取子模块,用于获取同一检索意图下的多个站点,以及各所述站点的切换时间;
有效站点筛选子模块,用于筛选出所述切换时间大于切换时间阈值的站点,得到有效站点;
待选站点确定子模块,用于所述有效站点的被点击的时间点大于所述同一检索意图的持续时间内的时间点阈值,且所述有效站点的切换时间大于切换时间均值的情况下,确定所述有效站点为所述同一检索意图下的待选站点。
8.根据权利要求6所述的装置,其特征在于,所述待选站点分数获取模块包括:
第一分数计算子模块,用于获取所述待选站点的投票数,作为绝对分数;计算所述待选站点的投票数和所述同一检索意图的投票数的比值,得到相对分数;其中,所述待选站点的第一分数包括所述绝对分数和所述相对分数中的一种。
9.根据权利要求8所述的装置,其特征在于,所述待选站点分数获取模块还包括:
意图相似度计算子模块,用于在所述同一检索意图下的各待选站点之间的第一分数的差值小于误差的情况下,获取与所述同一检索意图相似的检索意图为相似检索意图,并计算所述同一检索意图与所述相似检索意图的相似度;
第二分数计算子模块,用于计算所述相似检索意图的投票数与所述相似度的乘积,所述乘积与所述待选站点的投票数之和,得到所述待选站点的第二分数。
10.根据权利要求9所述的装置,其特征在于,所述待选站点选择模块包括:
选择子模块,用于选择所述第一分数大于分数阈值的待选站点,或所述第二分数大于所述分数阈值的待选站点,作为符合所述检索意图的待选站点。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911157986.2A CN110889020B (zh) | 2019-11-22 | 2019-11-22 | 站点资源挖掘方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911157986.2A CN110889020B (zh) | 2019-11-22 | 2019-11-22 | 站点资源挖掘方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110889020A CN110889020A (zh) | 2020-03-17 |
CN110889020B true CN110889020B (zh) | 2022-08-23 |
Family
ID=69748514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911157986.2A Active CN110889020B (zh) | 2019-11-22 | 2019-11-22 | 站点资源挖掘方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110889020B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11941073B2 (en) * | 2019-12-23 | 2024-03-26 | 97th Floor | Generating and implementing keyword clusters |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279786A (zh) * | 2011-08-25 | 2011-12-14 | 百度在线网络技术(北京)有限公司 | 一种监测应用程序有效访问量的方法及装置 |
CN102982137A (zh) * | 2012-11-16 | 2013-03-20 | 北京百度网讯科技有限公司 | 资源的搜索方法、***和装置 |
CN104199855A (zh) * | 2014-08-13 | 2014-12-10 | 王和平 | 一种针对中医药学信息的检索***和方法 |
CN105808641A (zh) * | 2016-02-24 | 2016-07-27 | 百度在线网络技术(北京)有限公司 | 线下资源的挖掘方法和装置 |
CN108304441A (zh) * | 2017-11-14 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 网络资源推荐方法、装置、电子设备、服务器及存储介质 |
CN108537599A (zh) * | 2018-04-17 | 2018-09-14 | 北京三快在线科技有限公司 | 基于关键词聚合的查询反馈方法、装置以及存储介质 |
CN109388739A (zh) * | 2017-08-03 | 2019-02-26 | 合信息技术(北京)有限公司 | 多媒体资源的推荐方法及装置 |
CN109508414A (zh) * | 2018-11-13 | 2019-03-22 | 北京奇艺世纪科技有限公司 | 一种同义词挖掘方法及装置 |
-
2019
- 2019-11-22 CN CN201911157986.2A patent/CN110889020B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279786A (zh) * | 2011-08-25 | 2011-12-14 | 百度在线网络技术(北京)有限公司 | 一种监测应用程序有效访问量的方法及装置 |
CN102982137A (zh) * | 2012-11-16 | 2013-03-20 | 北京百度网讯科技有限公司 | 资源的搜索方法、***和装置 |
CN104199855A (zh) * | 2014-08-13 | 2014-12-10 | 王和平 | 一种针对中医药学信息的检索***和方法 |
CN105808641A (zh) * | 2016-02-24 | 2016-07-27 | 百度在线网络技术(北京)有限公司 | 线下资源的挖掘方法和装置 |
CN109388739A (zh) * | 2017-08-03 | 2019-02-26 | 合信息技术(北京)有限公司 | 多媒体资源的推荐方法及装置 |
CN108304441A (zh) * | 2017-11-14 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 网络资源推荐方法、装置、电子设备、服务器及存储介质 |
CN108537599A (zh) * | 2018-04-17 | 2018-09-14 | 北京三快在线科技有限公司 | 基于关键词聚合的查询反馈方法、装置以及存储介质 |
CN109508414A (zh) * | 2018-11-13 | 2019-03-22 | 北京奇艺世纪科技有限公司 | 一种同义词挖掘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110889020A (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11714816B2 (en) | Information search method and apparatus, device and storage medium | |
CN110955764B (zh) | 场景知识图谱的生成方法、人机对话方法以及相关设备 | |
JP7194163B2 (ja) | マルチメディアリソースの推薦方法、マルチメディアリソースの推薦装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラム | |
US20210209155A1 (en) | Method And Apparatus For Retrieving Video, Device And Medium | |
CN111104514A (zh) | 文档标签模型的训练方法及装置 | |
CN110674406A (zh) | 推荐方法、装置、电子设备及存储介质 | |
US11343572B2 (en) | Method, apparatus for content recommendation, electronic device and storage medium | |
KR20210038467A (ko) | 이벤트 테마 생성 방법, 장치, 기기 및 저장 매체 | |
CN110427436B (zh) | 实体相似度计算的方法及装置 | |
CN111680189A (zh) | 影视剧内容检索方法和装置 | |
CN110532404B (zh) | 一种源多媒体确定方法、装置、设备及存储介质 | |
CN111832613A (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN110851726B (zh) | 兴趣点选择方法、装置以及电子设备 | |
CN111309872A (zh) | 搜索处理方法、装置及设备 | |
CN111984775A (zh) | 问答质量确定方法、装置、设备和存储介质 | |
CN110889020B (zh) | 站点资源挖掘方法、装置以及电子设备 | |
CN113111216B (zh) | 广告推荐方法、装置、设备和存储介质 | |
CN111026916B (zh) | 文本描述的转换方法、装置、电子设备及存储介质 | |
CN112650919A (zh) | 实体资讯分析方法、装置、设备及存储介质 | |
CN111666417A (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
CN111310044A (zh) | 页面元素信息的提取方法、装置、设备和存储介质 | |
CN111177479A (zh) | 获取关系网络图中节点的特征向量的方法以及装置 | |
CN112446728B (zh) | 广告召回方法、装置、设备及存储介质 | |
CN111523036B (zh) | 一种搜索行为挖掘方法、装置和电子设备 | |
CN111325006B (zh) | 一种信息交互方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |