CN105138558B

CN105138558B - 基于用户访问内容的实时个性化信息采集方法

Info

Publication number: CN105138558B
Application number: CN201510435878.2A
Authority: CN
Inventors: 曹叶文; 王鹏达
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2018-05-22
Anticipated expiration: 2035-07-22
Also published as: CN105138558A

Abstract

本发明公开了一种基于用户访问内容的实时个性化信息采集方法，步骤如下：通过实时分析用户网络请求获取当前种子页面，并提取网页的结构化信息；根据网页的结构化信息从多角度提取主题关键词；组成主题关键词词条；提取当前种子页面的子链接的锚文本，依据主题关键词词条对锚文本进行分词，并依据分词后的结果建立向量空间模型，根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性；并把主题相关性大于设定阈值的子链接判定为有效子链接；建立链接主题分类库，进行种子链接优先级设定和当前种子链接主题分类；计算链接主题分类库中所有子链接的重要性，并依据重要性对子链接进行排序，并进行排序后相应页面信息的下载和数据存储。

Description

基于用户访问内容的实时个性化信息采集方法

技术领域

本发明涉及一种基于用户访问内容的实时个性化信息采集方法。

背景技术

随着家庭环境中智能手机、平板电脑等终端产品的增加，各种多媒体数据的丰富，用户已逐渐建立起对智能终端设备的使用习惯。然而随着终端产品的增加，网络信息的增长也极为迅速，海量的信息可以为用户提供丰富信息资源的同时，也对用户如何快速从信息海洋中获取所需信息提出了挑战。根据用户访问内容进行的实时个性化信息采集成为大数据背景下一个重要课题，对后续的数据分析和挖掘具有至关重要的推动意义。

现今常用的根据主题定向抓取网页资源的技术为聚焦爬虫技术，通用聚焦爬虫的目标是根据事先选定的主题来人工设定主题关键字和种子链接，从而尽可能多地采集相关页面，这会消耗非常多的***资源、网络带宽，处理速度慢。并且现今的聚焦爬虫技术主要采用基于内容评价的主题爬行策略，忽略了链接信息的作用，预测链接价值的能力较差。

发明内容

本发明的目的就是为了解决上述问题，提供一种基于用户访问内容的实时个性化信息采集方法，它通过分析用户网络请求实时获取用户***，结合内容评价和链接结构准确快速爬取与主题相关的有效子链接，并建立链接主题分类库对采集的链接进行主题分类、重要性排序和内容存储。

为了实现上述目的，本发明采用如下技术方案：

一种基于用户访问内容的实时个性化信息采集方法，包括如下步骤：

步骤(1)：通过实时分析用户网络请求获取当前种子页面，并提取网页的结构化信息；

步骤(2)：根据网页的结构化信息从多角度提取主题关键词；组成主题关键词词条；

步骤(3)：提取当前种子页面的子链接的锚文本，依据主题关键词词条对锚文本进行分词，并依据分词后的结果建立向量空间模型，根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性；并把主题相关性大于设定阈值的子链接判定为有效子链接；

步骤(4)：建立链接主题分类库，进行种子链接优先级设定和当前种子链接主题分类；

步骤(5)：计算链接主题分类库中所有子链接的重要性，并依据重要性对子链接进行排序，并进行排序后所有子链接所对应的页面信息的下载和数据存储。

所述步骤(1)：实时获取用户网络请求，并从所述网络请求中提取统一资源定位符URL(Uniform Resource Locator，是互联网标准资源的地址)，根据URL下载对应网页作为当前种子页面，并提取网页的结构化信息；

所述步骤(2)：对步骤(1)的网页的结构化信息进行分词操作，获得所有候选关键词，从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权值，并选取权值最大的设定数量的词作为主题关键词；将选取出来的主题关键词组成主题关键词词条，将选取出来的主题关键词相对应的权值组成特征向量；

所述步骤(3)：爬取种子页面中所有子链接，提取每个子链接的锚文本，将步骤(2)的主题关键词词条作为词库对锚文本进行分词，根据锚文本分词后的词对应的词频获取相应子链接的特征向量，组成向量空间模型，根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性；并把主题相关性大于设定阈值的子链接判定为有效子链接；

所述步骤(4)：建立链接主题分类库，进行种子链接优先级设定和当前种子链接主题分类：

进行种子链接优先级设定，并利用当前链接主题分类库对当前种子链接进行匹配，

如果种子链接属于当前链接主题分类库，则将步骤(3)提取的有效子链接存入当前链接主题分类库并跳转执行步骤(1)；

如果种子链接不属于当前链接主题分类库，则根据种子链接建立新的链接主题分类库，并执行步骤(5)；

所述步骤(5)：根据步骤(3)的子链接与当前种子页面的主题相关性和步骤(4)的当前种子链接优先级，计算当前链接主题分类库中所有子链接的重要性，根据重要性对链接主题分类库中的所有URL进行排序，并进行排序后相应页面信息的下载和数据存储。

所述步骤(1)的网页的结构化信息包括：网页的标题、简介和正文。

所述步骤(2)的步骤为：

步骤(2-1)：对标题、简介和正文进行分词操作，去除干扰词汇，最终获得所有候选关键词；

步骤(2-2)：统计所有候选关键词的属性信息，并将所有候选关键词的属性信息存储；所述属性信息包括：词频、词位置、词跨度、词长和词性；

步骤(2-3)：从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权重参数，根据每个候选关键词的权重参数，确定每个候选关键词的权值Score(x_i)，并选取权值最大的设定数量的词作为主题关键词，将选取出来的主题关键词组成主题关键词词条，将选取出来的主题关键词相对应的权值组成特征向量。

所述步骤(2-1)中干扰词汇包括停用词、合并数字和人名；

所述步骤(2-2)的所有候选关键词的属性信息存储到哈希表wordMap中，其中key为候选关键词，value为自定义的词信息结构对象，存储每个候选关键词的属性信息。

所述步骤(2-3)中，从统计分析方面计算每个候选关键词的权重参数：

利用词频加权函数T_f(x_i)计算当前种子页面中候选关键词x_i的词频权重T_f(x_i)；

计算公式为：

其中n_i是候选关键词出现的次数，而分母是所有k个候选关键词的出现次数之和。

所述步骤(2-3)中，从结构分析方面计算每个候选关键词的权重参数：

a利用词位置加权函数计算候选关键词x_i的词位置权重Loc(x_i)；

计算公式为：

Loc(x_i)＝t_loc；

t_loc是词位置加权函数Loc(x_i)＝t_loc的一个系数，表示词语出现的位置。

b利用词跨度加权函数计算候选关键词x_i的词跨度权重Spa(x_i)；

计算公式为：

其中，l_i表示词语出现的段落数量，L表示段落总数。

所述步骤(2-3)中，从语言分析方面计算每个候选关键词的权重参数：

c利用词长加权函数计算候选关键词的词长权重Len(x_i)；

计算公式为：

其中，len(x_i)表示候选关键词x_i的实际词长，分母Max(len(x₁),len(x₂),...,len(x_k))表示k个候选关键词中词长最长的长度；len(x_k)表示第k个候选关键词中词长的长度。

d利用词性加权函数计算候选关键词的词性权重Pos(x_i)；

计算公式为：

Pos(x_i)＝t_pos；

其中，t_pos是词性加权函数Pos(x_i)＝t_pos的一个系数，表示词性。

所述步骤(2-3)中，根据每个候选关键词的权重参数，确定每个候选关键词的权值Score(x_i)的计算公式为：

Score(x_i)＝T_f(x_i)×(1+Loc(x_i)+Spa(x_i)+Len(x_i)+Pos(x_i))。

选取权值最大的设定数量的词作为主题关键词，将选取出来的主题关键词组成主题关键词词条β＝(x₁,x₂,...,x_n)，将选取出来的主题关键词相对应的权值组成特征向量α＝(w₁,w₂,...,w_n)。x_n表示所有的主题关键词，w_n表示所有对应主题关键词的权值，n是指主题关键词的数量。

所述步骤(3)的向量空间模型是由一个特征向量组和两个对应的特征向量组成：所述特征向量组就是步骤(2)计算获得的种子页面的主题关键词；所述两个对应的特征向量分别是：(1)种子页面内容与主题关键词对应的权值组成的特征向量，(2)子链接的锚文本内容与主题关键词对应的权值组成的特征向量；

所述步骤(3)的步骤为：

步骤(3-1)：爬取当前种子页面中的所有子链接，提取每个子链接的锚文本，过滤掉指向图片、视频和门户网站的子链接，判断剩余子链接是否被爬取过，如果是则返回步骤(3-1)，如果否则进入步骤(3-2)；

步骤(3-2)：将主题关键词词条作为词库对锚文本进行分词，根据锚文本分词后的词对应的词频获取相应锚文本的特征向量，使每个子链接的锚文本的特征向量与主题关键词的特征向量组成向量空间模型VSM，vector space model；

步骤(3-3)：利用余弦定理计算子链接与当前种子页面的主题相关性sim(α,α_i)，判断主题相关性是否大于第一设定阈值，如果大于，就把主题相关性大于第一设定阈值的子链接判定为有效子链接，否则返回步骤(3-1)；

步骤(3-4)：继续判断有效子链接的数量是否达到第二设定阈值，如果达到就结束，如果未达到，就返回步骤(3-1)。

所述步骤(3-3)中余弦定理公式为：

其中，α、α_i分别为当前种子页面和子链接的特征向量，w_k、w_ik分别为当前种子页面和子链接的第k个特征向量值。

所述步骤(4)的建立链接主题分类库，是指按照种子链接的内容进行主题分类，然后依据主题分别对种子链接进行存储。

所述步骤(5)的步骤为：

步骤(5-1)：根据当前链接主题分类库中的所有URL进行深度爬取，直到爬取的有效子链接数量达到设定阈值时停止并进行存储；

步骤(5-2)：将当前链接主题分类库中每一个URL与种子页面的主题相关性sim(α,α_i)、链接优先级P(P_i)，作为参数带入到改进的PageRank公式当中计算链接重要性；

步骤(5-3)：根据重要性对链接主题分类库中的所有URL进行排序，并进行相应页面信息的下载和数据库存储。

所述步骤(5-2)中改进的PageRank公式为：

其中，PR(P_i)表示当前页面的PageRank值；n为连接到当前页面的链接总数；PR(Pj)表示连接到当前页面的网页P_j的PageRank值；C(P_j)表示页面P_j的出站链接总数；d为阻尼系数；P(P_i)为用户访问的当前种子链接的优先级。

本发明的有益效果：

本发明基于用户访问内容并结合内容评价和链接结构进行实时的个性化信息采集。通过分析种子页面内容提取主题关键词，并建立其与子链接锚文本之间的向量空间模型进而获取相关链接，最后利用改进的PageRank算法计算链接主题分类库中所有链接的重要性。

本发明不仅能够准确快速的采集与用户访问内容相关的链接，并且能够对采集的链接进行主题分类、重要性排序和页面内容存储，对后续的数据分析和挖掘具有至关重要的推动意义。

附图说明

图1是本发明的整体方法流程图；

图2是本发明所述的提取种子页面主题关键词方法的流程图。

图3是本发明所述的爬取有效子链接方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

聚焦爬虫：又称为网页蜘蛛，是一种按照设定的规则，自动的抓取万维网信息的程序或者脚本。

如图1所示，

2.多角度分析提取种子页面主题关键词。如图2所示，

(2.1)首先分别对标题、简介和正文内容进行分词操作，去停用词、合并数字和人名等词汇，获取所有候选关键词。

(2.2)通过分析链接结构，获取域名标题，去除与域名标题一致的候选关键词。对余下的候选关键词进行统计词频、判断词位置、过滤词性操作。建立候选关键词哈希表wordMap，保存分词统计信息，其中key为String类型的候选关键词，value为词信息结构对象，存储所有候选关键词的词频、词位置、词跨度、词长、词性和权值6项信息。

(2.3)根据候选关键词哈希表中的词信息从统计分析、结构分析和语言分析三个方面确定候选关键词的权值。

(2.3.1)统计分析方面，计算种子页面中的候选关键词x_i的词频T_f(x_i)。计算公式为其中n_i是候选关键词出现的次数，而分母是所有k个候选关键词的出现次数之和。

(2.3.2)结构分析方面，词语的重要程度与其出现的位置密切相关，出现在标题的词语往往比出现在正文中的词语更重要，利用词位置加权函数计算出候选关键词x_i的词位置权值参数Loc(x_i)。计算公式为Loc(x_i)＝t_loc，当词语出现在标题位置时t_loc为2.5，出现在简介位置时为1，出现在正文位置时为0。

一个词的跨段落情况说明这个词是描述局部的还是表达全文的。跨段落越多，说明该词越重要，全局性越强，利用词跨度加权函数计算出候选关键词x_i的词跨度权值参数Spa(x_i)。计算公式为其中l_i表示词语出现的段落数量，L表示段落总数。

(2.3.3)语言分析方面，通常词语的长度越长，则其包含语义更丰富，成为正式关键词的概率也越大，利用词长加权函数计算出候选关键词x_i的词长权值参数Len(x_i)。计算公式为其中len(x_i)表示候选关键词x_i的实际词长，分母表示k个候选关键词中词长最长词的长度。

通过总结大量实验数据可知，在关键词库中，名词和包含名词性成分的关键词占重要部分，利用词性加权函数计算出候选关键词x_i的词性权值参数Pos(x_i)。计算公式为Pos(x_i)＝t_pos，其中当词语为名词时，t_pos为1，否则为0。

(2.4)通过统计分析、结构分析和语言分析，将获得的候选关键词的词频，词位置、词跨度、词长、词性权值参数带入候选关键词的权值计算公式，则有：

Score(x_i)＝T_f(x_i)×(1+Loc(x_i)+Spa(x_i)+Len(x_i)+Pos(x_i))

利用上述公式计算每个候选关键词的权值，取权值最大的n个词组成主题关键词词条β＝(x₁,x₂,...,x_n)，并将相应的词权值组成一个特征向量α＝(w₁,w₂,...,w_n)。

3.爬取种子页面中的URL及其锚文本，并进行链接过滤，利用正则匹配方法去除指向图片、视频和门户网站的URL。将获取的URL与队列中的URL进行匹配，判断其是否被访问过，如果被访问过则进行重新抓取，如图3所示。

4.将主题关键词词条β作为词库对获取的链接锚文本进行分词，并根据词频获得锚文本的特征向量α_i＝(w_i1,w_i2,...,w_in)，使每一个子链接锚文本都与主题关键词组成向量空间模型(VSM)，利用余弦定理计算子链接与种子页面的主题相关性sim(α,α_i)，并且把主题相关性大于阈值(1)的子链接判定为有效子链接，余弦定理公式为：

其中，α、α_i分别为种子页面和子链接的特征向量，w_k、w_ik分别为种子页面和子链接的第k个特征向量值。

5.进行种子链接优先级设定和主题分类，将用户访问的种子链接的优先级设定为P(P_i)，将其他爬取到的有效子链接的优先级设定为零。然后对当前种子链接进行主题分类，利用当前链接主题分类库对种子链接进行匹配，如果存在则将爬取到的有效子链接加入到当前分类库中，并跳转到步骤1。如果不存在，则根据当前链接主题分类库中的所有URL利用上述方法进行深度爬取，直到爬取的有效子链接数量达到阈值(2)时停止并存储至当前分类库，最后为当前种子链接建立新的链接主题分类库，执行步骤6。

6.提取当前链接主题分类库中所有的URL，将其与当前种子页面的主题相关性sim(α,α_i)、链接优先级P(P_i)，作为参数带入到改进的PageRank公式当中，计算每一个URL的重要性。改进的PageRank公式为：

其中，PR(P_i)表示当前页面的PageRank值；n为连接到当前页面的链接总数；PR(P_j)表示连接到当前页面的网页P_j的PageRank值；C(P_j)表示页面P_j的出站链接总数；d为阻尼系数，一般设定为0.85。

7.根据链接重要性对链接主题分类库中的所有URL排序，并进行对应网页内容下载，最后按类别保存至Web页面库。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于用户访问内容的实时个性化信息采集方法，其特征是，包括如下步骤：

步骤(5)：计算链接主题分类库中所有子链接的重要性，并依据重要性对子链接进行排序，并进行排序后所有子链接所对应的页面信息的下载和数据存储；

所述步骤(5)的步骤为：

所述步骤(5-2)中改进的PageRank公式为：

<mrow> <mi>P</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <mi>P</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo>(</mo> <mrow> <mi>&alpha;</mi> <mo>,</mo> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mi>P</mi> <mo>(</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，PR(P_i)表示当前页面的PageRank值；n为连接到当前页面的链接总数；PR(P_j)表示连接到当前页面的网页P_j的PageRank值；C(P_j)表示页面P_j的出站链接总数；d为阻尼系数；P(P_i)为用户访问的当前种子链接的优先级；α、α_i分别为当前种子页面和子链接的特征向量；

2.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法，其特征是，所述步骤(2)：对步骤(1)的网页的结构化信息进行分词操作，获得所有候选关键词，从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权值，并选取权值最大的设定数量的词作为主题关键词；将选取出来的主题关键词组成主题关键词词条，将选取出来的主题关键词相对应的权值组成特征向量。

3.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法，其特征是，

所述步骤(4)：进行种子链接优先级设定，并利用当前链接主题分类库对当前种子链接进行匹配，

如果种子链接不属于当前链接主题分类库，则根据种子链接建立新的链接主题分类库，并执行步骤(5)。

4.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法，其特征是，所述步骤(2)的步骤为：

5.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法，其特征是，

所述步骤(3)的向量空间模型是由一个特征向量组和两个对应的特征向量组成：所述特征向量组就是步骤(2)计算获得的种子页面的主题关键词；所述两个对应的特征向量分别是：(1)种子页面内容与主题关键词对应的权值组成的特征向量，(2)子链接的锚文本内容与主题关键词对应的权值组成的特征向量。

6.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法，其特征是，

所述步骤(3)的步骤为：