CN113326411B - 一种网络行为知识增强方法、装置及电子设备 - Google Patents
一种网络行为知识增强方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113326411B CN113326411B CN202010127236.7A CN202010127236A CN113326411B CN 113326411 B CN113326411 B CN 113326411B CN 202010127236 A CN202010127236 A CN 202010127236A CN 113326411 B CN113326411 B CN 113326411B
- Authority
- CN
- China
- Prior art keywords
- webpage
- behavior
- network
- behaviors
- network sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000006399 behavior Effects 0.000 claims abstract description 125
- 230000009193 crawling Effects 0.000 claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- BJQHLKABXJIVAM-UHFFFAOYSA-N bis(2-ethylhexyl) phthalate Chemical compound CCCCC(CC)COC(=O)C1=CC=CC=C1C(=O)OCC(CC)CCCC BJQHLKABXJIVAM-UHFFFAOYSA-N 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 208000008918 voyeurism Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开一种网络行为知识增强方法、装置及电子设备,涉及计算机技术领域。其中,在检测到用户网络行为时,爬取用户网络行为对应的网页信息;以网页信息对应的网页层级作为当前网页层级,基于当前网页层级并按照预设的网页层级关系依次爬取各网页层级中包括的多个网络子行为;从各网页层级对应的多个网络子行为中分别选取最优网络子行为;基于预设的网络层级关系和各网页层级中的最优网络子行为构建第一知识增强路径,以实现对用户网络行为的有效分析。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种网络行为知识增强方法、装置及电子设备。
背景技术
随着移动互联网的快速发展以及云计算、物联网等新兴技术的不断出现和繁荣,用户的网络行为产生了海量数据。在电信行业也是如此,随着行业竞争愈加激烈,对运营商如何理解用户,刻画用户行为和画像提出了更高的要求。
目前,运营商领域大多通过收集用户网络行为数据,进而基于数理统计来对收集到的用户网络行为数据进行分析,并结合运营商用户静态属性信息来完善用户网络行为分析,继而刻画用户的网络行为,但这种方式是基于现有海量数据或既有知识来做分析挖掘,导致信息挖掘效率低且局限于浅层信息,没有考虑到用户实际在网络中的行为趋势,往往难以对电信行业用户单一、零散的网络行为进行有效分析。
发明内容
对于上述问题,本申请实施例提供了一种网络行为知识增强方法、装置及电子设备,具体如下。
第一方面,本申请实施例提供一种网络行为知识增强方法,所述方法包括:
在检测到用户网络行为时,爬取所述用户网络行为对应的网页信息;
以所述网页信息对应的网页层级作为当前网页层级,基于所述当前网页层级并按照预设的网页层级关系依次爬取各网页层级中包括的多个网络子行为;
从各所述网页层级对应的多个网络子行为中分别选取最优网络子行为;
基于所述预设的网页层级关系和各所述网页层级中的最优网络子行为构建第一知识增强路径。
进一步,作为一种可能的实现方式,从各所述网页层级对应的多个网络子行为中分别选取最优网络子行为的步骤,包括:
针对每个所述网页层级对应的多个网络子行为,分别爬取各所述网络子行为对应的网页文本;
分别从各所述网页文本中提取满足预设需求的关键词形成与各所述网页文本一一对应的多个关键词列表;
分别计算各所述关键词列表与预设的用户行为信息词包之间的语义差异值;
基于所述语义差异值的大小,从所述多个关键词列表中选取最优关键词列表;
将所述最优关键词列表对应的网络子行为作为所述网页层级中的最优网络子行为。
进一步,作为一种可能的实现方式,分别从各所述网页文本中提取满足预设需求的关键词形成与各所述网页文本一一对应的多个关键词列表的步骤,包括:
针对每一个所述网页文本,对该网页文本进行分词处理得到多个关键词;
根据预设的词权值模型计算各所述关键词的词权值;
根据词权值的大小,从多个所述关键词中选取词权值较大的预设数量个关键词,形成关键词列表。
进一步,作为一种可能的实现方式,分别计算各所述关键词列表与预设的用户行为信息词包之间的语义差异值的步骤,包括:
将各所述关键词列表转换为一一对应的多个第一词向量矩阵,以及将所述用户行为信息词包转换为第二词向量矩阵;
分别计算各所述第一词向量矩阵与所述第二词向量矩阵之间的距离,得到与各所述关键词列表一一对应的多个语义差异值。
进一步,作为一种可能的实现方式,所述语义差异值SD为:
其中,m为所述用户行为信息词包中的分词的数量,n为所述关键词列表中的关键词的数量,kwv表示第一词向量矩阵中的词向量,v表示第二词向量矩阵中的词向量,α为所述用户行为信息词包中的分词的贡献度,β表示所述关键词列表中的关键词的贡献度,α=β=1/i,i为当前分词在用户行为信息词包中的索引值。
进一步,作为一种可能的实现方式,基于所述预设的网页层级关系和各所述网页层级中的最优网络子行为构建第一知识增强路径的步骤之后,所述方法还包括:
基于所述第一知识增强路径中的各所述最优网络子行为对应的最优关键词列表构建第二知识增强路径;
以及
基于所述第二知识增强路径中包括各所述优关键词列表中的关键词形成知识增强词包。
进一步,作为一种可能的实现方式,所述方法还包括:
如果对所述网络子行为进行爬取时所涉及的网页层级数量达到预设值,则停止对下一网页层级中包含的网络子行为的爬取流程,执行所述针对每个所述网页层级,从该网页层级对应的多个网络子行为中选取最优网络子行为的步骤。
第二方面,本申请实施例提供一种网络行为知识增强装置,所述装置包括:
网页信息爬取模块,用于在检测到用户网络行为时,爬取所述用户网络行为对应的网页信息;
网络子行为爬取模块,用于以所述网页信息对应的网页层级作为当前网页层级,基于所述当前网页层级并按照预设的网页层级关系依次爬取各网页层级中包括的多个网络子行为;
最优子行为选取模块,用于从各所述网页层级对应的多个网络子行为中分别选取最优网络子行为;
增强路径构建模块,用于基于所述预设的网页层级关系和各所述网页层级中的最优网络子行为构建第一知识增强路径。
第三方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;
与所述处理器连接的至少一个存储器;
其中,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述存储介质存储有计算机指令,所述计算机指令使所述计算机执行如上所述的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
以检测到的用户网络行为对应的网页信息作为当前网页层级,爬取不同网页层级中包含的网络子行为,并基于预设的网页层级关系和各网页层级中的最优网络子行为构建第一知识增强路径,以对用户在网络中的行为趋势进行分析,进而能够实现对用户单一、零散的网络行为的有效分析。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的网络行为知识增强方法的流程示意图。
图2为本申请实施例提供的网页层级关系示意图。
图3为本申请实施例提供的网络行为知识增强装置的框图。
图4为本申请实施例提供的电子设备的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
实施例一
如图1所示,为本申请实施例提供的网络行为知识增强方法的流程示意图,该网络行为知识增强方法可以由,但不限于电子设备执行,具体可由电子设备中的硬件或/和软件执行。可选地,电子设备可以为,但不限于智能手机、电脑、服务器、可穿戴设备等终端。参照图1,本申请给出的网络行为知识增强方法可以包括如下步骤。
S11,在检测到用户网络行为时,爬取用户网络行为对应的网页信息。
可选地,用户网络行为可以是,但不限于用户基于用户界面发起的用户输入行为,如网址输入行为、文字输入行为、图片输入行为等,且用户网络行为中可以同时包括多个网络子行为,如网址输入行为中可以包括多个子网址等,本实施例对此不做限制。另外,实际实施时,本申请中可以利用贪心爬虫算法爬取用户网络行为对应的网页信息。
S12,以网页信息对应的网页层级作为当前网页层级,基于当前网页层级并按照预设的网页层级关系依次爬取各网页层级中包括的多个网络子行为。
可选地,请结合参阅图2,假设用户网络行为为用户输入的网址W,那么该网址W对应的网页信息W’为第一网页层级,如果网页信息W’中还包括有网络子行为(网络链接)A1、A2、A3,……、An,那么,该网络子行为(网络链接)A1、A2、A3、……、An分别对应的网页信息A1’、A2’、A3’、……、An’均为第一网页层级,如果网页信息A1’中包括有网络子行为B1、B2、B3、……、Bn,网页信息A2’中包括有网络子行为C1、C2、C3、……、Cn,网页信息A3’中包括有网络子行为D1、D2、D3、……、Dn,那么,网络子行为B1、B2、B3、……、Bn、C1、C2、C3、……、Cn、D1、D2、D3、……、Dn分别对应的网页信息均为第三网页层级,以此类推,从而可得到各网页信息之间的层级关系。
应注意的是,在进行网络子行为的爬取时,一个网页信息中可以包括多个网络子行为,也可以不包括网络子行为,本实施例对此不做限制。另外,网页子行为爬取过程中,对于未响应的或出现错误的网页(对应于网络子行为)可直接剔除出,以此来完成对用户网络行为的“预窥”
进一步,实际实施时,为了提高网络行为知识增强效率,避免对网络行为的过度增强,在本实施例中,如果对网络子行为进行爬取时所涉及的网页层级数量(也就是,知识增强数量)达到预设值(如10级等),则停止对下一网页层级中包含的网络子行为的爬取流程,并执行S13中的针对每个网页层级,从该网页层级对应的多个网络子行为中选取最优网络子行为的步骤。
S13,从各网页层级对应的多个网络子行为中分别选取最优网络子行为。
本实施例中,在进行最优网络子行为的选取时,是以各网络子行为对应的网页信息中包含的文本信息与预设的网络用户行为信息词包之间的语义差异值作为选取依据,从而可在网络行为知识增强过程中引入用户网络行为的行为信息和趋势,以从每一网页层级中获得最优的网络子行为,以用于后续的网络行为知识增强。
可选地,在一些实现方式中,S13中所述的每个网页层级中的最优网络子行为可通过下述步骤S131至S135选取,内容如下。
S131,针对每个网页层级对应的多个网络子行为,分别爬取各网络子行为对应的网页文本。例如,假设各网络子行为分别为A、B、C,那么可通过贪心爬虫算法爬取各网络子行为A、B、C对应的网页信息,再利用网页解析工具对网页信息进行解析,得到各网页信息中包含的网页子行为以及网页文本。
S132,分别从各网页文本中提取满足预设需求的关键词形成与各网页文本一一对应的多个关键词列表。可选地,前述的S132可通过下述S1321至S1323实现,内容如下。
S1321,针对每一个网页文本,对该网页文本进行分词处理得到多个关键词。
S1322,根据预设的词权值模型计算各关键词的词权值。
S1323,根据词权值的大小,从多个关键词中选取词权值较大的预设数量个关键词,形成关键词列表。
示例性地,假设网页文本为Texti,那么可以,但不限于使用分词工具NLPIR对网页文本Texti进行分词处理得到多个关键词,再根据词权值模型按词权值大小对各关键词进行排序,基于排序结果选取排序靠前的预设数量个(如3个等)关键词,形成关键词列表KW(KW1,KW2,KW3,……,KWn)。
S133,分别计算各关键词列表与预设的用户行为信息词包之间的语义差异值。
其中,用户行为信息词包可以是针对每一网页层级,在爬取到该网页层级时,将该网页层级中包括的最优网络子行为对应的最优关键词列表中的关键词更新至预设的用户行为信息词包中,从而使得本申请给出的网络行为知识增强方法具有自我学习功能,并将每次更新后的用户行为信息词包作为下一网页层级进行最优网络子行为选取时的基准词义信息,以实现对用户信息的不断调整,提高后续用户网络行为知识增强结果的准确性,如S14中所述的第一知识增强路径等。
此外,在一些实现方式中,用户行为信息词包还可以是预先根据用户的兴趣、年龄等设置的,本实施例在此不做限制。
可选地,作为一种可选地实现方式,S133中所述的语义差异值可通过S1331和S1332实现,内容如下。
S1331,将各关键词列表转换为一一对应的多个第一词向量矩阵,以及将用户行为信息词包转换为第二词向量矩阵。
其中,在进行词向量转换时,可以选用,但不限于Skip-gram词向量模型实现,该词向量模型可以采用开源工具word2vec并基于***中文数据集训练得到。在此以关键词列表KW为例,可使用词向量模型将关键词列表KW转换为第一词向量矩阵kwv(kwv1,1,kwv1,2,kwv1,3,……,kwvn,200),其中n为关键词列表KW中的关键词的个数,200为词向量模型预设的维度(该维度可根据实际需求进行设定),即每个kwv分量可表征为(v1,v2,v3…v200)。
S1331,分别计算各第一词向量矩阵与第二词向量矩阵之间的距离,得到与各关键词列表一一对应的多个语义差异值。可选地,本实施例中在进行语义差异值计算时,可以基于余弦距离实现,例如,假设第一词向量矩阵kwv(kwv1,1,kwv1,2,kwv1,3,……,kwvn,200),第二词向量矩阵为(v1,1,v1,2,v1,3,……,vm,200),那么,语义差异值SD可以为:
其中,m为用户行为信息词包中的分词的数量,n为关键词列表中的关键词的数量,kwv表示第一词向量矩阵中的词向量,v表示第二词向量矩阵中的词向量,α为用户行为信息词包中的分词的贡献度,β表示关键词列表中的关键词的贡献度,α=β=1/i,i为当前分词在用户行为信息词包中的索引值。
S134,基于语义差异值的大小,从多个关键词列表中选取最优关键词列表。
S135,将最优关键词列表对应的网络子行为作为网页层级中的最优网络子行为。
其中,本申请中通过语义差异度的计算,能够以语义差异度为导向控制爬虫路径选择(即网络子行为的选择),进而有效提高网络行为知识增强效率以及增强结果的可靠性。
应注意的是,本实施例在对每一网页层级中包含的最优网络子行为进行选取时,可以是在每完成一网页层级的网络子行为的爬取后,即刻进行最优网络子行为的选取;也可以是在完成对所有网页层级中的网络子行为的爬取后,再统一进行每一网页层级中的最优网络子行为的选取,本实施例对此不做限制。
S14,基于预设的网页层级关系和各网页层级中的最优网络子行为构建第一知识增强路径。
示例性地,请再次参阅图2,假设W’为第一网页层级中的最优网络子行为,A2’为第二网页层级中的最优网络子行为,D3’为第三网页层级中的最优网络子行为,那么,S14中所述的第一知识增强路径为W’→A2’→D3’。
进一步,在一些实现方式中,除前述S14中的网络行为路径之外,还可从词维度进行网络行为知识增强,如在S14之后,还可包括:基于预设的网页层级关系以及各网页层级对应的最优关键词列表构建第二知识增强路径;和/或,基于各网页层级对应的最优关键词列表中包括的关键词形成知识增强词包,以完成对用户网络行为的词义内容与主题的知识丰富。此外,还可提取每次最优网络子行为对应的网页文本,进行LDA主题建模抽取主题信息等。
基于前述描述,下面以一网页层级中的最优路径的选取为例,对本申请给出的网络行为知识增强方法的实现流程进行描述,内容如下。
(1)获取用户t时刻的用户网络行为Behi,其中Behi表示第i个用户网络行为,即用户输入的原始网络输入。
(2)基于用户网络行为Behi构建用户候选行为列表CUBL={<Beh1>,<Beh2>,<Beh3>,……<Behp>}。
(3)使用贪心爬虫算法爬取用户候选行为列表CUBL={<Beh1>,<Beh2>,<Beh3>,……<Behp>}中的各用户网络行为对应的网页信息,提取各网页信息中的网页文本Texti以及网络子行为列表SublBehi(其中包括多个网络子行为)。
(4)基于用户网络行为Behi、网页文本Texti构建用户网络行为三元式列表TerBeh={<Beh1,Text1,SublBeh1>,<Beh2,Text2,SublBeh2>,<Beh3,Text3,SublBeh3>……<Behp,Textp,SublBehp>}。
(5)对用户网络行为三元式列表中的每个三元式<Behi,Texti,SublBehi>提取网页文本Texti,构建与各三元式一一对应的关键词列表KW(KW1,KW2,KW3…KWn),以及计算各关键词列表KWi与用户行为信息词包Bbw之间的语义差异值SDi。
(6)基于用户网络行为三元式列表、关键词列表KW、语义差异值SDi构建五元式序列QuiBeh={<Beh1,Text1,SublBeh1,SD1,KW1>,<Beh2,Text2,SublBeh2,SD2,KW2>,<Beh3,Text3,SublBeh3,SD3,KW3>……<Behp,Textp,SublBehp,SDp,KWp>}。
(7)按照各五元式中包括的语义差异值SDi从小到大对五元式序列中的各五元式进行优先级排序,获得候选路径五元式优先级队列QuiBehsort(Q1,Q2,Q3,Q4…Qp),其中Qi表示排序后索引为i的候选路径五元式。
(8)基于候选路径五元式优先级队列QuiBehsort(Q1,Q2,Q3,Q4…Qp),进行当前网页层级下的最优网络子行为(最优路径)的选择过程包括:
判断当前知识增强数量Scur(网页层级的数量)是否已达到预设值,若已达到则跳转至停止路径选取,并执行(9)。
若未达到预设值,则对候选路径五元式优先级队列中的Q1(其中包含的语义差异值SD最大)进行分析,如果Q1中包括的子行为列表SublBehseq为非空,则将子行为列表SublBehseq对应的用户网络行为作为最优路径,并基于子行为列表SublBehseq中包括各网络子行为重复执行(2)-(8),以选取下一网页层级中的最优路径,直到知识增强数量Scur达到预设值,则执行(9)。
可选地,在一些实现方式中,如果Q1中包括的子行为列表SublBehseq为空,则停止路径选择,并执行(9)。
或者,如果Q1中包括的子行为列表SublBehseq为空,则进行路径回溯,以选取候选路径五元式优先级队列中的Q2进行分析,依次类推,直到选取到当前网页层级中的最优路径以及下一网页层级中的最优路径,并在知识增强数量Scur达到预设值时,执行(9)。
应注意的是,如果在完成对候选路径五元式优先级队列中的各五元式进行完全遍历回溯后,也未找到当前网页层级中的最优路径,则停止路径选择,并执行(9)。
(9)根据各网页层级中的最优路径构建第一知识增强路径(即用户词义选择路径),完成对用户网络行为趋势的知识增强。以及结合最优选择五元式中的关键词列表KWop构建第二知识增强路径,以完成对用户网络行为的词义内容与主题的知识丰富。此外,还可提取每次最优选择五元式中的网页文本Textop,进行LDA主题建模抽取主题信息等。
应注意的是,前述(1)-(9)中给出的网络行为知识增强流程只是本实施例给出的技术方案的一种可能的实现方式,本实施例对此不做限制,同时,前述的二元式、三元式、五元式等,仅是为了便于理解而才采用的一种描述方式,因此,不对本申请给出的技术方案造成限制。
进一步,由前述给出的网络行为知识增强方法可以看出,本申请给出的技术方案至少具有以下技术效果。
针对单一用户网络行为进行知识增强时,基于贪心算法进行网络子行为选取,并结合网页文本中的词义信息以及语义差异值从各网页层级中包含的各候选网络子行为中选取最优网络子行为进行第一知识增强路径的构建,能够更有效地挖掘用户候选行为信息,为路径选择提供更有效的语义信息,同时基准语义信息的自我学习也可以模拟出用户网络行为的趋势,有效保障增强知识的有效性。
换言之,对于用户的单一网络行为,本申请从词维度、路径维度、文本维度进行知识扩充(网络行为知识增强),进而为用户网络行为分析提供基础,解决了传统用户网络行为分析难以对单一行为或单薄知识分析的问题。同时,相比于需要海量数据的传统用户网络行为知识增强方式,本申请中只需分析当前路径层级的网页网页文本,从而具有更高的效率,同时还可排除大量无用知识的干扰,从而保证所增强知识的有效性。
实施例二
图3是根据一示例性实施例示出的一种网络行为知识增强装置100的框图,该网络行为知识增强装置100可应用于电子设备。参照图3,网络行为知识增强装置100包括网页信息爬取模块110、网络子行为爬取模块120、最优子行为选取模块130和增强路径构建模块140。
网页信息爬取模块110,用于在检测到用户网络行为时,爬取用户网络行为对应的网页信息;
网络子行为爬取模块120,用于以网页信息对应的网页层级作为当前网页层级,基于当前网页层级并按照预设的网页层级关系依次爬取各网页层级中包括的多个网络子行为;
最优子行为选取模块130,用于从各网页层级对应的多个网络子行为中分别选取最优网络子行为;
增强路径构建模块140,用于基于预设的网页层级关系和各网页层级中的最优网络子行为构建第一知识增强路径。
关于本实施例中的装置100,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。例如,关于参数获取模块110的详细描述可参照前述实施例一中对S11的描述、关于参数调节模块120的详细描述可参照前述实施例一中对S12的描述等。
实施例三
请参阅图4,为根据一实施例性实施例提供的一种电子设备10的框图,该电子设备10可至少包括处理器11,用于存储处理器11可执行指令的存储器12。其中,处理器11被配置为执行指令,以实现如上述实施例中的网络行为知识增强方法的全部步骤或部分步骤。
处理器11、存储器12之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,处理器11用于读/写存储器中存储的数据或程序,并执行相应地功能。
存储器12用于存储程序或者数据,如存储处理器110可执行指令。该存储器12可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read OnlyMemory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
进一步,作为一种可能的实现方式,电子设备10还可包括电源组件、多媒体组件、音频组件、输入/输出(I/O)接口、传感器组件以及通信组件等。
电源组件为电子设备10的各种组件提供电力。电源组件可以包括电源管理***,一个或多个电源、以及其他与为电子设备10生成、管理和分配电力相关联的组件。
多媒体组件包括在电子设备10和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备10处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当电子设备10处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
I/O接口为处理组件和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件包括一个或多个传感器,用于为电子设备10提供各个方面的状态评估。例如,传感器组件可以检测到电子设备10的打开/关闭状态,组件的相对定位,例如组件为电子设备10的显示器和小键盘,传感器组件还可以检测电子设备10或电子设备10一个组件的位置改变,用户与电子设备10接触的存在或不存在电子设备10方位或加速/减速和电子设备10的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件被配置为便于电子设备10和其他设备之间有线或无线方式的通信。电子设备10可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备10可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
应当理解的是,图4所示的结构仅为电子设备10的结构示意图,该电子设备10还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
实施例四
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器12,上述指令可由电子设备10的处理器11执行以完成上述网络行为知识增强方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (9)
1.一种网络行为知识增强方法,其特征在于,所述方法包括:
在检测到用户网络行为时,爬取所述用户网络行为对应的网页信息;
以所述网页信息对应的网页层级作为当前网页层级,基于所述当前网页层级并按照预设的网页层级关系依次爬取各网页层级中包括的多个网络子行为;所述网络子行为为网络链接;
从各所述网页层级对应的多个网络子行为中分别选取最优网络子行为;
基于所述预设的网页层级关系和各所述网页层级中的最优网络子行为构建第一知识增强路径;
从各所述网页层级对应的多个网络子行为中分别选取最优网络子行为的步骤,包括:
针对每个所述网页层级对应的多个网络子行为,分别爬取各所述网络子行为对应的网页文本;
分别从各所述网页文本中提取满足预设需求的关键词形成与各所述网页文本一一对应的多个关键词列表;
分别计算各所述关键词列表与预设的用户行为信息词包之间的语义差异值;
基于所述语义差异值的大小,从所述多个关键词列表中选取最优关键词列表;
将所述最优关键词列表对应的网络子行为作为所述网页层级中的最优网络子行为。
2.根据权利要求1所述的网络行为知识增强方法,其特征在于,分别从各所述网页文本中提取满足预设需求的关键词形成与各所述网页文本一一对应的多个关键词列表的步骤,包括:
针对每一个所述网页文本,对该网页文本进行分词处理得到多个关键词;
根据预设的词权值模型计算各所述关键词的词权值;
根据词权值的大小,从多个所述关键词中选取词权值较大的预设数量个关键词,形成关键词列表。
3.根据权利要求1所述的网络行为知识增强方法,其特征在于,分别计算各所述关键词列表与预设的用户行为信息词包之间的语义差异值的步骤,包括:
将各所述关键词列表转换为一一对应的多个第一词向量矩阵,以及将所述用户行为信息词包转换为第二词向量矩阵;
分别计算各所述第一词向量矩阵与所述第二词向量矩阵之间的距离,得到与各所述关键词列表一一对应的多个语义差异值。
4.根据权利要求3所述的网络行为知识增强方法,其特征在于,所述语义差异值SD为:
其中,m为所述用户行为信息词包中的分词的数量,n为所述关键词列表中的关键词的数量,kwv表示第一词向量矩阵中的词向量,v表示第二词向量矩阵中的词向量,α为所述用户行为信息词包中的分词的贡献度,β表示所述关键词列表中的关键词的贡献度,α=β=1/i,i为当前分词在用户行为信息词包中的索引值。
5.根据权利要求1所述的网络行为知识增强方法,其特征在于,基于所述预设的网页层级关系和各所述网页层级中的最优网络子行为构建第一知识增强路径的步骤之后,所述方法还包括:
基于所述第一知识增强路径中的各所述最优网络子行为对应的最优关键词列表构建第二知识增强路径;
以及
基于所述第二知识增强路径中包括各所述优关键词列表中的关键词形成知识增强词包。
6.根据权利要求1所述的网络行为知识增强方法,其特征在于,所述方法还包括:
如果对所述网络子行为进行爬取时所涉及的网页层级数量达到预设值,则停止对下一网页层级中包含的网络子行为的爬取流程,执行所述针对每个所述网页层级,从该网页层级对应的多个网络子行为中选取最优网络子行为的步骤。
7.一种网络行为知识增强装置,其特征在于,所述装置包括:
网页信息爬取模块,用于在检测到用户网络行为时,爬取所述用户网络行为对应的网页信息;
网络子行为爬取模块,用于以所述网页信息对应的网页层级作为当前网页层级,基于所述当前网页层级并按照预设的网页层级关系依次爬取各网页层级中包括的多个网络子行为;所述网络子行为为网络链接;
最优子行为选取模块,用于从各所述网页层级对应的多个网络子行为中分别选取最优网络子行为;
增强路径构建模块,用于基于所述预设的网页层级关系和各所述网页层级中的最优网络子行为构建第一知识增强路径;
所述最优子行为选取模块中,用于从各所述网页层级对应的多个网络子行为中分别选取最优网络子行为的步骤,包括:
针对每个所述网页层级对应的多个网络子行为,分别爬取各所述网络子行为对应的网页文本;
分别从各所述网页文本中提取满足预设需求的关键词形成与各所述网页文本一一对应的多个关键词列表;
分别计算各所述关键词列表与预设的用户行为信息词包之间的语义差异值;
基于所述语义差异值的大小,从所述多个关键词列表中选取最优关键词列表;
将所述最优关键词列表对应的网络子行为作为所述网页层级中的最优网络子行为。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
与所述处理器连接的至少一个存储器;
其中,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令使所述计算机执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010127236.7A CN113326411B (zh) | 2020-02-28 | 2020-02-28 | 一种网络行为知识增强方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010127236.7A CN113326411B (zh) | 2020-02-28 | 2020-02-28 | 一种网络行为知识增强方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326411A CN113326411A (zh) | 2021-08-31 |
CN113326411B true CN113326411B (zh) | 2024-05-03 |
Family
ID=77412577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010127236.7A Active CN113326411B (zh) | 2020-02-28 | 2020-02-28 | 一种网络行为知识增强方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326411B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102119389A (zh) * | 2008-06-11 | 2011-07-06 | 微软公司 | 使用语义距离学习的自动图像注释 |
CN103186676A (zh) * | 2013-04-08 | 2013-07-03 | 湖南农业大学 | 一种主题知识自增长型聚焦网络爬虫搜索方法 |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
CN103970730A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种从单个中文文本中提取多主题词的方法 |
CN104331394A (zh) * | 2014-08-29 | 2015-02-04 | 南通大学 | 一种基于观点的文本分类方法 |
CN108154395A (zh) * | 2017-12-26 | 2018-06-12 | 上海新炬网络技术有限公司 | 一种基于大数据的客户网络行为画像方法 |
KR20190047939A (ko) * | 2017-10-30 | 2019-05-09 | 한림대학교 산학협력단 | 텍스트 데이터 크롤링을 위한 텍스트 데이터 수집 및 분석 방법 및 장치 |
CN109740091A (zh) * | 2018-12-26 | 2019-05-10 | 武汉大学 | 一种基于行为认知的用户网络行为的预测***及方法 |
-
2020
- 2020-02-28 CN CN202010127236.7A patent/CN113326411B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102119389A (zh) * | 2008-06-11 | 2011-07-06 | 微软公司 | 使用语义距离学习的自动图像注释 |
CN103186676A (zh) * | 2013-04-08 | 2013-07-03 | 湖南农业大学 | 一种主题知识自增长型聚焦网络爬虫搜索方法 |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
CN103970730A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种从单个中文文本中提取多主题词的方法 |
CN104331394A (zh) * | 2014-08-29 | 2015-02-04 | 南通大学 | 一种基于观点的文本分类方法 |
KR20190047939A (ko) * | 2017-10-30 | 2019-05-09 | 한림대학교 산학협력단 | 텍스트 데이터 크롤링을 위한 텍스트 데이터 수집 및 분석 방법 및 장치 |
CN108154395A (zh) * | 2017-12-26 | 2018-06-12 | 上海新炬网络技术有限公司 | 一种基于大数据的客户网络行为画像方法 |
CN109740091A (zh) * | 2018-12-26 | 2019-05-10 | 武汉大学 | 一种基于行为认知的用户网络行为的预测***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113326411A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766426B (zh) | 一种文本分类方法、装置及电子设备 | |
CN109614482B (zh) | 标签的处理方法、装置、电子设备及存储介质 | |
CN108121736B (zh) | 一种主题词确定模型的建立方法、装置及电子设备 | |
CN108073606B (zh) | 一种新闻推荐方法和装置、一种用于新闻推荐的装置 | |
CN110019675B (zh) | 一种关键词提取的方法及装置 | |
CN112668707B (zh) | 运算方法、装置及相关产品 | |
CN111127053B (zh) | 页面内容推荐方法、装置及电子设备 | |
CN107515870B (zh) | 一种搜索方法和装置、一种用于搜索的装置 | |
CN105373580A (zh) | 主题显示方法及装置 | |
CN108197105B (zh) | 自然语言处理方法、装置、存储介质及电子设备 | |
CN112464052A (zh) | 反馈信息的处理方法、显示方法、装置及电子设备 | |
CN107491453B (zh) | 一种识别作弊网页的方法及装置 | |
CN113779257A (zh) | 文本分类模型的解析方法、装置、设备、介质及产品 | |
CN112612949B (zh) | 推荐数据集合的建立方法及装置 | |
CN112579753B (zh) | 信息获取方法、装置、设备、介质及产品 | |
CN111813932B (zh) | 文本数据的处理方法、分类方法、装置及可读存储介质 | |
CN107784037B (zh) | 信息处理方法和装置、用于信息处理的装置 | |
CN113033163A (zh) | 一种数据处理方法、装置和电子设备 | |
CN112328809A (zh) | 实体分类方法、装置及计算机可读存储介质 | |
CN106886541B (zh) | 一种数据搜索方法、装置以及一种用于数据搜索的装置 | |
CN112381091A (zh) | 视频内容识别方法、装置、电子设备及存储介质 | |
CN113326411B (zh) | 一种网络行为知识增强方法、装置及电子设备 | |
CN111079421A (zh) | 一种文本信息分词处理的方法、装置、终端及存储介质 | |
CN112149653B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN105653058B (zh) | 输入法词库的创建及加载方法、装置、终端及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |