CN112182451A - 网页内容摘要生成方法、设备、存储介质及装置 - Google Patents

网页内容摘要生成方法、设备、存储介质及装置 Download PDF

Info

Publication number
CN112182451A
CN112182451A CN202010983986.4A CN202010983986A CN112182451A CN 112182451 A CN112182451 A CN 112182451A CN 202010983986 A CN202010983986 A CN 202010983986A CN 112182451 A CN112182451 A CN 112182451A
Authority
CN
China
Prior art keywords
webpage
web page
displayed
content
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010983986.4A
Other languages
English (en)
Inventor
程波
叶志钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Greenet Information Service Co Ltd
Original Assignee
Wuhan Greenet Information Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Greenet Information Service Co Ltd filed Critical Wuhan Greenet Information Service Co Ltd
Priority to CN202010983986.4A priority Critical patent/CN112182451A/zh
Publication of CN112182451A publication Critical patent/CN112182451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页内容摘要生成方法、设备、存储介质及装置,该方法包括:在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息,查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像,根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要;相较于现有的直接将整个网页内容进行展示的方式,本发明中根据历史浏览记录生成当前用户画像,并根据当前用户画像生成待展示网页的网页内容摘要,克服了现有技术中无法生成待展示网页的网页内容摘要的缺陷,从而能够自动生成与用户浏览习惯相近的网页内容摘要,提高阅读效率。

Description

网页内容摘要生成方法、设备、存储介质及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页内容摘要生成方法、设备、存储介质及装置。
背景技术
随着信息技术的飞速发展,当今社会进入了信息***时代,人们越来越多地借助网络来寻找自己需要的信息,因此,浏览网页来获取信息成为人们工作、生活不可或缺的一部分。
目前,用户在浏览网页时,服务器往往直接将整个网页内容进行展示。然而,由于大部分网页内容较多,导致用户需要阅读整个网页以后才能了解主要内容,效率较低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种网页内容摘要生成方法、设备、存储介质及装置,旨在解决如何自动生成与用户浏览习惯相近的网页内容摘要的技术问题。
为实现上述目的,本发明提供一种网页内容摘要生成方法,所述网页内容摘要生成方法包括:
在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息;
查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像;
根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要。
优选地,所述查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像,具体包括:
在预设映射关系表中查找所述用户标识信息对应的历史浏览记录,所述预设映射关系表中包含所述用户标识信息与所述历史浏览记录的对应关系;
基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据;
根据所述待分析数据建立用户标签模型,并根据所述用户标签模型生成当前用户画像。
优选地,所述根据所述待分析数据建立行为分析模型,并根据所述行为分析模型生成当前用户画像,具体包括:
对所述待分类数据进行特征分析,获得文本特征数据;
根据所述文本特征数据通过预设相似度计算模型确定文本相似度;
根据所述文本相似度通过预设推荐算法以及预设机器学习算法建立用户标签模型;
根据所述用户标签模型以及预设预测模型生成当前用户画像。
优选地,所述根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要,具体包括:
查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语;
统计所述待处理词语在所述待处理网页内容中的出现次数;
根据所述当前用户画像确定所述待处理词语的权重值,并根据所述权重值以及所述出现次数生成所述待处理词语的总分值;
根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要。
优选地,所述查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语,具体包括:
查找所述网页地址信息对应的待展示网页,对所述待展示网页进行内容提取,获得待展示网页内容;
对所述待展示网页内容进行数据清洗,获得待处理网页内容;
根据预设分词模型对所述待处理网页内容进行分词,获得待处理词语。
优选地,所述根据所述网页地址信息确定待展示网页内容,并基于所述待展示网页内容以及所述当前用户画像生成目标网页内容摘要之后,所述网页内容摘要生成方法还包括:
根据所述待展示网页内容确定所述待展示网页的网页类别,并根据所述网页类别生成所述待展示网页的展示模板;
基于所述展示模板对所述待展示网页内容以及所述目标网页内容摘要进行展示。
优选地,所述在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息,具体包括:
在接收到网页访问请求时,对所述网页访问请求进行标识提取,获得信息标识;
根据所述信息标识对所述网页访问请求进行信息筛选,获得用户标识信息以及网页地址信息。
此外,为实现上述目的,本发明还提出一种网页内容摘要生成设备,所述网页内容摘要生成设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页内容摘要生成程序,所述网页内容摘要生成程序配置为实现如上文所述的网页内容摘要生成方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有网页内容摘要生成程序,所述网页内容摘要生成程序被处理器执行时实现如上文所述的网页内容摘要生成方法的步骤。
此外,为实现上述目的,本发明还提出一种网页内容摘要生成装置,所述网页内容摘要生成装置包括:提取模块、确定模块和生成模块;
所述提取模块,用于在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息;
所述确定模块,用于查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像;
所述生成模块,用于根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要。
本发明中,在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息,查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像,根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要;相较于现有的直接将整个网页内容进行展示的方式,本发明中根据历史浏览记录生成当前用户画像,并根据当前用户画像生成待展示网页的网页内容摘要,克服了现有技术中无法生成待展示网页的网页内容摘要的缺陷,从而能够自动生成与用户浏览习惯相近的网页内容摘要,提高阅读效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的网页内容摘要生成设备的结构示意图;
图2为本发明网页内容摘要生成方法第一实施例的流程示意图;
图3为本发明网页内容摘要生成方法第二实施例的流程示意图;
图4为本发明网页内容摘要生成方法第三实施例的流程示意图;
图5为本发明网页内容摘要生成装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的网页内容摘要生成设备结构示意图。
如图1所示,该网页内容摘要生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对网页内容摘要生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,认定为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及网页内容摘要生成程序。
在图1所示的网页内容摘要生成设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述网页内容摘要生成设备通过处理器1001调用存储器1005中存储的网页内容摘要生成程序,并执行本发明实施例提供的网页内容摘要生成方法。
基于上述硬件结构,提出本发明网页内容摘要生成方法的实施例。
参照图2,图2为本发明网页内容摘要生成方法第一实施例的流程示意图,提出本发明网页内容摘要生成方法第一实施例。
步骤S10:在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息。
需要说明的是,本实施例的执行主体是所述网页内容摘要生成设备,其中,所述网页内容摘要生成设备可为手机、电脑以及服务器等电子设备,还可为其他可实现相同或相似功能的设备,本实施例对此不作限制,在本实施例以及下述各实施例中,以网页内容摘要生成设备为例对本发明网页内容摘要生成方法进行说明。
需要理解的是,网页访问请求可以是用户终端设备发出的访问请求,其中,用户终端设备可以是预先与网页内容摘要生成设备建立通信连接的设备,用户终端设备可以接收用户输入的指令;用户标识信息可以是用来标识用户身份的信息,例如,用户ID等,本实施例对此不加以限制;网页地址信息可以是用户想要访问的网站地址。
应当理解的是,在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息可以是在接收到网页访问请求时,对所述网页访问请求进行标识提取,获得信息标识,根据所述信息标识对所述网页访问请求进行信息筛选,获得用户标识信息以及网页地址信息。
步骤S20:查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像。
可以理解的是,查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像可以是预设映射关系表中查找所述用户标识信息对应的历史浏览记录,所述预设映射关系表中包含所述用户标识信息与所述历史浏览记录的对应关系,基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据,根据所述待分析数据建立用户标签模型,并根据所述用户标签模型生成当前用户画像。
需要说明的是,预设映射关系表中包含用户标识信息与历史浏览记录的对应关系,其中,对应关系可以根据用户的历史访问信息确定。例如,用户在每次访问网页时,网页内容摘要生成设备都会将用户标识信息以及访问信息对应保存至预设映射关系表;预设文本挖掘算法可以是TF-IDF、TopicModel以及LDA中的至少一种算法,本实施例对此不加以限制。
应当理解的是,基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据可以是基于预设文本挖掘算法对历史浏览记录进行数据提取,获得提取数据,并对提取数据进行数据清洗,获得待分析数据。
可以理解的是,根据待分析数据建立用户标签模型,并根据用户标签模型生成当前用户画像可以是在预设标签库中查找待分析数据对应的用户标签模型,并直接基于用户标签模型生成当前用户画像,其中,预设标签库中包含待分析数据与用户标签模型之间的对应关系,所述对应关系可以根据用户的实际使用习惯进行设置。
步骤S30:根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要。
应当理解的是,根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要可以是查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语,统计所述待处理词语在所述待处理网页内容中的出现次数,根据所述当前用户画像确定所述待处理词语的权重值,并根据所述权重值以及所述出现次数生成所述待处理词语的总分值,根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要。
在具体实现中,例如,“Geoffrey Hinton is the god father of deeplearning.And I love deep learning“这一句,需要计算每个不同的单词出现在句子中的次数,例如”deep“和”learning“都出现两次,其余的单词在一个句子中只出现一次。
应当理解的是,根据当前用户画像可以确定用户经常浏览的词语,并将用户经常浏览的词语设置较高的权重值。
可以理解的是,根据所述权重值以及所述出现次数生成所述待处理词语的总分值可以是直接将权重值与出现次数相乘,获得待处理词语的总分值。
可以理解的是,根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要可以是根据总分值对待处理网页内容进行排序,获得排序结果,根据排序结果生成目标网页内容摘要,例如,根据总分值从大到小对待处理网页内容的待处理词语进行排序,将排名处于前五位的待处理词语作为摘要词语,并根据摘要词语生成目标网页内容摘要。
在第一实施例中,在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息,查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像,根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要;相较于现有的直接将整个网页内容进行展示的方式,本实施例中根据历史浏览记录生成当前用户画像,并根据当前用户画像生成待展示网页的网页内容摘要,克服了现有技术中无法生成待展示网页的网页内容摘要的缺陷,从而能够自动生成与用户浏览习惯相近的网页内容摘要,提高阅读效率。
参照图3,图3为本发明网页内容摘要生成方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明网页内容摘要生成方法的第二实施例。
在第二实施例中,所述步骤S10,包括:
步骤S101:在接收到网页访问请求时,对所述网页访问请求进行标识提取,获得信息标识。
需要说明的是,网页访问请求可以是用户终端设备发出的访问请求,其中,用户终端设备可以是预先与网页内容摘要生成设备建立通信连接的设备,用户终端设备可以接收用户输入的指令;信息标识可以是用来标识信息类型的标识,例如,用户信息标识等,本实施对此不加以限制。
应当理解的是,对网页访问请求进行标识提取,获得信息标识可以是对网页访问请求进行遍历,获得当前网页访问请求信息,并判断当前网页访问请求信息是否为标识类型,在当前网页访问请求信息为标识类型时,将当前网页访问请求信息作为待提取信息,在对网页访问请求遍历结束后,根据待提取信息生成信息标识。
步骤S102:根据所述信息标识对所述网页访问请求进行信息筛选,获得用户标识信息以及网页地址信息。
需要理解的是,用户标识信息可以是用来标识用户身份的信息,例如,用户ID等,本实施例对此不加以限制;网页地址信息可以是用户想要访问的网站地址。
可以理解的是,根据信息标识对网页访问请求进行信息筛选,获得用户标识信息以及网页地址信息可以是判断信息标识是否为用户标识,在信息标识为用户标识时,将用户标识对应的网页访问请求信息作为用户标识信息;判断信息标识是否为网址标识,在信息标识为网址标识时,将网址标识对应的网页访问请求信息作为网页地址信息。
在第二实施例中,通过在接收到网页访问请求时,对所述网页访问请求进行标识提取,获得信息标识,根据所述信息标识对所述网页访问请求进行信息筛选,获得用户标识信息以及网页地址信息,从而能够快速、准确的筛选出用户标识信息以及网页地址信息,提高处理效率。
在第二实施例中,所述步骤S20,包括:
步骤S201:在预设映射关系表中查找所述用户标识信息对应的历史浏览记录,所述预设映射关系表中包含所述用户标识信息与所述历史浏览记录的对应关系。
需要说明的是,预设映射关系表中包含用户标识信息与历史浏览记录的对应关系,其中,对应关系可以根据用户的历史访问信息确定。例如,用户在每次访问网页时,网页内容摘要生成设备都会将用户标识信息以及访问信息对应保存至预设映射关系表。
步骤S202:基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据。
需要说明的是,预设文本挖掘算法可以是TF-IDF、TopicModel以及LDA中的至少一种算法,本实施例对此不加以限制。
应当理解的是,基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据可以是基于预设文本挖掘算法对历史浏览记录进行数据提取,获得提取数据,并对提取数据进行数据清洗,获得待分析数据。
步骤S203:根据所述待分析数据建立用户标签模型,并根据所述用户标签模型生成当前用户画像。
可以理解的是,根据待分析数据建立用户标签模型,并根据用户标签模型生成当前用户画像可以是在预设标签库中查找待分析数据对应的用户标签模型,并直接基于用户标签模型生成当前用户画像,其中,预设标签库中包含待分析数据与用户标签模型之间的对应关系,所述对应关系可以根据用户的实际使用习惯进行设置。
进一步地,考虑到实际应用中,若直接在预设标签库中查找待分析数据对应的用户标签模型,并基于用户标签模型生成当前用户画像,势必会导致用户画像生成过程所涉及的对象过少,准确率低。为克服这一缺陷,所述步骤S203,包括:
对所述待分类数据进行特征分析,获得文本特征数据;
根据所述文本特征数据通过预设相似度计算模型确定文本相似度;
根据所述文本相似度通过预设推荐算法以及预设机器学习算法建立用户标签模型;
根据所述用户标签模型以及预设预测模型生成当前用户画像。
可以理解的是,对待分类数据进行分聚类分析,获得文本特征数据可以基于分类算法模型以及聚类算法模型中的至少一种对待分类数据进行分聚类分析,获得文本特征数据,其中,分类算法模型可以用于预测新用户,信息不全的用户的信息,对用户进行预测分类,分类算法可以是KNN、神经网络、贝叶斯网络以及SVM中的至少一种,本实施例对此不加以限制;聚类算法模型可以用于分析挖掘出具有相同特征的群体信息,进行受众细分,市场细分。
需要说明的是,预设相似度计算模型可以是欧式距离模型、皮尔逊相似度模型以及余弦相似度模型中的至少一种,本实施例对此不加以限制。
需要说明的是,预设推荐算法可以是Apriori算法、NBI二分图、FTPree算法以及SVD矩阵分解中的至少一种;预设机器学习算法可以是特征提取建模、特征选择建模以及预测优化模型中的至少一种,本实施对此不加以限制。
应当理解的是,根据用户标签模型以及预设预测模型生成当前用户画像可以是将用户标签模型输入画像生成脚本的预测层,预测层基于预设预测模型,例如,机器学习中的监督学习、量经济学中的回归预测以及数学中的线性规划等方法生成当前用户画像。
在第二实施例中,步骤S30,包括:
步骤S301:查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语。
应当理解的是,查找所述网页地址信息对应的待展示网页可以是直接对网络地址信息进行解析,获得待展示网页。
可以理解的是,根据所述待展示网页确定待处理词语可以是预设分词模型直接对待展示网页进行分词,获得待处理词语。
进一步地,为了提高待处理词语生成的准确性,所述步骤S301,包括:
查找所述网页地址信息对应的待展示网页,对所述待展示网页进行内容提取,获得待展示网页内容;
对所述待展示网页内容进行数据清洗,获得待处理网页内容;
根据预设分词模型对所述待处理网页内容进行分词,获得待处理词语。
应当理解的是,对待展示网页进行内容提取,获得待展示网页内容可以是基于内容提取脚本对待展示网页进行内容提取,获得待展示网页内容,其中,内容提取脚本可以是Beautiful Soup等,本实施例对此不加以限制。
可以理解的是,对所述待展示网页内容进行数据清洗,获得待处理网页内容可以是识别待展示网页内容中不完整、不正确、不准确以及不相关的部分,然后替换、修改、或删除这部分数据。
需要说明的是,预设分词模型可以是机械分词算法、基于n元语法的分词算法、基于隐马尔可夫模型的分词算法以及基于条件随机场的分词算法中的至少一种,本实施例对此不加以限制。
步骤S302:统计所述待处理词语在所述待处理网页内容中的出现次数。
在具体实现中,例如,“Geoffrey Hinton is the god father of deeplearning.And I love deep learning“这一句,需要计算每个不同的单词出现在句子中的次数,例如”deep“和”learning“都出现两次,其余的单词在一个句子中只出现一次。
步骤S303:根据所述当前用户画像确定所述待处理词语的权重值,并根据所述权重值以及所述出现次数生成所述待处理词语的总分值。
应当理解的是,根据当前用户画像可以确定用户经常浏览的词语,并将用户经常浏览的词语设置较高的权重值。
可以理解的是,根据所述权重值以及所述出现次数生成所述待处理词语的总分值可以是直接将权重值与出现次数相乘,获得待处理词语的总分值。
步骤S304:根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要。
可以理解的是,根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要可以是根据总分值对待处理网页内容进行排序,获得排序结果,根据排序结果生成目标网页内容摘要,例如,根据总分值从大到小对待处理网页内容的待处理词语进行排序,将排名处于前五位的待处理词语作为摘要词语,并根据摘要词语生成目标网页内容摘要。
在第二实施例中,通过查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语,统计所述待处理词语在所述待处理网页内容中的出现次数,根据所述当前用户画像确定所述待处理词语的权重值,并根据所述权重值以及所述出现次数生成所述待处理词语的总分值,根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要,从而能够准确生成与用户画像相关的网页内容摘要。
参照图4,图4为本发明网页内容摘要生成方法第三实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明网页内容摘要生成方法的第三实施例。
在第三实施例中,所述步骤S30之后,还包括:
步骤S40:根据所述待展示网页内容确定所述待展示网页的网页类别,并根据所述网页类别生成所述待展示网页的展示模板。
需要说明的是,网页类别可以是用来标识待展示网页类别的信息,例如,用来新闻网页的标识信息以及用来标识娱乐网页的标识信息等,本实施例对此不加以限制。
应当理解的是,不同的网页内容展示方式也不同,因此,在显示目标网页摘要时,也需要根据展示方式的不同进行相应的调整。
可以理解的是,根据所述待展示网页内容确定所述待展示网页的网页类别,并根据所述网页类别生成所述待展示网页的展示模板可以是对待展示网页内容进行内容识别,根据识别结果确定待展示网页的网页类别,在预设展示模板表中查找网页类别对应的展示模板,其中,预设展示模板表包含网页类别与展示模板之间的对应关系,该对应关系根据用户的实际需求进行设置,本实施例对此不加以限制。
步骤S50:基于所述展示模板对所述待展示网页内容以及所述目标网页内容摘要进行展示。
可以理解的是,基于所述展示模板对所述待展示网页内容以及所述目标网页内容摘要进行展示可以是将待展示网页内容以及目标网页内容摘要聚合到展示模板上,并展示聚合后的展示模板。
在第三实施例中,通过根据所述待展示网页内容确定所述待展示网页的网页类别,并根据所述网页类别生成所述待展示网页的展示模板,基于所述展示模板对所述待展示网页内容以及所述目标网页内容摘要进行展示,从而能够适应不同的网页类别,提高用户体验。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有网页内容摘要生成程序,所述网页内容摘要生成程序被处理器执行时实现如上文所述的网页内容摘要生成方法的步骤。
结合本发明实施例,还存在一种优选的实现方案,在生成所述网页内容摘要,并在用户智能终端设备(例如智能手机)上呈现时,还会根据历史上用户浏览网页时点击界面中各个位置的频率,搜集对应不同用户的浏览焦点,即根据实验测试过,即便是同一台智能设备,不同用户使用过程中,其喜好的屏幕关注区域,以及对应于网页中的浏览舒适区域是不同的,这种不同会直接引发相应用户在拖动网页进行点击浏览操作时,倾向于将待点击浏览的内容拖动到浏览焦点或者浏览舒适区域进行操作。因此,通过上述的智能终端设备配合网页点击操作,采集到各个用户的历史点击操作所对应的浏览焦点位置,从而在呈现网页内容摘要时,将打分最高或者理解为与用户当前浏览契合度最高的内容摘要生成在相应浏览焦点或者浏览舒适区域位置,以便用户能够第一时间反应,通过最简单的点击操作实现最想获取内容的互动过程。
结合上述优选方案,在具体实现过程中,还会配合相应智能终端识别是单一左手操作还是单一右手操作来完成上述网页内容摘要在浏览焦点上的微调,例如:若用户的浏览焦点靠近屏幕的左侧,而此时智能终端检测到用户是在用右手操作,此时,可以根据智能终端屏幕的大小,适应性的调整所述位于浏览焦点处的摘要内容的边框宽度,使得用户即便在使用与浏览焦点匹配度不太高的右手单手操作时,也能够顺利的完成点击操作。
此外,参照图5,本发明实施例还提出一种网页内容摘要生成装置,所述网页内容摘要生成装置包括:提取模块10、确定模块20和生成模块30;
所述提取模块10,用于在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息。
需要理解的是,网页访问请求可以是用户终端设备发出的访问请求,其中,用户终端设备可以是预先与网页内容摘要生成设备建立通信连接的设备,用户终端设备可以接收用户输入的指令;用户标识信息可以是用来标识用户身份的信息,例如,用户ID等,本实施例对此不加以限制;网页地址信息可以是用户想要访问的网站地址。
应当理解的是,在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息可以是在接收到网页访问请求时,对所述网页访问请求进行标识提取,获得信息标识,根据所述信息标识对所述网页访问请求进行信息筛选,获得用户标识信息以及网页地址信息。
所述确定模块20,用于查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像。
可以理解的是,查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像可以是预设映射关系表中查找所述用户标识信息对应的历史浏览记录,所述预设映射关系表中包含所述用户标识信息与所述历史浏览记录的对应关系,基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据,根据所述待分析数据建立用户标签模型,并根据所述用户标签模型生成当前用户画像。
需要说明的是,预设映射关系表中包含用户标识信息与历史浏览记录的对应关系,其中,对应关系可以根据用户的历史访问信息确定。例如,用户在每次访问网页时,网页内容摘要生成设备都会将用户标识信息以及访问信息对应保存至预设映射关系表;预设文本挖掘算法可以是TF-IDF、TopicModel以及LDA中的至少一种算法,本实施例对此不加以限制。
应当理解的是,基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据可以是基于预设文本挖掘算法对历史浏览记录进行数据提取,获得提取数据,并对提取数据进行数据清洗,获得待分析数据。
可以理解的是,根据待分析数据建立用户标签模型,并根据用户标签模型生成当前用户画像可以是在预设标签库中查找待分析数据对应的用户标签模型,并直接基于用户标签模型生成当前用户画像,其中,预设标签库中包含待分析数据与用户标签模型之间的对应关系,所述对应关系可以根据用户的实际使用习惯进行设置。
所述生成模块30,用于根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要。
应当理解的是,根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要可以是查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语,统计所述待处理词语在所述待处理网页内容中的出现次数,根据所述当前用户画像确定所述待处理词语的权重值,并根据所述权重值以及所述出现次数生成所述待处理词语的总分值,根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要。
在具体实现中,例如,“Geoffrey Hinton is the god father of deeplearning.And I love deep learning“这一句,需要计算每个不同的单词出现在句子中的次数,例如”deep“和”learning“都出现两次,其余的单词在一个句子中只出现一次。
应当理解的是,根据当前用户画像可以确定用户经常浏览的词语,并将用户经常浏览的词语设置较高的权重值。
可以理解的是,根据所述权重值以及所述出现次数生成所述待处理词语的总分值可以是直接将权重值与出现次数相乘,获得待处理词语的总分值。
可以理解的是,根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要可以是根据总分值对待处理网页内容进行排序,获得排序结果,根据排序结果生成目标网页内容摘要,例如,根据总分值从大到小对待处理网页内容的待处理词语进行排序,将排名处于前五位的待处理词语作为摘要词语,并根据摘要词语生成目标网页内容摘要。
在本实施例中,在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息,查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像,根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要;相较于现有的直接将整个网页内容进行展示的方式,本实施例中根据历史浏览记录生成当前用户画像,并根据当前用户画像生成待展示网页的网页内容摘要,克服了现有技术中无法生成待展示网页的网页内容摘要的缺陷,从而能够自动生成与用户浏览习惯相近的网页内容摘要,提高阅读效率。
在一实施例中,所述确定模块20,还用于在预设映射关系表中查找所述用户标识信息对应的历史浏览记录,所述预设映射关系表中包含所述用户标识信息与所述历史浏览记录的对应关系,基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据,根据所述待分析数据建立用户标签模型,并根据所述用户标签模型生成当前用户画像;
在一实施例中,所述确定模块20,还用于对所述待分类数据进行特征分析,获得文本特征数据,根据所述文本特征数据通过预设相似度计算模型确定文本相似度,根据所述文本相似度通过预设推荐算法以及预设机器学习算法建立用户标签模型,根据所述用户标签模型以及预设预测模型生成当前用户画像;
在一实施例中,所述生成模块30,还用于对所述待分类数据进行特征分析,获得文本特征数据,根据所述文本特征数据通过预设相似度计算模型确定文本相似度,根据所述文本相似度通过预设推荐算法以及预设机器学习算法建立用户标签模型,根据所述用户标签模型以及预设预测模型生成当前用户画像;
在一实施例中,所述生成模块30,还用于查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语,统计所述待处理词语在所述待处理网页内容中的出现次数,根据所述当前用户画像确定所述待处理词语的权重值,并根据所述权重值以及所述出现次数生成所述待处理词语的总分值,根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要;
在一实施例中,所述网页内容摘要生成装置还包括:展示模块;
所述展示模块,用于根据所述待展示网页内容确定所述待展示网页的网页类别,并根据所述网页类别生成所述待展示网页的展示模板,基于所述展示模板对所述待展示网页内容以及所述目标网页内容摘要进行展示;
在一实施例中,所述提取模块10,用于在接收到网页访问请求时,对所述网页访问请求进行标识提取,获得信息标识,根据所述信息标识对所述网页访问请求进行信息筛选,获得用户标识信息以及网页地址信息。
本发明所述网页内容摘要生成装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为名称。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种网页内容摘要生成方法,其特征在于,所述网页内容摘要生成方法包括:
在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息;
查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像;
根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要。
2.如权利要求1所述的网页内容摘要生成方法,其特征在于,所述查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像,具体包括:
在预设映射关系表中查找所述用户标识信息对应的历史浏览记录,所述预设映射关系表中包含所述用户标识信息与所述历史浏览记录的对应关系;
基于预设文本挖掘算法对所述历史浏览记录进行预处理,获得待分析数据;
根据所述待分析数据建立用户标签模型,并根据所述用户标签模型生成当前用户画像。
3.如权利要求2所述的网页内容摘要生成方法,其特征在于,所述根据所述待分析数据建立行为分析模型,并根据所述行为分析模型生成当前用户画像,具体包括:
对所述待分类数据进行特征分析,获得文本特征数据;
根据所述文本特征数据通过预设相似度计算模型确定文本相似度;
根据所述文本相似度通过预设推荐算法以及预设机器学习算法建立用户标签模型;
根据所述用户标签模型以及预设预测模型生成当前用户画像。
4.如权利要求1所述的网页内容摘要生成方法,其特征在于,所述根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要,具体包括:
查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语;
统计所述待处理词语在所述待处理网页内容中的出现次数;
根据所述当前用户画像确定所述待处理词语的权重值,并根据所述权重值以及所述出现次数生成所述待处理词语的总分值;
根据所述总分值对所述待处理网页内容进行筛选,获得目标网页内容摘要。
5.如权利要求4所述的网页内容摘要生成方法,其特征在于,所述查找所述网页地址信息对应的待展示网页,并根据所述待展示网页确定待处理词语,具体包括:
查找所述网页地址信息对应的待展示网页,对所述待展示网页进行内容提取,获得待展示网页内容;
对所述待展示网页内容进行数据清洗,获得待处理网页内容;
根据预设分词模型对所述待处理网页内容进行分词,获得待处理词语。
6.如权利要求5所述的网页内容摘要生成方法,其特征在于,所述根据所述网页地址信息确定待展示网页内容,并基于所述待展示网页内容以及所述当前用户画像生成目标网页内容摘要之后,所述网页内容摘要生成方法还包括:
根据所述待展示网页内容确定所述待展示网页的网页类别,并根据所述网页类别生成所述待展示网页的展示模板;
基于所述展示模板对所述待展示网页内容以及所述目标网页内容摘要进行展示。
7.如权利要求1-6中任一项所述的网页内容摘要生成方法,其特征在于,所述在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息,具体包括:
在接收到网页访问请求时,对所述网页访问请求进行标识提取,获得信息标识;
根据所述信息标识对所述网页访问请求进行信息筛选,获得用户标识信息以及网页地址信息。
8.一种网页内容摘要生成设备,其特征在于,所述网页内容摘要生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页内容摘要生成程序,所述网页内容摘要生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的网页内容摘要生成方法。
9.一种存储介质,其特征在于,所述存储介质上存储有网页内容摘要生成程序,所述网页内容摘要生成程序被处理器执行时实现如权利要求1至7中任一项所述的网页内容摘要生成方法。
10.一种网页内容摘要生成装置,其特征在于,所述网页内容摘要生成装置包括:提取模块、确定模块和生成模块;
所述提取模块,用于在接收到网页访问请求时,对所述网页访问请求进行信息提取,获得用户标识信息以及网页地址信息;
所述确定模块,用于查找所述用户标识信息对应的历史浏览记录,并根据所述历史浏览记录确定当前用户画像;
所述生成模块,用于根据所述网页地址信息确定待展示网页,并基于所述待展示网页以及所述当前用户画像生成目标网页内容摘要。
CN202010983986.4A 2020-09-18 2020-09-18 网页内容摘要生成方法、设备、存储介质及装置 Pending CN112182451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010983986.4A CN112182451A (zh) 2020-09-18 2020-09-18 网页内容摘要生成方法、设备、存储介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010983986.4A CN112182451A (zh) 2020-09-18 2020-09-18 网页内容摘要生成方法、设备、存储介质及装置

Publications (1)

Publication Number Publication Date
CN112182451A true CN112182451A (zh) 2021-01-05

Family

ID=73920217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010983986.4A Pending CN112182451A (zh) 2020-09-18 2020-09-18 网页内容摘要生成方法、设备、存储介质及装置

Country Status (1)

Country Link
CN (1) CN112182451A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969558A (zh) * 2022-08-03 2022-08-30 安徽商信政通信息技术股份有限公司 一种基于用户行为习惯分析的用户画像生成方法和***
CN116578793A (zh) * 2023-07-03 2023-08-11 广州趣米网络科技有限公司 前端页面设计方法和***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458718A (zh) * 2009-01-05 2009-06-17 北京大学 一种搜索引擎动态摘要提取方法
CN102446191A (zh) * 2010-10-13 2012-05-09 北京创新方舟科技有限公司 一种用于生成网页内容摘要的方法、设备及***
KR101541170B1 (ko) * 2014-10-21 2015-08-03 (주)센솔로지 텍스트 요약 장치 및 방법
CN106776860A (zh) * 2016-11-28 2017-05-31 北京三快在线科技有限公司 一种搜索摘要生成方法及装置
CN108121802A (zh) * 2017-12-22 2018-06-05 东软集团股份有限公司 网页访问的热力分析方法、装置及其设备
CN108288229A (zh) * 2018-03-02 2018-07-17 北京邮电大学 一种用户画像构建方法
CN108776676A (zh) * 2018-02-02 2018-11-09 腾讯科技(深圳)有限公司 信息推荐方法、装置、计算机可读介质及电子设备
CN110837556A (zh) * 2019-10-30 2020-02-25 深圳价值在线信息科技股份有限公司 摘要生成方法、装置、终端设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458718A (zh) * 2009-01-05 2009-06-17 北京大学 一种搜索引擎动态摘要提取方法
CN102446191A (zh) * 2010-10-13 2012-05-09 北京创新方舟科技有限公司 一种用于生成网页内容摘要的方法、设备及***
KR101541170B1 (ko) * 2014-10-21 2015-08-03 (주)센솔로지 텍스트 요약 장치 및 방법
CN106776860A (zh) * 2016-11-28 2017-05-31 北京三快在线科技有限公司 一种搜索摘要生成方法及装置
CN108121802A (zh) * 2017-12-22 2018-06-05 东软集团股份有限公司 网页访问的热力分析方法、装置及其设备
CN108776676A (zh) * 2018-02-02 2018-11-09 腾讯科技(深圳)有限公司 信息推荐方法、装置、计算机可读介质及电子设备
CN108288229A (zh) * 2018-03-02 2018-07-17 北京邮电大学 一种用户画像构建方法
CN110837556A (zh) * 2019-10-30 2020-02-25 深圳价值在线信息科技股份有限公司 摘要生成方法、装置、终端设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969558A (zh) * 2022-08-03 2022-08-30 安徽商信政通信息技术股份有限公司 一种基于用户行为习惯分析的用户画像生成方法和***
CN116578793A (zh) * 2023-07-03 2023-08-11 广州趣米网络科技有限公司 前端页面设计方法和***
CN116578793B (zh) * 2023-07-03 2024-01-26 广州趣米网络科技有限公司 前端页面设计方法和***

Similar Documents

Publication Publication Date Title
CN110825957B (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
CN101542486B (zh) 排序图
CN111444428A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
US8355997B2 (en) Method and system for developing a classification tool
US7917514B2 (en) Visual and multi-dimensional search
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
US8484194B1 (en) Training set construction for taxonomic classification
CN110888990A (zh) 文本推荐方法、装置、设备及介质
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN110178129B (zh) 生成用于图像处理操作的目标图像的语义表示的***和方法
JP4538760B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
TWI457775B (zh) 網址分類管理方法及使用該方法之電子裝置
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN112182451A (zh) 网页内容摘要生成方法、设备、存储介质及装置
CN112579893A (zh) 一种信息推送、信息展示方法、装置及设备
JPWO2020095357A1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
KR102322212B1 (ko) 학습 콘텐츠 추천 장치 및 방법
CN113821596A (zh) 信息推荐方法、装置、计算机设备及存储介质
JP6924450B2 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
CN113569132A (zh) 一种信息检索展示方法及***
CN115618349A (zh) 工控资产漏洞检测方法、设备、存储介质及装置
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210105