CN111723256A - 一种基于信息资源库的政务用户画像构建方法及其*** - Google Patents

一种基于信息资源库的政务用户画像构建方法及其*** Download PDF

Info

Publication number
CN111723256A
CN111723256A CN202010503176.4A CN202010503176A CN111723256A CN 111723256 A CN111723256 A CN 111723256A CN 202010503176 A CN202010503176 A CN 202010503176A CN 111723256 A CN111723256 A CN 111723256A
Authority
CN
China
Prior art keywords
user
model
algorithm
label
government
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010503176.4A
Other languages
English (en)
Inventor
汪敏
严妍
王静
刘轩山
周键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kaipuyun Information Technology Co ltd
Cape Cloud Information Technology Co ltd
Original Assignee
Beijing Kaipuyun Information Technology Co ltd
Cape Cloud Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kaipuyun Information Technology Co ltd, Cape Cloud Information Technology Co ltd filed Critical Beijing Kaipuyun Information Technology Co ltd
Priority to CN202010503176.4A priority Critical patent/CN111723256A/zh
Publication of CN111723256A publication Critical patent/CN111723256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于信息资源库的政务用户画像构建方法及其***,所述方法包括:***汇聚原始资源,根据存储介质构建多源计算模型;为资源自动匹配相应压缩算法并切片,根据网络环境自适应调整切片大小,运用数字指纹算法为每个切片生成数字指纹,经比对将有效切片与多源计算模型进行匹配,统一编码、自动寻址后存储;分析存储的数字指纹特征,智能抽取特征输出特定标签,运用聚类算法自动关联特定标签,构建用户分析模型,开展机器训练和加权计算,根据权重生成用户画像;运用推荐算法对用户画像打分实现精准推送,本技术通过对用户政务数据的智能分析梳理,构建法人/自然人用户画像,为实现政府网站的千人千网、专人专网的精准推送奠定基础。

Description

一种基于信息资源库的政务用户画像构建方法及其***
技术领域
本发明属于数据处理、可视化技术领域,尤其涉及一种基于信息资源库的政务用户画像构建方法及其***。
背景技术
在互联网大数据时代,网络信息高度冗杂,尤其是在各类事务相互交叉关联、重复使用度高的政府领域,更需要对数据有极高的专业处理能力,对政务数据进行全面的挖掘和分析,实现信息的精准采集和推送,降低不断重复提交的政务手续,实现政府网站千人千网、专人专网的精准定位。
目前,现有的画像构建方法是采集用户行为数据,去除冗余数据,对清洗后数据进行分析处理和特征提取,形成用户标签并生成用户画像,以实现精准营销。但是,这种技术方案也存在不足,其只能解决传统领域中数据规模不大、容易采集和存储的资源,而对于政府领域,由于横向跨部门、纵向分级的管理结构,各部门、各层级***间的数据多是相互独立的,并且存储形式分散无序,无法实现完整采集,统一有序的管理,进而对用户特征无法全面提取和有效描述,也就无法进行精准推送,这个是当前急需解决的问题。
发明内容
为了解决现有技术对政务数据采集不完整导致画像描述不准确无法实现精确推送的问题,本发明提供一种基于信息资源库的政务用户画像构建方法及其***,通过构建分类科学、集中规范、共享共用的信息资源库,按照“先入库,后使用”原则,对来自平台上各政府网站的信息资源以及对接应用***数据库中的资源进行统一管理,实现统一采集、统一分类、统一元数据、统一数据格式、统一调用、统一监管,并运用压缩算法优化采集性能,通过模板自动切片智能提取特征标签,运用聚类算法自动关联标签构建用户分析模型,进而生成用户画像,最后将业务数据与用户画像相匹配,实现精准推荐,为实现政府网站的千人千网、专人专网的精准推送奠定基础。
本发明提供的一种基于信息资源库的政务用户画像构建方法,具体实现步骤是:
***汇聚原始资源,判断不同存储介质特性,构建多源计算模型;判断原始资源数据类型、大小和使用频率,自动匹配合适的压缩算法并切片;动态收集网络速度、网络质量、后台服务器处理任务量级和处理能力等参数,自适应调整传输切片大小;运用数字指纹算法为每个切片生成一个数字指纹,比对数字指纹后将有效切片与多源计算模型进行匹配,统一编码、自动寻址存储到无限数据列表中;分析列表中的数字指纹特征,智能抽取特征输出特定标签;运用聚类算法自动关联特定标签,构建用户分析模型并进行机器训练和加权计算,根据权重生成用户画像;运用推荐算法对用户画像进行评分,根据得分实现多终端精准推送。
进一步地,原始资源来源可包括:区县信息资源库、数据库、文件***、视频库、图片库、正风行风热线、政务信息公开、政务资料库等。
进一步地,多终端可以包括:网站发布***、两微一端***、政务服务门户、数据开发平台等。
进一步地,用户画像包括:法人用户画像、自然人用户画像。
进一步地,***根据原始资源种类不同自动匹配合适的压缩算法,比如:图片优先使用RLE压缩算法,音视频优先使用Rice压缩算法,文本及其他类型使用deflate压缩算法,小文本优先选择snappy压缩算法。
进一步地,存储介质的种类包括:分布式文件***、分布式缓存***、非关系型数据库和关系型数据库等。
进一步地,针对网页元数据,运用DOM节点剪枝算法分类网页模板,针对分类的网页模板运用视觉模型算法构造视觉模型和视觉模型链,分析视觉模型的结构化特征并通过模型抽取网页数据进而输出特定标签。
进一步地,推荐算法可包括:基于协同过滤的推荐算法、基于关联规则的推荐算法和基于内容的推荐算法等。
另外,本发明还提供一种可构建政务用户画像的信息资源库***,该***包括以下模块:
数据采集模块:运用采集工具从互联网、移动互联网多渠道多终端采集原始资源;
数据处理和存储模块:判断原始资源的数据类型、大小和使用频率,自动匹配合适的压缩算法并切片;动态收集网络速度、网络质量、服务器处理任务量级和处理能力等参数,自适应调整传输切片大小;运用数字指纹算法为每个切片生成一个数字指纹,比对数字指纹后将有效切片与多源计算模型进行匹配,统一编码、自动寻址并存储到标签语料库中;
模型构建和训练模块:判断各种存储介质的特性,构建多源计算模型;从标签语料库中提取特征并输出特定标签,运用聚类算法自动关联特定标签,构建用户分析模型并进行机器训练;
画像构建模块:通过用户分析模型对特定标签进行加权计算,根据权重生成用户画像,并存储到用户画像库中;
接口管理模块:对采集源、推送终端的接口进行管理;
推荐模块:运用推荐算法对用户画像进行评分,根据得分向多终端进行推送。
进一步地,数据处理和存储模块包括压缩子模块、指纹生成子模块、标签语料库和用户画像库。
进一步地,模型构建和训练模块包括智能提取子模块、模型构建和训练器。
进一步地,画像构建模块包括标签计算子模块、画像生成子模块。
进一步地,采集工具包括:ETL工具和WEB数据采集工具,不同的采集工具适用于不同的信息源。ETL工具多用于处理关系型数据库***、XML文件和JSON文件的采集;Web数据采集工具多用于处理Web应用***。
本发明提供的一种基于信息资源库的政务用户画像构建的方法及其***,相比于现有技术具有以下优点:
本发明作为政务信息的汇聚管理平台,能够有效汇聚用户在政府网站上操作产生的所有信息,比如注册的用户基本信息,访问政府网站的浏览轨迹信息,在政府网站中的留言、投诉、来信、建议等信息,通过政府网站办理企业及个人服务事项的行为信息和过程记录等。通过对这些信息的智能分析梳理,构建法人/自然人政务用户画像,为实现政府网站的千人千网、专人专网的精准推送奠定基础。
附图说明
图1为实施例一提供的一种基于信息资源库的政务用户画像构建方法的流程示意图。
图2为实施例二提供的一种基于政务用户画像的信息资源库***的结构示意图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。
实施例一
参见图1,为本实施例提供的一种基于信息资源库的政务用户画像构建方法,所举实例只用于解释本发明,并非用于限定本发明的范围。该方法具体包括以下步骤:
S1、***汇聚原始资源;
S2、判断各个存储介质的特性,构建多源计算模型;
S3、判断原始资源的数据类型、大小和使用频率,为原始资源自动匹配合适的压缩算法并切片;
S4、动态收集网络速度、网络质量、服务器处理任务量级和处理能力等参数并判断,超出指定阈值时自适应调整传输切片大小;
S5、运用数字指纹算法为每个切片生成一个数字指纹;
S6、比对数字指纹,指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到无限数据列表中,否则放弃采集;
S7、分析列表中的数字指纹特征,智能抽取特征输出特定标签;
S8、运用聚类算法自动关联特定标签并构建用户分析模型,对用户分析模型进行机器训练和加权计算,判断标签权重生成用户画像;
S9、运用推荐算法对用户画像进行评分,根据分数进行多终端精准推送。
其中,S1还包括以下步骤:
S1.1、分布式搜索引擎对采集源分区域设立检索服务器;
S1.2、经URL地址重写将动态网页标准化为静态网页;
S1.3、网页模板引擎访问静态网页,从页面中分离出动态数据保存到缓存***中,SSI直译服务器对静态网页做动态数据更新;
S1.4、运用文本挖掘算法对缓存中数据进行汇聚。
其中,S1.1中“采集源”包括:网页采集、客户端埋点采集、APP采集和外部接口采集。
其中,S2中“存储介质”包括:分布式文件***、分布式缓存***、非关系型数据库和关系型数据库等。
其中,S3还包括以下步骤:
S3.1、判断原始资源是否为图片,若是,使用RLE压缩算法;
S3.2、否则,判断原始资源是否为音视频,若是,使用Rice压缩算法;
S3.3、否则,判断原始资源是否为文本及其他类型,若是,使用deflate压缩算法;
S3.4、对压缩后资源进行切片。
其中,S3.3中所述“文本”为小文件时,使用snappy压缩算法。
其中,S3中所述“原始资源的数据类型”包括如下格式:
Figure BSA0000210753260000051
其中,S5中所述“数字指纹”是指每条元数据集的唯一编码;S7中所述“特定标签”是指元数据集;S8中所述“用户画像”是指对元数据集进行加权计算根据权重形成的标签集合。
其中,S7中所述“特定标签”由不同类型的元数据集构成,元数据集又由元数据组成,每条元数据集包含一个数字指纹,唯一对应一个特定标签,元数据集按照数据类型分为:
Figure BSA0000210753260000052
Figure BSA0000210753260000061
其中,S7还包括以下步骤:
S7.1、分析列表中的数字指纹特征;
S7.2、当为网页元数据,运用DOM节点剪枝算法分类网页模板;
S7.3、针对分类的网页模板运用视觉模型算法构造视觉模型和视觉模型链;
S7.4、分析视觉模型的结构化特征;
S7.5、智能抽取特征输出特定标签。
其中,S7.5中所述“特定标签”根据输出顺序不同包括:事实标签、模型标签和预测标签。
其中,S8还包括以下步骤:
S8.1、运用聚类算法自动关联事实标签,构建用户分析模型;
S8.2、对用户分析模型进行机器训练,输出模型标签;
S8.3、运用预测算法对模型标签进行预判,输出预测标签;
S8.4、对预测标签进行加权计算,判断标签权重生成用户画像。
其中,S8.1中所述“事实标签”是指:在政务活动中产生的行为数据,比如:描述自然人A的每一条元数据集都可以看作是一个事实标签;S8.2中所述“模型标签”是指:将行为数据通过数字指纹进行关联汇聚而成的用户特征,比如:将描述自然人A的每一个事实标签进行聚类,生成模型标签,如下:
Figure BSA0000210753260000071
其中,S8.3中所述“预测标签”是指:根据行为数据对用户特征进行预判形成的预测特征,比如:通过对自然人A的行为数据对其爱好进行预测,生成预测标签,如下:
Figure BSA0000210753260000072
其中,S8.4中所述“用户画像”是指:对预测标签进行加权计算,权重越高越接近用户特征,进而生成用户画像,比如:通过对自然人A的行为数据进行分析,可以了解其关心政府发布的哪些政策,访问了哪些政府网站、办理了哪些政务服务事项,最近在网站搜索了哪些词汇,通过政府网站提交了哪些留言、投诉、建议或来信的信息,时间越近、行为次数越多的行为其权重越高,就越接近用户特征,进而构建出用户画像。
其中,S8中所述“加权计算”可通过TF-IDF算法实现,具体是:
比重公式
Figure BSA0000210753260000073
其中,w(P,T)表示某标签T被用于标记用户P的次数,w(P,Ti)表示用户P身上全部标签个数,TF(P,T)表示某标签T的标记次数在用户P所有标签中所占的比重;
稀缺程度公式
Figure BSA0000210753260000074
其中,w(Pi,Ti)表示全部用户的全部标签之和,w(Pi,T)表示所有打某标签T的用户之和,IDF(P,T)表示某标签T在全部标签中的出现几率;
权重公式tag_weight(P,T)=TF(P,T)*IDF(P,T)
考虑到某标签T所处的业务场景、距今时间、用户P产生某标签T的行为次数等因素,用户标签权重公式如下:
用户标签权重=(行为类型权重*时间衰减)*(tag_weight(P,T)*行为次数)
其中,行为类型权重表示用户浏览、搜索、收藏、访问、提交、投诉、建议等不同行为对用户而言有着不同的重要性,不同行为的权重也不相同;时间衰减表示某些行为受时间影响不断减弱,应乘以时间衰减函数;tag_weight(P,T)表示运用TF-IDF算法计算用户身上每个标签的客观权重;行为次数表示用户产生每个标签的行为次数。
其中,S9中所述“精准推送”是指:与构成用户画像的标签进行匹配,匹配度越高,分值越高,近似度越大,进而实现精准推送,比如:自然人A最近在政府网站输入小升初,后台会判断该用户可能是一个孩子家长,孩子即将要升初中,那么本地所有小升初相关的政策、动态、活动等信息就会陆续推送给该用户;再比如:当政府网站和APP发布新的信息时,先判断该信息对应的标签与哪些用户具有的标签相匹配,从而将信息精准的推送给匹配的用户,并且每个用户因为自身画像不同,收到的信息也不同,真正做到千人千网。
实施例二
参见图2,为本实施例提供的一种可构建政务用户画像的信息资源库***,所举实例只用于解释本发明,并非用于限定本发明的范围。该***具体包括以下模块:
数据采集模块:运用采集工具从互联网、移动互联网多渠道多终端采集原始资源;
数据处理和存储模块:判断原始资源的数据类型、大小和使用频率,为原始资源自动匹配合适的压缩算法并切片,动态收集网络速度、网络质量、服务器处理任务量级和处理能力参数并判断,超出指定阈值时自适应调整传输切片大小,运用数字指纹算法为每个切片生成一个数字指纹,比对数字指纹,指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到标签语料库中;
模型构建和训练模块:判断各个存储介质的特性,构建多源计算模型,分析标签语料库中的数字指纹特征,智能抽取特征输出特定标签,运用聚类算法自动关联特定标签并构建用户分析模型,对用户分析模型进行机器训练;
画像构建模块:通过用户分析模型对特定标签进行加权计算,判断标签权重生成用户画像;
接口管理模块:对采集源、推送终端的接口进行管理;
推荐模块:运用推荐算法对用户画像进行评分,根据得分向多终端进行推送。
其中,该模型构建和训练模块进一步包括以下内容:
模型构建和训练器:判断各个存储介质的特性构建多源计算模型;从标签语料库中提取特征并输出特定标签,运用聚类算法自动关联特定标签构建用户分析模型,运用深度学习算法对用户分析模型进行机器训练;
智能提取子模块:针对网页元数据,分析存储的数字指纹特征,运用DOM节点剪枝算法分类网页模板,针对分类的网页模板运用视觉模型算法构造视觉模型和视觉模型链,分析视觉模型的结构化特征并通过模型抽取网页数据进而输出特定标签;针对其他端数据,分析存储的数字指纹特征进而输出特定标签。
其中,该画像构建模块进一步包括以下内容:
标签计算子模块:通过用户分析模型对特定标签进行加权计算和权重判断;
画像生成子模块:根据权重生成用户画像,并存储到用户画像库中。
其中,该数据处理和存储模块进一步包括以下内容:
压缩子模块:判断原始资源的数据类型、大小和使用频率,自动匹配合适的压缩算法并切片;动态收集网络速度、网络质量、服务器处理任务量级和处理能力等参数,自适应调整传输切片大小;
指纹生成子模块:运用数字指纹算法为每个切片生成一个数字指纹,经数字指纹比对后将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到标签语料库中;
标签语料库:存储输出的特定标签,包括事实标签、模型标签和预测标签,各个标签可由不同数据类型的元数据集构成,每条元数据集最多只能收录在一个标签下;
用户画像库:包括法人用户画像和自然人用户画像。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (15)

1.一种基于信息资源库的政务用户画像构建方法,其特征在于:包括如下步骤:
S1、***汇聚原始资源;
S2、判断各个存储介质的特性,构建多源计算模型;
S3、判断原始资源的数据类型、大小和使用频率,为原始资源自动匹配合适的压缩算法并切片;
S4、动态收集网络速度、网络质量、服务器处理任务量级和处理能力参数并判断,超出指定阈值时自适应调整传输切片大小;
S5、运用数字指纹算法为每个切片生成一个数字指纹;
S6、比对数字指纹,指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到无限数据列表中,否则放弃采集;
S7、分析列表中的数字指纹特征,智能抽取特征输出特定标签;
S8、运用聚类算法自动关联特定标签并构建用户分析模型,对用户分析模型进行机器训练和加权计算,判断标签权重生成用户画像;
S9、运用推荐算法对用户画像进行评分,根据分数进行多终端精准推送。
2.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S1进一步包括以下步骤:
S1.1、分布式搜索引擎对采集源分区域设立检索服务器;
S1.2、经URL地址重写将动态网页标准化为静态网页;
S1.3、网页模板引擎访问静态网页,从页面中分离出动态数据保存到缓存***中,SSI直译服务器对静态网页做动态数据更新;
S1.4、运用文本挖掘算法对缓存中数据进行汇聚。
3.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S3进一步包括以下步骤:
S3.1、判断原始资源是否为图片,若是,使用RLE压缩算法;
S3.2、否则,判断原始资源是否为音视频,若是,使用Rice压缩算法;
S3.3、否则,判断原始资源是否为文本及其他类型,若是,使用deflate压缩算法;
S3.4、对压缩后资源进行切片。
4.如权利要求3所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S3.3中文本为小文件时,使用snappy压缩算法。
5.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S7进一步包括以下步骤:
S7.1、分析列表中的数字指纹特征;
S7.2、当为网页元数据,运用DOM节点剪枝算法分类网页模板;
S7.3、针对分类的网页模板运用视觉模型算法构造视觉模型和视觉模型链;
S7.4、分析视觉模型的结构化特征;
S7.5、智能抽取特征输出特定标签。
6.如权利要求1或5所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述数字指纹是指每条元数据集的唯一编码;所述特定标签由不同类型的元数据集构成,元数据集又由元数据组成,每条元数据集包含一个数字指纹,唯一对应一个特定标签;所述特定标签根据输出顺序不同包括:事实标签、模型标签和预测标签。
7.如权利要求6所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述事实标签是指在政务活动中产生的行为数据,所述模型标签是指将行为数据通过数字指纹进行关联汇聚而成的用户特征,所述预测标签是指根据行为数据对用户特征进行预判形成的预测特征。
8.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S8进一步包括以下步骤:
S8.1、运用聚类算法自动关联事实标签,构建用户分析模型;
S8.2、对用户分析模型进行机器训练,输出模型标签;
S8.3、运用预测算法对模型标签进行预判,输出预测标签;
S8.4、对预测标签进行加权计算,判断标签权重生成用户画像。
9.如权利要求1或8所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述用户画像是指对预测特征包含的元数据集进行加权计算,根据权重形成的标签集合,权重越高越接近用户特征。
10.如权利要求1或8所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述加权计算是:
用户标签权重=(行为类型权重*时间衰减)*(tag_weight(P,T)*行为次数)其中,行为类型权重表示用户浏览、搜索、收藏、访问、提交、投诉、建议不同行为对用户而言有着不同的重要性,不同行为的权重也不相同;时间衰减表示某些行为受时间影响不断减弱,应乘以时间衰减函数;tag_weight(P,T)表示运用TF-IDF算法计算用户身上每个标签的客观权重;行为次数表示用户产生每个标签的行为次数。
11.如权利要求1所述的一种基于信息资源库的政务用户画像构建方法,其特征在于:所述S9中精准推送是指与构成用户画像的标签进行匹配,匹配度越高,分值越高,近似度越大,进而实现精准推送。
12.一种可构建政务用户画像的信息资源库***,其特征在于:该***包括以下模块:
数据采集模块:运用采集工具从互联网、移动互联网多渠道多终端采集原始资源;数据处理和存储模块:判断原始资源的数据类型、大小和使用频率,为原始资源自动匹配合适的压缩算法并切片,动态收集网络速度、网络质量、服务器处理任务量级和处理能力参数并判断,超出指定阈值时自适应调整传输切片大小,运用数字指纹算法为每个切片生成一个数字指纹,比对数字指纹,指纹不同时将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到标签语料库中;模型构建和训练模块:判断各个存储介质的特性,构建多源计算模型,分析标签语料库中的数字指纹特征,智能抽取特征输出特定标签,运用聚类算法自动关联特定标签并构建用户分析模型,对用户分析模型进行机器训练;
画像构建模块:通过用户分析模型对特定标签进行加权计算,判断标签权重生成用户画像;
接口管理模块:对采集源、推送终端的接口进行管理;
推荐模块:运用推荐算法对用户画像进行评分,根据得分向多终端进行推送。
13.如权利要求12所述的一种可构建政务用户画像的信息资源库***,其特征在于:所述模型构建和训练模块还包括以下模块:
模型构建和训练器:判断各个存储介质的特性构建多源计算模型;从标签语料库中提取特征并输出特定标签,运用聚类算法自动关联特定标签构建用户分析模型,运用深度学习算法对用户分析模型进行机器训练;
智能提取子模块:针对网页元数据,分析存储的数字指纹特征,运用DOM节点剪枝算法分类网页模板,针对分类的网页模板运用视觉模型算法构造视觉模型和视觉模型链,分析视觉模型的结构化特征并通过模型抽取网页数据进而输出特定标签;针对其他端数据,分析存储的数字指纹特征进而输出特定标签。
14.如权利要求12所述的一种可构建政务用户画像的信息资源库***,其特征在于:所述画像构建模块还包括以下模块:
标签计算子模块:通过用户分析模型对特定标签进行加权计算和权重判断;
画像生成子模块:根据权重生成用户画像,并存储到用户画像库中。
15.如权利要求12所述的一种可构建政务用户画像的信息资源库***,其特征在于:所述数据处理和存储模块还包括以下模块:
压缩子模块:判断原始资源的数据类型、大小和使用频率,自动匹配合适的压缩算法并切片;动态收集网络速度、网络质量、服务器处理任务量级和处理能力参数,自适应调整传输切片大小;
指纹生成子模块:运用数字指纹算法为每个切片生成一个数字指纹,经数字指纹比对后将有效切片与多源计算模型匹配进行统一编码和自动寻址,并存储到标签语料库中;
标签语料库:存储输出的特定标签,包括事实标签、模型标签和预测标签,各个标签可由不同数据类型的元数据集构成,每条元数据集最多只能收录在一个标签下;
用户画像库:包括法人用户画像和自然人用户画像。
CN202010503176.4A 2020-06-03 2020-06-03 一种基于信息资源库的政务用户画像构建方法及其*** Pending CN111723256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010503176.4A CN111723256A (zh) 2020-06-03 2020-06-03 一种基于信息资源库的政务用户画像构建方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010503176.4A CN111723256A (zh) 2020-06-03 2020-06-03 一种基于信息资源库的政务用户画像构建方法及其***

Publications (1)

Publication Number Publication Date
CN111723256A true CN111723256A (zh) 2020-09-29

Family

ID=72565994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010503176.4A Pending CN111723256A (zh) 2020-06-03 2020-06-03 一种基于信息资源库的政务用户画像构建方法及其***

Country Status (1)

Country Link
CN (1) CN111723256A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417274A (zh) * 2020-11-17 2021-02-26 中国建设银行股份有限公司 一种消息推送方法、装置、电子设备及存储介质
CN113761134A (zh) * 2021-09-16 2021-12-07 平安国际智慧城市科技股份有限公司 用户画像构建方法、装置、计算机设备及存储介质
CN114119058A (zh) * 2021-08-10 2022-03-01 国家电网有限公司 用户画像模型的构建方法、设备及存储介质
CN114529227A (zh) * 2022-04-24 2022-05-24 九州银丰(北京)科技有限公司 一种基于大数据与深度学***台
CN115796607A (zh) * 2023-01-30 2023-03-14 国网山西省电力公司营销服务中心 一种基于用电信息分析的采集终端安全画像评估方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002075928A2 (en) * 2001-03-20 2002-09-26 Arum Technology Co., Ltd. Lossless data compression method for uniform entropy data
CN106909766A (zh) * 2015-12-18 2017-06-30 ***通信集团公司 一种信息处理方法及电子设备
CN106910147A (zh) * 2015-12-23 2017-06-30 神州数码信息***有限公司 一种基于多领域融合的智慧城市推荐技术与***
CN110109964A (zh) * 2017-12-31 2019-08-09 广州明领基因科技有限公司 面向英语泛在学习模式的大数据分析生态***
CN110852601A (zh) * 2019-11-07 2020-02-28 佛山市南海区环境技术中心 一种用于环境监察执法决策的大数据应用方法及***
CN110928922A (zh) * 2019-11-27 2020-03-27 开普云信息科技股份有限公司 一种基于大数据挖掘的公共政策分析模型部署方法及其***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002075928A2 (en) * 2001-03-20 2002-09-26 Arum Technology Co., Ltd. Lossless data compression method for uniform entropy data
CN106909766A (zh) * 2015-12-18 2017-06-30 ***通信集团公司 一种信息处理方法及电子设备
CN106910147A (zh) * 2015-12-23 2017-06-30 神州数码信息***有限公司 一种基于多领域融合的智慧城市推荐技术与***
CN110109964A (zh) * 2017-12-31 2019-08-09 广州明领基因科技有限公司 面向英语泛在学习模式的大数据分析生态***
CN110852601A (zh) * 2019-11-07 2020-02-28 佛山市南海区环境技术中心 一种用于环境监察执法决策的大数据应用方法及***
CN110928922A (zh) * 2019-11-27 2020-03-27 开普云信息科技股份有限公司 一种基于大数据挖掘的公共政策分析模型部署方法及其***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李璋: "基于Hadoop的互联网数据营销***的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417274A (zh) * 2020-11-17 2021-02-26 中国建设银行股份有限公司 一种消息推送方法、装置、电子设备及存储介质
CN114119058A (zh) * 2021-08-10 2022-03-01 国家电网有限公司 用户画像模型的构建方法、设备及存储介质
CN114119058B (zh) * 2021-08-10 2023-09-26 国家电网有限公司 用户画像模型的构建方法、设备及存储介质
CN113761134A (zh) * 2021-09-16 2021-12-07 平安国际智慧城市科技股份有限公司 用户画像构建方法、装置、计算机设备及存储介质
CN114529227A (zh) * 2022-04-24 2022-05-24 九州银丰(北京)科技有限公司 一种基于大数据与深度学***台
CN115796607A (zh) * 2023-01-30 2023-03-14 国网山西省电力公司营销服务中心 一种基于用电信息分析的采集终端安全画像评估方法

Similar Documents

Publication Publication Date Title
Alam et al. Processing social media images by combining human and machine computing during crises
US9449271B2 (en) Classifying resources using a deep network
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其***
KR20210040891A (ko) 정보 추천 방법과 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN103049440A (zh) 一种相关文章的推荐处理方法和处理***
CN112015962A (zh) 一种政务智能大数据中心体系架构
CN109947902B (zh) 一种数据查询方法、装置和可读介质
CN113297457B (zh) 一种高精准性的信息资源智能推送***及推送方法
CN108595525A (zh) 一种律师信息处理方法和***
CN110188291B (zh) 基于代理日志的文档处理
Das et al. A CV parser model using entity extraction process and big data tools
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN113139141A (zh) 用户标签扩展标注方法、装置、设备及存储介质
KR101864401B1 (ko) 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템
CN112036659A (zh) 基于组合策略的社交网络媒体信息流行度预测方法
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和***
CN113792195B (zh) 跨***的数据获取方法、装置、计算机设备和存储介质
CN113742496B (zh) 一种基于异构资源融合的电力知识学习***及方法
Autelitano et al. Spatio-temporal mining of keywords for social media cross-social crawling of emergency events
CN110019763B (zh) 文本过滤方法、***、设备及计算机可读存储介质
KR20150096024A (ko) 콘텐츠 추천을 위한 소셜 데이터 분석 시스템
Clarizia et al. A sentiment analysis approach for evaluation of events in field of cultural heritage
CN115982429B (zh) 一种基于流程控制的知识管理方法及***
CN108614860A (zh) 一种律师信息处理方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929

RJ01 Rejection of invention patent application after publication