CN116245555A - 一种基于大数据的用户信息收集分析*** - Google Patents
一种基于大数据的用户信息收集分析*** Download PDFInfo
- Publication number
- CN116245555A CN116245555A CN202310222160.XA CN202310222160A CN116245555A CN 116245555 A CN116245555 A CN 116245555A CN 202310222160 A CN202310222160 A CN 202310222160A CN 116245555 A CN116245555 A CN 116245555A
- Authority
- CN
- China
- Prior art keywords
- user
- browsing
- health
- information
- health degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 claims abstract description 156
- 238000004458 analytical method Methods 0.000 claims abstract description 51
- 238000011161 development Methods 0.000 claims abstract description 38
- 238000011156 evaluation Methods 0.000 claims abstract description 35
- 230000006399 behavior Effects 0.000 claims description 98
- 230000008451 emotion Effects 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims 1
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004630 mental health Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009323 psychological health Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于大数据的用户信息收集分析***,具体涉及用户大数据分析技术领域,包括用户信息收集模块、用户上网时间健康度系数获取模块、用户网络发言健康度系数获取模块、用户浏览信息分析模块、用户网络行为健康度评估模块、用户健康度发展分析模块,本发明提供了网络行为健康度的分析方法,从上网时间、网络发言、浏览信息三个维度分别得到对网络行为健康度的影响系数,最后进行综合评估,得到用户的网络行为健康度评分,并且利用用户健康度发展分析模块跟踪分析用户的健康度发展趋势,实现对用户网络行为健康度的监测,实现了对用户的网络行为健康程度的获取、量化、监测。
Description
技术领域
本发明涉及用户大数据分析技术领域,更具体地说,本发明涉及一种基于大数据的用户信息收集分析***。
背景技术
随着互联网络的普及,以及大数据处理技术的提高,用户在网络平台中留下越来越多的“痕迹”,这些痕迹包括文字、图片、视频,以及浏览痕迹。采集这些痕迹,得到大数据,经过大数据处理,从收集的信息中挖掘用户的信息。健康的定义包括身体健康和心理健康,现代医疗的发展基本保障人们能够有病就医,但是心理层面的健康重视程度、针对心理健康采取的措施并不够。
健康的网络行为是用户合理规划上网时间,利用网络学习,从网络中浏览积极信息,并留下积极的网络言论,共同营造积极的网络环境,用户的心理健康才能够不断的正向发展。但是目前缺少对网络行为的健康程度的分析和评估,导致无法了解用户的网络行为健康程度。
因此如何从用户的网络行为中获取、评估网络行为,并监测用户网络行为的健康度发展是管理者亟需关注的问题。
发明内容
为了克服现有技术的上述问题,本发明提供一种基于大数据的用户信息收集分析***,通过收集用户网络行为信息得到大数据,从大数据中挖掘出用户上网时间健康度系数、用户网络发言健康度系数、用户浏览健康度系数,评估用户网络行为的健康度,基于健康度数值判断用户网络行为,以解决上述背景技术中提出的用户的网络行为健康程度难以获取、量化的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大数据的用户信息收集分析***,包括用户信息收集模块、用户上网时间健康度系数获取模块、用户网络发言健康度系数获取模块、用户浏览信息分析模块、用户网络行为健康度评估模块、用户健康度发展分析模块,所述用户信息收集模块通过在用户上网平台中安装监视器的方法收集活跃用户的信息,将收集的信息以用户为单位存储在数据库中,每个用户单位包括用户基础信息、上网时间信息、网络发言信息、浏览信息四个类别;
所述用户上网时间健康度系数获取模块从数据库采集得到用户的上网时间信息,包括用户一天中在线总时长,用户一天中在线学习时长,用户一天中在线熬夜时长,分析得到用户上网时间健康度系数ε1,随着在线时长越长、学习时长占比越低、熬夜时长占比越高健康评估的系数ε1越低;
所述用户网络发言健康度系数获取模块从数据库中获得用户在网络中发言信息,包括用户一天内的网络发言文档,分析得到用户网络发言健康度系数ε2,发言文档中包括n个词向量,基于文本情感分析模型得到每个词向量的情感系数y,情绪健康系数ε2满足公式,其中yi表示第i个词向量的情感系数;
所述用户浏览信息分析模块从数据中获得用户在网络中的浏览信息,包括一天内的浏览时长、浏览内容、浏览情感指向,分析得到用户浏览健康度系数ε3;
所述用户网络行为健康度评估模块用于评估用户在一天内的网络行为健康度,在一天内的网络行为健康度JKD满足满足公式,其中w1、w2、w3分别表示用户上网时间健康度、用户网络发言健康度、用户浏览健康度对评估用户网络行为健康度的权重因子,且w1+w2+w3=100%影响因子,网络行为健康度数值越大,表示用户网络行为越健康。
在一个优选地实施方式中,所述用户信息收集模块包括信息筛选单元、用户网络行为收集单元,所述信息筛选单元基于筛选条件筛选出活跃用户,筛选条件为用户每月在线活跃天数、用户网络行为数据量大小;所述用户行为收集单元用户收集用户上网时间信息、用户网络发言信息和用户浏览信息。
在一个优选地实施方式中,所述用户上网时间健康度系数ε1满足公式,其中t表示用户在线总时长,ta表示用户在学习上花费的时长,tb表示用户熬夜的时长,k1、k2、k3分别表示在线时长的影响因子、在线学习时间的影响因子、在线熬夜时长的影响因子。
在一个优选地实施方式中,所述用户浏览信息分析模块,通过设置浏览时长区间,筛选得到用户一天内在时长区间内的L篇浏览信息,根据每篇浏览信息的关键词、浏览情感指向,将浏览信息分为正向浏览信息和负向浏览信息,将所有正向浏览信息的浏览时长相加,将所有负向浏览信息的浏览时长相加,所述用户浏览健康度系数ε3满足公式,用Zt表示正向浏览信息的时间总和,用Ft表示负向浏览信息的时间总和。
在一个优选地实施方式中,所述用户浏览偏好画像构建单元通过提取每个浏览内容的关键词,将得到浏览时间和关键词传输至用户浏览习惯分析子单元;所述用户浏览习惯分析子单元用于分析用户浏览时的偏好,基于浏览时间和关键词信息分析用户的浏览偏好,通过聚类算法将所有关键词分类,然后计算每个类别关键词的出现频率,所述出现频率为关键词累计浏览时长除以总时长,依据关键词出现频率建立用户浏览偏好画像。
在一个优选地实施方式中,所述用户健康度发展评估模块包括用户当月健康度发展状态评估单元、用户健康度趋势评估单元、用户健康度综合评估单元,所述用户当月健康度发展状态评估单元用于评估在一个月内用户的不健康网络行为数值与健康网络行为数值的比值;所述用户健康度趋势评估单元用于评估用户每个月的不健康网络行为数值的变化趋势;所述用户健康度综合评估单元用于评估用户每个月的网络行为发展状态。
在一个优选地实施方式中,所述用户健康度发展评估模块用于分析评估用户的网络行为健康度的发展状态,包括下列步骤:
S1、采集用户每日的网络行为健康度,得到当月行为健康度数据集(di,z),数据集(di,z)用于di表示第i天中的用户网络行为健康度;
S2、建立直角坐标系将数据集在坐标系中标记,x轴表示时间,y轴表示网络行为健康度,将当月行为健康度数据集对应到直角坐标系中,得到离散点,将离散点经过拟合变成函数曲线;
S3、获取用户当月健康度发展状态系数,计算函数曲线和坐标轴围成的面积S,以第一象限中的面积Sa表示健康网络行为数值,以第四象限中的面积Sb表示不健康网络行为数值,得到用户当月健康度发展状态系数,若γ1>1表示当月的网络行为不健康,γ1越大当月的网络行为不健康程度越高;
S4、获取用户健康度趋势系数,采集用户每月的不健康网络行为数值,得到数据集B,记为,计算每个月不健康网络行为数值的增长率,即为用户健康度趋势系数/>,其中Sn+1表示当月的不健康网络行为数值,Sn表示前一月的不健康网络行为数值,若γ2>0表示用户健康度发展趋势不健康,γ2越大当月的网络行为不健康程度越高;
在一个优选地实施方式中,所述文本情感分析模型用于分析网络发言文档的情感系数,所述文本情感分析模型基于神经网络算法,包括输入层、隐含层、分类输出层,其中的输入层用于输入发言文档中包括的词向量x,输出层通过分类器输出词向量对应的情绪类型y,情绪隐含层用于词向量中的提取特征,包括n层神经元,神经元之间通过激活函数处理神经元的输出,隐含层中满足公式:,其中xi表示输入的词向量,wi表示第i个神经元的连接权重,b为激活阈值,f表示激活函数。
在一个优选地实施方式中,文本情感分析模型包括下列步骤:
S11、提取文档关键词和情绪词:从数据库中提取用户言论文档,利用正则表达式将文档拆分词汇,过滤词汇中的无意义词语得到文档中有效词汇集合A,得到所有文件中高频率词汇集合B,用集合A减去集合A与集合B的交集,得到文档中的关键词集合C,同时标记文档中的情绪词;
S12、言论向量化表述:把每个句子中的单词表述成一个词向量,即把每个单词都表示为一个高维空间内的向量,所述词向量的维度在260-280之间,得到n个词向量;
S13、特征提取:将词向量输入神经网络模型中提取特征,在特征提取时为步骤S1中得到的情绪词和关键词增加权重,提取词向量中的特征P(X,Y),所述特征P(X,Y)表示样本特征X与该样本所属类别的联合概率分布,利用连续词袋模型提取特征;
S14、情感分类器的分类:利用分类器将步骤S3得到的特征划分为4个梯度的情感状态,分别为消极、正常、积极,情感状态用数值量化表示,依次为-1分,0分,1分,得到词向量的情绪数值y。
本发明的技术效果和优点:
本发明提供了网络行为健康度的分析方法,从上网时间、网络发言、浏览信息三个维度分别得到对网络行为健康度的影响系数,最后进行综合评估,得到用户的网络行为健康度评分,并且利用用户健康度发展分析模块跟踪分析用户的健康度发展趋势,实现对用户网络行为健康度的监测,实现了对用户的网络行为健康程度的获取、量化、监测的效果。
附图说明
图1为本发明的***结构框图。
图2为本发明的用户健康度发展评估流程图。
图3为本发明的文本情感分析模型流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请使用的“模块”、“***”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本实施例提供了如图1所示一种基于大数据的用户信息收集分析***,包括用户信息收集模块、用户上网时间健康度系数获取模块、用户网络发言健康度系数获取模块、用户浏览信息分析模块、用户网络行为健康度评估模块、用户健康度发展分析模块,所述用户信息收集模块通过在用户上网平台中安装监视器的方法收集活跃用户的信息,将收集的信息以用户为单位存储在数据库中,每个用户单位包括用户基础信息、上网时间信息、网络发言信息、浏览信息四个类别;
所述用户上网时间健康度系数获取模块从数据库采集得到用户的上网时间信息,包括用户一天中在线总时长,用户一天中在线学习时长,用户一天中在线熬夜时长,分析得到用户上网时间健康度系数ε1,随着在线时长越长、学习时长占比越低、熬夜时长占比越高健康评估的系数ε1越低;
所述用户网络发言健康度系数获取模块从数据库中获得用户在网络中发言信息,包括用户一天内的网络发言文档,分析得到用户网络发言健康度系数ε2,发言文档中包括n个词向量,基于文本情感分析模型得到每个词向量的情感系数y,情绪健康系数ε2满足公式,其中yi表示第i个词向量的情感系数;
所述用户浏览信息分析模块从数据中获得用户在网络中的浏览信息,包括一天内的浏览时长、浏览内容、浏览情感指向,分析得到用户浏览健康度系数ε3;
所述用户网络行为健康度评估模块用于评估用户在一天内的网络行为健康度,在一天内的网络行为健康度JKD满足满足公式,其中w1、w2、w3分别表示用户上网时间健康度、用户网络发言健康度、用户浏览健康度对评估用户网络行为健康度的权重因子,且w1+w2+w3=100%影响因子,网络行为健康度数值越大,表示用户网络行为越健康。
进一步的,所述用户信息收集模块包括信息筛选单元、用户网络行为收集单元,所述信息筛选单元基于筛选条件筛选出活跃用户,筛选条件为用户每月在线活跃天数、用户网络行为数据量大小;所述用户行为收集单元用户收集用户上网时间信息、用户网络发言信息和用户浏览信息。
进一步的,所述用户上网时间健康度系数ε1满足公式,其中t表示用户在线总时长,ta表示用户在学习上花费的时长,tb表示用户熬夜的时长,k1、k2、k3分别表示在线时长的影响因子、在线学习时间的影响因子、在线熬夜时长的影响因子。
进一步的,所述用户浏览信息分析模块,通过设置浏览时长区间,筛选得到用户一天内在时长区间内的L篇浏览信息,根据每篇浏览信息的关键词、浏览情感指向,将浏览信息分为正向浏览信息和负向浏览信息,将所有正向浏览信息的浏览时长相加,将所有负向浏览信息的浏览时长相加,所述用户浏览健康度系数ε3满足公式,用Zt表示正向浏览信息的时间总和,用Ft表示负向浏览信息的时间总和。
进一步的,所述用户浏览偏好画像构建单元通过提取每个浏览内容的关键词,将得到浏览时间和关键词传输至用户浏览习惯分析子单元;所述用户浏览习惯分析子单元用于分析用户浏览时的偏好,基于浏览时间和关键词信息分析用户的浏览偏好,通过聚类算法将所有关键词分类,然后计算每个类别关键词的出现频率,所述出现频率为关键词累计浏览时长除以总时长,依据关键词出现频率建立用户浏览偏好画像。
进一步的,所述用户健康度发展评估模块包括用户当月健康度发展状态评估单元、用户健康度趋势评估单元、用户健康度综合评估单元,所述用户当月健康度发展状态评估单元用于评估在一个月内用户的不健康网络行为数值与健康网络行为数值的比值;所述用户健康度趋势评估单元用于评估用户每个月的不健康网络行为数值的变化趋势;所述用户健康度综合评估单元用于评估用户每个月的网络行为发展状态。
进一步的,如图2所示,所述用户健康度发展评估模块用于分析评估用户的网络行为健康度的发展状态,包括下列步骤:
S1、采集用户每日的网络行为健康度,得到当月行为健康度数据集(di,z),数据集(di,z)用于di表示第i天中的用户网络行为健康度;
S2、建立直角坐标系将数据集在坐标系中标记,x轴表示时间,y轴表示网络行为健康度,将当月行为健康度数据集对应到直角坐标系中,得到离散点,将离散点经过拟合变成函数曲线;
S3、获取用户当月健康度发展状态系数,计算函数曲线和坐标轴围成的面积S,以第一象限中的面积Sa表示健康网络行为数值,以第四象限中的面积Sb表示不健康网络行为数值,得到用户当月健康度发展状态系数,若γ1>1表示当月的网络行为不健康,γ1越大当月的网络行为不健康程度越高;
S4、获取用户健康度趋势系数,采集用户每月的不健康网络行为数值,得到数据集B,记为,计算每个月不健康网络行为数值的增长率,即为用户健康度趋势系数/>,其中Sn+1表示当月的不健康网络行为数值,Sn表示前一月的不健康网络行为数值,若γ2>0表示用户健康度发展趋势不健康,γ2越大当月的网络行为不健康程度越高;
进一步的,所述文本情感分析模型用于分析网络发言文档的情感系数,所述文本情感分析模型基于神经网络算法,包括输入层、隐含层、分类输出层,其中的输入层用于输入发言文档中包括的词向量x,输出层通过分类器输出词向量对应的情绪类型y,情绪隐含层用于词向量中的提取特征,包括n层神经元,神经元之间通过激活函数处理神经元的输出,隐含层中满足公式:,其中xi表示输入的词向量,wi表示第i个神经元的连接权重,b为激活阈值,f表示激活函数。
进一步的,如图3所示,文本情感分析模型包括下列步骤:
S11、提取文档关键词和情绪词:从数据库中提取用户言论文档,利用正则表达式将文档拆分词汇,过滤词汇中的无意义词语得到文档中有效词汇集合A,得到所有文件中高频率词汇集合B,用集合A减去集合A与集合B的交集,得到文档中的关键词集合C,同时标记文档中的情绪词;
S12、言论向量化表述:把每个句子中的单词表述成一个词向量,即把每个单词都表示为一个高维空间内的向量,所述词向量的维度在260-280之间,得到n个词向量;
S13、特征提取:将词向量输入神经网络模型中提取特征,在特征提取时为步骤S1中得到的情绪词和关键词增加权重,提取词向量中的特征P(X,Y),所述特征P(X,Y)表示样本特征X与该样本所属类别的联合概率分布,利用连续词袋模型提取特征;
S14、情感分类器的分类:利用分类器将步骤S3得到的特征划分为4个梯度的情感状态,分别为消极、正常、积极,情感状态用数值量化表示,依次为-1分,0分,1分,得到词向量的情绪数值y。
综上:本发明设计了网络行为健康度的评估方法,从上网时间、网络发言、浏览信息三个维度分别得到对网络行为健康度的影响系数,最后进行综合评估,得到用户的网络行为健康度评分,并且利用用户健康度发展分析模块跟踪分析用户的健康度发展趋势,实现对用户网络行为健康度的监测,实现了对用户的网络行为健康程度的获取、量化、监测的效果。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于大数据的用户信息收集分析***,其特征在于:包括用户信息收集模块、用户上网时间健康度系数获取模块、用户网络发言健康度系数获取模块、用户浏览信息分析模块、用户网络行为健康度评估模块、用户健康度发展分析模块,所述用户信息收集模块通过在用户上网平台中安装监视器的方法收集活跃用户的信息,将收集的信息以用户为单位存储在数据库中,每个用户单位包括用户基础信息、上网时间信息、网络发言信息、浏览信息四个类别;
所述用户上网时间健康度系数获取模块从数据库采集得到用户的上网时间信息,包括用户一天中在线总时长,用户一天中在线学习时长,用户一天中在线熬夜时长,分析得到用户上网时间健康度系数ε1,随着在线时长越长、学习时长占比越低、熬夜时长占比越高健康评估的系数ε1越低;
所述用户网络发言健康度系数获取模块从数据库中获得用户在网络中发言信息,包括用户一天内的网络发言文档,分析得到用户网络发言健康度系数ε2,发言文档中包括n个词向量,基于文本情感分析模型得到每个词向量的情感系数y,情绪健康系数ε2满足公式,其中yi表示第i个词向量的情感系数;
所述用户浏览信息分析模块包括用户浏览健康度系数获取单元和用户浏览偏好画像构建单元,用户浏览健康度系数获取单元从数据中获得用户在网络中的浏览信息,包括一天内的浏览时长、浏览内容、浏览情感指向,分析得到用户浏览健康度系数ε3;
2.根据权利要求1所述的一种基于大数据的用户信息收集分析***,其特征在于:所述用户信息收集模块包括信息筛选单元、用户网络行为收集单元,所述信息筛选单元基于筛选条件筛选出活跃用户,筛选条件为用户每月在线活跃天数、用户网络行为数据量大小;所述用户行为收集单元用户收集用户上网时间信息、用户网络发言信息和用户浏览信息。
5.根据权利要求1所述的一种基于大数据的用户信息收集分析***,其特征在于:所述用户浏览偏好画像构建单元通过提取每个浏览内容的关键词,将得到浏览时间和关键词传输至用户浏览习惯分析子单元;所述用户浏览习惯分析子单元用于分析用户浏览时的偏好,基于浏览时间和关键词信息分析用户的浏览偏好,通过聚类算法将所有关键词分类,然后计算每个类别关键词的出现频率,所述出现频率为关键词累计浏览时长除以总时长,依据关键词出现频率建立用户浏览偏好画像。
6.根据权利要求1所述的一种基于大数据的用户信息收集分析***,其特征在于,所述用户健康度发展评估模块包括用户当月健康度发展状态评估单元、用户健康度趋势评估单元、用户健康度综合评估单元,所述用户当月健康度发展状态评估单元用于评估在一个月内用户的不健康网络行为数值与健康网络行为数值的比值;所述用户健康度趋势评估单元用于评估用户每个月的不健康网络行为数值的变化趋势;所述用户健康度综合评估单元用于评估用户每个月的网络行为发展状态。
7.根据权利要求6所述的一种基于大数据的用户信息收集分析***,其特征在于,所述用户健康度发展评估模块用于分析评估用户的网络行为健康度的发展状态,包括下列步骤:
S1、采集用户每日的网络行为健康度,得到当月行为健康度数据集(di,z),数据集(di,z)用于di表示第i天中的用户网络行为健康度;
S2、建立直角坐标系将数据集在坐标系中标记,x轴表示时间,y轴表示网络行为健康度,将当月行为健康度数据集对应到直角坐标系中,得到离散点,将离散点经过拟合变成函数曲线;
S3、获取用户当月健康度发展状态系数,计算函数曲线和坐标轴围成的面积S,以第一象限中的面积Sa表示健康网络行为数值,以第四象限中的面积Sb表示不健康网络行为数值,得到用户当月健康度发展状态系数,若γ1>1表示当月的网络行为不健康;
S4、获取用户健康度趋势系数,采集用户每月的不健康网络行为数值,得到数据集B,记为,计算每个月不健康网络行为数值的增长率,即为用户健康度趋势系数/>,其中Sn+1表示当月的不健康网络行为数值,Sn表示前一月的不健康网络行为数值,若γ2>0表示用户健康度发展趋势不健康;
9.根据权利要求8所述的一种基于大数据的用户信息收集分析***,其特征在于:文本情感分析模型包括下列步骤:
S11、提取文档关键词和情绪词:从数据库中提取用户言论文档,利用正则表达式将文档拆分词汇,过滤词汇中的无意义词语得到文档中有效词汇集合A,得到所有文件中高频率词汇集合B,用集合A减去集合A与集合B的交集,得到文档中的关键词集合C,同时标记文档中的情绪词;
S12、言论向量化表述:把每个句子中的单词表述成一个词向量,即把每个单词都表示为一个高维空间内的向量,所述词向量的维度在260-280之间,得到n个词向量;
S13、特征提取:将词向量输入神经网络模型中提取特征,在特征提取时为步骤S1中得到的情绪词和关键词增加权重,提取词向量中的特征P(X,Y),所述特征P(X,Y)表示样本特征X与该样本所属类别的联合概率分布,利用连续词袋模型提取特征;
S14、情感分类器的分类:利用分类器将步骤S3得到的特征划分为4个梯度的情感状态,分别为消极、正常、积极,情感状态用数值量化表示,依次为-1分,0分,1分,得到词向量的情绪数值y。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310222160.XA CN116245555B (zh) | 2023-03-09 | 2023-03-09 | 一种基于大数据的用户信息收集分析*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310222160.XA CN116245555B (zh) | 2023-03-09 | 2023-03-09 | 一种基于大数据的用户信息收集分析*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116245555A true CN116245555A (zh) | 2023-06-09 |
CN116245555B CN116245555B (zh) | 2023-12-08 |
Family
ID=86635735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310222160.XA Active CN116245555B (zh) | 2023-03-09 | 2023-03-09 | 一种基于大数据的用户信息收集分析*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245555B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710054A (zh) * | 2023-12-20 | 2024-03-15 | 塞奥斯(北京)网络科技有限公司 | 线上商城商品智能化展示*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140056637A (ko) * | 2012-10-30 | 2014-05-12 | 에스케이플래닛 주식회사 | 분석 정보 제공 시스템 및 그 방법, 그리고 이에 적용되는 장치 |
CN106780073A (zh) * | 2017-01-11 | 2017-05-31 | 中南大学 | 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法 |
CN107291739A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 网络用户健康状况的评价方法、***及设备 |
CN108536757A (zh) * | 2018-03-19 | 2018-09-14 | 武汉大学 | 一种基于用户历史网络潜在有害主题引导方法 |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
CN110245816A (zh) * | 2019-01-07 | 2019-09-17 | 西南科技大学 | 基于浏览器历史记录的用户工作效率可视评估方法 |
CN111563190A (zh) * | 2020-04-07 | 2020-08-21 | 中国电子科技集团公司第二十九研究所 | 一种区域网络用户行为的多维度分析与监管方法及*** |
KR20200127654A (ko) * | 2019-05-03 | 2020-11-11 | 주식회사 자이냅스 | 감성 정보 레이블링 장치의 동작 방법 |
-
2023
- 2023-03-09 CN CN202310222160.XA patent/CN116245555B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140056637A (ko) * | 2012-10-30 | 2014-05-12 | 에스케이플래닛 주식회사 | 분석 정보 제공 시스템 및 그 방법, 그리고 이에 적용되는 장치 |
CN107291739A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 网络用户健康状况的评价方法、***及设备 |
CN106780073A (zh) * | 2017-01-11 | 2017-05-31 | 中南大学 | 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法 |
CN108536757A (zh) * | 2018-03-19 | 2018-09-14 | 武汉大学 | 一种基于用户历史网络潜在有害主题引导方法 |
CN108573411A (zh) * | 2018-04-17 | 2018-09-25 | 重庆理工大学 | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 |
CN110245816A (zh) * | 2019-01-07 | 2019-09-17 | 西南科技大学 | 基于浏览器历史记录的用户工作效率可视评估方法 |
KR20200127654A (ko) * | 2019-05-03 | 2020-11-11 | 주식회사 자이냅스 | 감성 정보 레이블링 장치의 동작 방법 |
CN111563190A (zh) * | 2020-04-07 | 2020-08-21 | 中国电子科技集团公司第二十九研究所 | 一种区域网络用户行为的多维度分析与监管方法及*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710054A (zh) * | 2023-12-20 | 2024-03-15 | 塞奥斯(北京)网络科技有限公司 | 线上商城商品智能化展示*** |
Also Published As
Publication number | Publication date |
---|---|
CN116245555B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Revathy et al. | Sentiment analysis using machine learning: Progress in the machine intelligence for data science | |
JP6301966B2 (ja) | データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体 | |
CN116245555B (zh) | 一种基于大数据的用户信息收集分析*** | |
Vysotska et al. | The commercial content digest formation and distributional process | |
Gürsoy et al. | A wavelet neural network approach to predict daily river discharge using meteorological data | |
Cheng et al. | Multimodal time-aware attention networks for depression detection | |
Wu et al. | Patient-level temporal aggregation for text-based asthma status ascertainment | |
JP6524790B2 (ja) | 情報処理装置及び情報処理プログラム | |
WO2023159756A1 (zh) | 价格数据的处理方法和装置、电子设备、存储介质 | |
Ning et al. | Calling for response: automatically distinguishing situation-aware tweets during crises | |
WO2016203652A1 (ja) | データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体 | |
CN117216419B (zh) | 基于ai技术的数据分析方法 | |
US11727685B2 (en) | System and method for generation of process graphs from multi-media narratives | |
Rao et al. | ORG-RGRU: An automated diagnosed model for multiple diseases by heuristically based optimized deep learning using speech/voice signal | |
JPWO2016189605A1 (ja) | データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体 | |
JP5933863B1 (ja) | データ分析システム、制御方法、制御プログラム、および記録媒体 | |
CN116864128A (zh) | 基于身体活动行为模式监测的心理状态评估***及其方法 | |
Guo et al. | Development and application of emotion recognition technology—a systematic literature review | |
CN115062994A (zh) | 对象评估方法、对象评估装置、电子设备及存储介质 | |
Yoo et al. | Prediction of cardiac disease-causing pattern using multimedia extraction in health ontology | |
Malhotra et al. | A neuro-fuzzy classifier for website quality prediction | |
CN115270873A (zh) | 基于情感状态的资讯推荐生成方法及装置 | |
Banerjee et al. | A survey on mental health monitoring system via social media data using deep learning framework | |
Gamage et al. | Academic depression detection using behavioral aspects for Sri Lankan university students | |
CN105975792A (zh) | 一种基于大数据的皮纹分析处理装置、方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231116 Address after: Room 109, 1st Floor, Xinxiangshicheng Entrepreneurship and Employment Incubation Base, Building 51, No. 5 Baishan Road, Qiaoxi District, Zhangjiakou City, Hebei Province, 075000 Applicant after: Zhangjiakou Qiaogong Technology Service Co.,Ltd. Address before: 274000 Store 1005, Building 3, Shidai Aocheng, Zhonghua Road, Xicheng Street, Mudan District, Heze City, Shandong Province Applicant before: Qingrui Network Technology (Shandong) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |