CN111814092A - 基于用户上网行为用于人工智能算法的数据预处理方法 - Google Patents

基于用户上网行为用于人工智能算法的数据预处理方法 Download PDF

Info

Publication number
CN111814092A
CN111814092A CN202010705027.6A CN202010705027A CN111814092A CN 111814092 A CN111814092 A CN 111814092A CN 202010705027 A CN202010705027 A CN 202010705027A CN 111814092 A CN111814092 A CN 111814092A
Authority
CN
China
Prior art keywords
user
data
access
internet
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010705027.6A
Other languages
English (en)
Inventor
项亮
裴智晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuming Artificial Intelligence Technology Co ltd
Original Assignee
Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuming Artificial Intelligence Technology Co ltd filed Critical Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority to CN202010705027.6A priority Critical patent/CN111814092A/zh
Publication of CN111814092A publication Critical patent/CN111814092A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于用户上网行为用于人工智能算法的数据预处理方法,包括获取用户的原始信息;对用户基础信息进行处理;对上网行为数据信息进行处理;将访问记录表的数据信息按用户维度进行合并,形成预定的上网时间段内的用户数据表。因此,本发明可以将用户上网行的不连续、分散、无规律的数据进行处理,形成可供后续运算使用的数据格式,使得采用用户上网行为数据进行人工智能分析成为可能。

Description

基于用户上网行为用于人工智能算法的数据预处理方法
技术领域
本发明涉及人工智能的技术领域,更具体地,涉及一种基于用户上网行为用于人工智能算法的数据预处理方法。
背景技术
随着人工智能算法的兴起和广泛应用,越来越多的互联网企业开始重视将自己的业务与大数据、人工智能等技术相结合。而对大数据和人工智能等技术的应用和研发也逐渐成为当今互联网企业运营管理的重要环节。
智能优化预测是以人工智能与预测科学为基础,对数据进行分析与处理,并通过人工智能选择合适的模型及参数解决实际问题。人工智能的数据分析项目中最费力的事,就是数据获取和预处理。数据获取和预处理占用项目的时间通常能达到80%。
在真实数据中,可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。
数据清洗能解决数据的各种问题,包括但不限于:准确性、适用性、及时性、一致性和权威性。针对上述各种问题,可以采用不同的处理方法。
数据清洗的方法一般针对具体应用,因而难以归纳统一的方法和步骤,但是根据数据不同通常可以给出相应的数据清理方法。例如:
①.值缺失处理方法
大多数情况下,缺失的值必须手工填入(即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。
②.准确性检测方法
用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。
③.重覆性解决方法
资料库中属性值相同的记录被认为是重覆记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除),合并/清除是消重的基本方法。
④.不一致性解决方法
从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。
⑤.噪音处理
噪音是被测量变量的随机误差或方差。可以采用分箱法和回归法。分箱方法通过考察数据的「近邻」(即,周围的值)来光滑有序数据值。这些有序的值被分布到一些「桶」或箱中。回归法可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的「最佳」直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个属性,并且数据拟合到一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。
然而,对于互联网运营企业,每个用户都有海量的上网行为数据,要将这批数据能够用于人工智能算法的计算,必须将用户行为进行数据预处理,以保证数据质量能满足人工智能算法计算的任务。针对用户上网行为数据这个海量的数据源,目前还没有现成的方式来进行数据预处理。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种基于用户上网行为用于人工智能算法的数据预处理方法。
本发明的一种基于用户上网行为用于人工智能算法的数据预处理方法,其包括:
步骤S1:获取用户的原始信息;其中,所述原始信息包括用户基础信息和上网行为数据信息,所述用户基础信息包括性别、年龄和归属地,所述上网行为数据信息包括上网时间、访问URL地址和访问网址频率;
步骤S2:对所述用户基础信息进行处理;其中,
将用户的所述性别按男、女、未知三种状态进行分组,形成三个不同的数据组;将用户的所述年龄分成M年龄段,再加上一未知年龄段,分成M+1组,每一个用户的所述年龄将落在有且只有一个的年龄段中;将用户的所述归属地按N个地位置区的划分对应不同的数据字段,并增加一个未知字段,即分成N+1个数据字段;
步骤S3:对所述上网行为数据信息进行处理;包括:
步骤S31:根据精简原则对所有用户的所述访问URL地址进行精简;所述精简原则包括业务性精简和相似性精简;所述业务性精简为根据业务所关心的方向,将完全无关的所述访问URL地址进行精简,所述相似性精简将归属于同一所述访问URL地址进行合并,形成唯一的所述访问URL地址;
步骤S32:将精简后的所述访问URL地址进行编号,所述访问URL地址具有唯一对应的URL编号,并将所述URL编号对应成URL数据字段;
步骤S33:将每个所述用户的所述访问网址频率按一预定的上网时间段内访问每个所述访问URL地址的次数进行累计;
步骤S34:形成在所述预定的时间中所有用户访问每个所述访问URL地址的访问记录表;
步骤S4:将所述访问记录表的数据信息按用户维度进行合并,形成预定的上网时间段内的用户数据表。
优选地,所述的基于用户上网行为用于人工智能算法的数据预处理方法中的所述步骤S3还包括步骤S35:将访问记录表中的数据采用非线性归一化的算法进行归一化处理。
从上述技术方案可以看出,本发明的基于用户上网行为用于人工智能算法的数据预处理方法,可以将用户上网行的不连续、分散、无规律的数据进行处理,形成可供后续运算使用的数据格式,使得使用用户上网行为数据进行人工智能分析成为可能。
附图说明
图1所示为本发明基于用户上网行为用于人工智能算法的数据预处理方法的流程示意图
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
需要说明的是,本发明的数据预处理能解决数据的准确性、适用性、和一致性,其从海量的用户上网行为数据进行数据预处理,使该批数据能够用于人工智能算法的计算,以保证数据质量能满足人工智能算法计算的任务。
请参阅图1,图1所示为本发明基于用户上网行为用于人工智能算法的数据预处理方法的流程示意图。如图1所示,该方法包括如下步骤:
步骤S1:获取用户的原始信息;其中,所述原始信息包括用户基础信息和上网行为数据信息,所述用户基础信息可以包括性别、年龄和归属地,所述上网行为数据信息可以包括上网时间、访问URL地址和访问网址频率。
在本发明的实施例中,用户基础信息可以主要包括:
①.上网用户的性别通常可以从终端用户(例如手机)的资料库中得到;当然,如果上网用户的性别保密,也可以归入未知状态;
②.上网用户的年龄通常也可以从终端用户(例如手机)的资料库中得到;当然,如果上网用户的性别保密,也可以归入未知状态;
③.上网用户的地域是以由地理位置确定的(例如,可以是行政省份)
所述上网行为数据信息可以主要包括:
①.用户的上网时间;
②.用户在以一定的预设时间内点击过的访问URL地址;
③.用户在以一定的预设时间内点击的每一个访问URL地址的频度。
上述海量的用户原始信息如果要形成可供人工智能算法进行处理的数据集的话,需要对上述数据进行预处理。
在本发明的实施例中,对上述数据进行预处理包括对所述用户基础信息进行处理,以及对所述上网行为数据信息进行处理。
步骤S2:对所述用户基础信息进行处理;其具体包括性别信息处理、年龄信息处理和归属地信息处理。
在本发明的实施例中,性别信息处理可以将用户的所述性别按男、女、未知三种状态进行分组,形成三个不同的数据组;分别为:是否是男性、是否是女性、是否是未知。形成的数据形式为下表1所示:
用户性别 是否是男性 是否是女性 是否是未知
1 0 0
0 1 0
未知 0 0 1
在本发明的实施例中,可以将用户的所述年龄分成M年龄段,再加上一未知年龄段,分成M+1组,每一个用户的所述年龄将落在有且只有一个的年龄段中。例如,按用户年龄段进行分组,分组段为:0-15岁、15-20岁、20-25岁、25-35岁、35-45岁、45-55岁、55-60岁、60岁以上、未知。此时,M等于8,加上未知,有9个年龄段。在所有年龄段中,与用户信息对应的年龄段数据状态为1,其余的年龄段数据状态为0。
在本发明的实施例中,对所述归属地信息处理是将用户的所述归属地按N个地理位置区的划分对应不同的数据字段,并增加一个未知字段,即分成N+1个数据字段。例如,将中国34个省级行政区分别对应成34个不同的数据字段,此时,N等于34,并增加一个未知字段,共计35个字段。单个上网用户的归属省份对应的字段数据状态为1,其他省份数据字段对应为0。以某个北京用户为例,数据字段“北京”的数据状态为1,其余的省份数据字段为0。
在本发明的实施例中,所有用户访问过的URL地址为海量的地址,必须要将所有的URL地址进行数据有限量的精简。对所述上网行为数据信息进行处理的步骤S3可以具体包括如下步骤:
步骤S31:根据精简原则对所有用户的所述访问URL地址进行精简;所述精简原则包括业务性精简和相似性精简;所述业务性精简为根据业务所关心的方向,将完全无关的所述访问URL地址进行精简,所述相似性精简将归属于同一所述访问URL地址进行合并,形成唯一的所述访问URL地址。
步骤S32:将精简后的所述访问URL地址进行编号,所述访问URL地址具有唯一对应的URL编号,并将所述URL编号对应成URL数据字段。
步骤S33:将每个所述用户的所述访问网址频率按一预定的上网时间段内访问每个所述访问URL地址的次数进行累计。
也就是说,假设预定的上网时间段为一天,那么对于用户的访问频率按天进行访问次数的合并,合并的原则为单个用户在某天内访问指定URL的次数进行累计,形成的数据格式为:
用户,日期,URL1编号,URL1访问次数,URL2编号,URL2访问次数……URLN编号,URLN访问次数。
步骤S34:形成在所述预定的时间中所有用户访问每个所述访问URL地址的访问记录表。
具体地,可以将通过前三个步骤处理后的同一天所有用户访问记录进行合并,数据处理,按如下表2进行处理:
Figure BDA0002594378240000061
注*如果用户在对于的URL中没有访问行为,对应的字段为0。
为了提升人工智能后续算法中效率,将上表中的数据进行归一化处理,即执行步骤S35:将访问记录表中的数据采用非线性归一化的算法进行归一化处理。
上述步骤完成后,就以进行数据信息合并步骤了,即执行步骤S4:将所述访问记录表的数据信息按用户维度进行合并,形成预定的上网时间段内的用户数据表。到此,就完成的用户上网行为数据的数据预处理,可将此部分数据用于人工智能算法的后续计算过程中。
综上所述,本发明提出了一种基于用户上网行为用于人工智能算法的数据预处理方法,其针对用户上网行为进行数据预处理,以达到可进行人工智能算法运用的方法。
以上所述的仅为本发明的优选实施例,所述实施例并非用以限制本发明的专利保护范围,因此凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (2)

1.一种基于用户上网行为用于人工智能算法的数据预处理方法,其特征在于,包括:
步骤S1:获取用户的原始信息;其中,所述原始信息包括用户基础信息和上网行为数据信息,所述用户基础信息包括性别、年龄和归属地,所述上网行为数据信息包括上网时间、访问URL地址和访问网址频率;
步骤S2:对所述用户基础信息进行处理;其中,
将用户的所述性别按男、女、未知三种状态进行分组,形成三个不同的数据组;
将用户的所述年龄分成M年龄段,再加上一未知年龄段,分成M+1组,每一个用户的所述年龄将落在有且只有一个的年龄段中;
将用户的所述归属地按N个地位置区的划分对应不同的数据字段,并增加一个未知字段,即分成N+1个数据字段;
步骤S3:对所述上网行为数据信息进行处理;包括:
步骤S31:根据精简原则对所有用户的所述访问URL地址进行精简;所述精简原则包括业务性精简和相似性精简;所述业务性精简为根据业务所关心的方向,将完全无关的所述访问URL地址进行精简,所述相似性精简将归属于同一所述访问URL地址进行合并,形成唯一的所述访问URL地址;
步骤S32:将精简后的所述访问URL地址进行编号,所述访问URL地址具有唯一对应的URL编号,并将所述URL编号对应成URL数据字段;
步骤S33:将每个所述用户的所述访问网址频率按一预定的上网时间段内访问每个所述访问URL地址的次数进行累计;
步骤S34:形成在所述预定的时间中所有用户访问每个所述访问URL地址的访问记录表;
步骤S4:将所述访问记录表的数据信息按用户维度进行合并,形成预定的上网时间段内的用户数据表。
2.根据权利要求1所述的基于用户上网行为用于人工智能算法的数据预处理方法,其特征在于,所述步骤S3还包括步骤S35:将访问记录表中的数据采用非线性归一化的算法进行归一化处理。
CN202010705027.6A 2020-07-21 2020-07-21 基于用户上网行为用于人工智能算法的数据预处理方法 Withdrawn CN111814092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010705027.6A CN111814092A (zh) 2020-07-21 2020-07-21 基于用户上网行为用于人工智能算法的数据预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010705027.6A CN111814092A (zh) 2020-07-21 2020-07-21 基于用户上网行为用于人工智能算法的数据预处理方法

Publications (1)

Publication Number Publication Date
CN111814092A true CN111814092A (zh) 2020-10-23

Family

ID=72860844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010705027.6A Withdrawn CN111814092A (zh) 2020-07-21 2020-07-21 基于用户上网行为用于人工智能算法的数据预处理方法

Country Status (1)

Country Link
CN (1) CN111814092A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1791022A (zh) * 2005-12-26 2006-06-21 阿里巴巴公司 一种日志分析方法和***
CN108960975A (zh) * 2018-06-15 2018-12-07 广州麦优网络科技有限公司 基于用户画像的个性化精准营销方法、服务器及存储介质
CN109145307A (zh) * 2018-09-12 2019-01-04 广州视源电子科技股份有限公司 用户画像识别方法、推送方法、装置、设备和存储介质
CN110222272A (zh) * 2019-04-18 2019-09-10 广东工业大学 一种潜在客户挖掘与推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1791022A (zh) * 2005-12-26 2006-06-21 阿里巴巴公司 一种日志分析方法和***
CN108960975A (zh) * 2018-06-15 2018-12-07 广州麦优网络科技有限公司 基于用户画像的个性化精准营销方法、服务器及存储介质
CN109145307A (zh) * 2018-09-12 2019-01-04 广州视源电子科技股份有限公司 用户画像识别方法、推送方法、装置、设备和存储介质
CN110222272A (zh) * 2019-04-18 2019-09-10 广东工业大学 一种潜在客户挖掘与推荐方法

Similar Documents

Publication Publication Date Title
Gan et al. Extracting non-redundant correlated purchase behaviors by utility measure
CN104424231B (zh) 多维数据的处理方法及装置
US10600011B2 (en) Methods and systems for improving engagement with a recommendation engine that recommends items, peers, and services
Ciceri et al. Crowdsourcing for top-k query processing over uncertain data
CN104394118A (zh) 一种用户身份识别方法及***
CN111723292B (zh) 基于图神经网络的推荐方法、***、电子设备及存储介质
TW201237665A (en) Determining preferred categories based on user access attribute values
US20170277767A1 (en) Uniqueness Level for Anonymized Datasets
CN111488385B (zh) 基于人工智能的数据处理方法、装置和计算机设备
Yuan et al. Multi-granularity periodic activity discovery for moving objects
CN111221868A (zh) 一种应用于电力客户渠道偏好的数据挖掘与分析方法
CN106874293A (zh) 一种数据处理方法及装置
CN111814092A (zh) 基于用户上网行为用于人工智能算法的数据预处理方法
Weiß Fully observed INAR (1) processes
CN114331566A (zh) 一种基于标签分群的推送方法、***及装置
Maratea et al. An heuristic approach to page recommendation in web usage mining
Wang et al. RODA: A fast outlier detection algorithm supporting multi-queries
Lu et al. A novel e-commerce customer continuous purchase recommendation model research based on colony clustering
Lorince et al. The wisdom of the few?“Supertaggers” in collaborative tagging systems
Rekatsinas et al. Crowdgather: Entity extraction over structured domains
Sun et al. Towards Visualized User Profile Analysis from Massive Web Log
Liang et al. Mining social ties beyond homophily
CN117971606B (zh) 基于ElasticSearch的日志管理***及方法
Jorge et al. Recommendation with association rules: A web mining application
CN116108086B (zh) 一种时序数据的评估方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200436 room 406, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai

Applicant after: Shanghai Shuming Artificial Intelligence Technology Co.,Ltd.

Address before: Room 1601-026, 238 JIANGCHANG Third Road, Jing'an District, Shanghai, 200436

Applicant before: Shanghai Shuming Artificial Intelligence Technology Co.,Ltd.

CB02 Change of applicant information
WW01 Invention patent application withdrawn after publication

Application publication date: 20201023

WW01 Invention patent application withdrawn after publication