CN106599022A - 基于用户访问数据的用户画像形成方法 - Google Patents

基于用户访问数据的用户画像形成方法 Download PDF

Info

Publication number
CN106599022A
CN106599022A CN201610935388.3A CN201610935388A CN106599022A CN 106599022 A CN106599022 A CN 106599022A CN 201610935388 A CN201610935388 A CN 201610935388A CN 106599022 A CN106599022 A CN 106599022A
Authority
CN
China
Prior art keywords
user
label
webpage
forming method
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610935388.3A
Other languages
English (en)
Other versions
CN106599022B (zh
Inventor
罗思伟
林倞
王青
聂琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201610935388.3A priority Critical patent/CN106599022B/zh
Publication of CN106599022A publication Critical patent/CN106599022A/zh
Application granted granted Critical
Publication of CN106599022B publication Critical patent/CN106599022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为基于用户访问数据的用户画像形成方法,利用爬虫工具、提取算法、中文分词方法对网页中的内容进行获取和自动处理,其智能化、自动化程度较高,很好地解决了现有技术的缺陷。且本发明提供的方法利用机器学习方法,学习出用户的特征,以表现出用户的生活、购物等行为偏好。

Description

基于用户访问数据的用户画像形成方法
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种基于用户访问数据的用户画像形成方法。
背景技术
大数据一般是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
用户画像是大数据时代下产生的重要的技术应用,其目标是在建立多维的针对用户的描述性标签属性,从而利用这些标签属性对用户多方面的真实个人特征进行勾勒,进而,可以利用用户画像发掘用户需求,分析用户偏好,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
目前用户画像的形成一般应用于电子商务网站、新闻推荐***等,旨在更准确地向用户推荐其感兴趣的商品或新闻,提高用户体验。
建立用户画像的数据一般有用户现实生活中的数据和网络行为数据。现实生活中的数据包括用户的基本信息如姓名、性别、年龄、运动爱好等数据,而网络行为数据包括用户在互联网世界里进行网页访问、游戏、听音乐、看电影、社交等行为记录。
协同过滤(英语:Collaborative Filtering),作为用户画像与推荐***的一种经典方法,简单来说是利用兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。
基于内容的推荐则是根据内容本身的属性(特征向量)所作的推荐。需要先对产品进行特征提取(向量化),根据用户的历史信息建立用户的偏好文档,这个偏好文档,可是看作用户画像。根据这个画像,可以找到适合用户的商品和服务进行推荐。
但是上述方法在具体实施的时候均需人工标注网页数据,其处理的效率较低。
发明内容
本发明为解决以上现有技术的难题,提供了一种基于用户访问数据的用户画像形成方法,该方法在具体实施的过程中无需对网页数据进行标注,其处理效率高,且能够利用机器学习方法,学习出用户的特征,以表现出用户的生活、购物等行为偏好。
为实现以上发明目的,采用的技术方案是:
一种基于用户访问数据的用户画像形成方法,包括以下步骤:
S1.对用户的访问数据进行过滤,将访问数据中无关的请求链接过滤掉,得到相关的***;
S2.使用爬虫工具抓取相关的***对应的网页,然后使用提取算法将所抓取网页中的文本信息提取出来;
S3.使用中文分词方法对提取出来的文本信息进行分词处理,其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中;
S4.对网络上公开的语料库进行分词处理,然后基于分词处理后的语料库使用词向量技术训练出词向量Word2Vec,得到中文词语的分布式表达;
S5.创建Doc2Vec模型,利用词向量Word2Vec对Doc2Vec模型进行初始化,然后将每个文档中的词汇列表分别输入至Doc2Vec模型中,文档中的词汇列表对Doc2Vec模型进行训练,Doc2Vec模型的输出为该文档对应的网页的分布式表达;
S6.对于每个标签,训练一个用于判断分布式表达中是否带有此标签的判断分类器;
S7.将步骤S5中的每个网页的分布式表达分别输入至各个标签的判断分类器中,若标签的判断分类器的输出为肯定,则说明用户的网页访问带有该标签的属性;若标签的判断分类器的输出为否定,则说明用户的网页访问不带有该标签的属性。
优选地,所述步骤S1中,过滤掉访问数据中的CSS请求链接、图片资源请求链接、js脚本资源请求链接。
优选地,所述步骤S1中通过正则表达式对无关的访问进行过滤。
优选地,所述步骤S2中,使用基于文本密度的提取算法将所抓取网页中的文本信息提取出来。
优选地,所述步骤S2中,建立一个哈希表来保存抓取的网页。
优选地,所述步骤S6中,所述判断分类器包括训练好的卷积神经网络和logistic回归二元分类器,卷积神经网络的输出端与logistic回归二元分类器的输入端连接,卷积神经网络用于对标签进行分类,logistic回归二元分类器用于输出卷积神经网络的分类结果。
与现有技术相比,本发明的有益效果是:
本发明提供的方法利用爬虫工具、提取算法、中文分词方法对网页中的内容进行获取和自动处理,其智能化、自动化程度较高,很好地解决了现有技术的缺陷。且本发明提供的方法利用机器学习方法,学习出用户的特征,以表现出用户的生活、购物等行为偏好。
附图说明
图1为测试结果一的示意图。
图2为测试结果二的示意图。
图3(a)、(b)为测试结果三的示意图和测试结果四的示意图。
图4为测试结果五的示意图。
图5为测试结果六的示意图。
图6为训练判断分类器的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本发明所提供的方法主要有以下步骤:
第一步、过滤不必要链接并以用户为单位进行汇总整理。这一步将一些不必要的如开源的js库资源访问请求、外部图片资源访问请求的链接过滤掉,得到用户实质上想访问的链接。然后把每个用户的链接和访问时间按照时间排序保存。
第二步、编写网络爬虫工具,抓取用户的所有链接的网页标题和内容。由于用户访问的页面很多,为了避免重复抓取某个页面,因此需要建立一个哈希表来 保存已经抓取了的页面链接,这样就可以避免重复抓取。
抓取过程中,为了避免一些网站的反爬虫机制,需要利用几个策略,分别是:伪装UserAgent,使用代理和避免对同一网站的连续访问等。
第三步、利用开源的网页正文提取算法如cx-extractor,从网页内容中提取出每个网页的文本内容。现如今的网页内容,一般都会包含一定数量的广告、网站的目录导航等与页面主题无关的内容,本实施例使用基于密度的正文提取算法,提取出页面的正文而不受那些不相关因素的影响,这样可以保证网页内容与网页的主题的相关性,减少噪声的污染。
第四步、对每个网页的正文和标题,使用中文分词技术,把每个文档(标题和正文)转换成一系列词汇组成的列表。
第五步、收集网络上的语料库,比如中文***提供的语料库,先用第4步的方法进行分词,然后使用词向量技术,训练出词汇的词向量Word2Vec。在这里,训练出来的词汇的分布式表达,是采用无监督学习,利用skip-gram技术,得到的一个能在一定程度上表达了词语的词性、意义以及与其他词语的相关性的词向量Word2Vec。
如图1、图2所示,分别测试“可以”和“美女”两个词语词性和意义最相近的词。给出的“可以”最相似的词是“能够”、“可”、“能”,给出的“美女”的相近的词是“帅哥”、“正妹”。
再如图3(a)、图3(b)、图4所示,测试一个主题词汇与一系列相关或不相关词语的相似度,可以明显地看出,与主题词汇相关的词语得分明显比不相关词语得分高。
最后,如图5所示,词汇向量间的关系:
淘宝–中国=?-美国得出的得分最高的答案是ebay。
从上面这些例子可以看出word2vec的强大,不仅学习出了词汇相似性,还学习到了词汇之间的关系。所以可以使用训练好的word2vec。
第六步、由于(1)保存了每个链接的访问时间,所以可以根据这个信息,根据一定规则得到链接的访问顺序,对每个用户的网页访问文档,按照这个时间顺序进行排序。
第七步、用第五步得到的词向量Word2Vec初始化Doc2Vec模型,对每个文 档得到的词汇列表用skip gram训练得到文本的分布式表达,类似于第五步词向量的学习,文档向量代表的是一系列单词组成的文档的信息,一般来说可以是某个主题,代表某种情感,代表某类商品等等。
第八步、通过对用户有偏好标记的数据,整合得到的Doc2Vec集合,得到训练集,训练用户的分布式表达。在这一步中,采用的训练方法是使用卷积神经网络CNN。假设用户U对应于N个不同Doc2Vec,分别表示为Doc1,Doc2…DocN,用户标签向量为长度为Ntag的0-1向量。对每一个标签,训练一个卷积神经网络用于对此标签进行分类。
例如:Doc2Vec是200维的向量,那么,网络的输入是N*200的。把一个卷积核设置为i*200,i代表的是卷积核每次对i个向量进行卷积。如果在输入层设置n个卷积核,那么总的卷积核为一个n*i*200的核;这样,输入层卷积后得到的输出是n*(N–i+1)的矩阵。然后用k-max pooling,得到固定长度为k*n的向量。在这个向量后面添加一个全连接层,然后接1个logistic回归二元分类器。如图6所示。
这样,就得到一个标签的判断分类器。假设一共有m个标签,只需要用同样方法的训练m个分类器。
第九步、在使用阶段,对于单个用户,先得到该用户的所有文档向量,再用第8步得到的m个二元分类器,得到的输出为肯定的标签就是该用户的标签,并且按照最后分类器的得分,得分越高的说明此标签在该用户越明显。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于用户访问数据的用户画像形成方法,其特征在于:包括以下步骤:
S1.对用户的访问数据进行过滤,将访问数据中无关的请求链接过滤掉,得到相关的***;
S2.使用爬虫工具抓取相关的***对应的网页,然后使用提取算法将所抓取网页中的文本信息提取出来;
S3.使用中文分词方法对提取出来的文本信息进行分词处理,其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中;
S4.对网络上公开的语料库进行分词处理,然后基于分词处理后的语料库使用词向量技术训练出词向量Word2Vec,得到中文词语的分布式表达;
S5.创建Doc2Vec模型,利用词向量Word2Vec对Doc2Vec模型进行初始化,然后将每个文档中的词汇列表分别输入至Doc2Vec模型中,文档中的词汇列表对Doc2Vec模型进行训练,Doc2Vec模型的输出为该文档对应的网页的分布式表达;
S6.对于每个标签,训练一个用于判断分布式表达中是否带有此标签的判断分类器;
S7.将步骤S5中的每个网页的分布式表达分别输入至各个标签的判断分类器中,若标签的判断分类器的输出为肯定,则说明用户的网页访问带有该标签的属性;若标签的判断分类器的输出为否定,则说明用户的网页访问不带有该标签的属性。
2.根据权利要求1所述的基于用户访问数据的用户画像形成方法,其特征在于:所述步骤S1中,过滤掉访问数据中的CSS请求链接、图片资源请求链接、js脚本资源请求链接。
3.根据权利要求2所述的基于用户访问数据的用户画像形成方法,其特征在于:所述步骤S1中通过正则表达式对无关的访问进行过滤。
4.根据权利要求1所述的基于用户访问数据的用户画像形成方法,其特征在于:所述步骤S2中,使用基于文本密度的提取算法将所抓取网页中的文本信息提取出来。
5.根据权利要求1所述的基于用户访问数据的用户画像形成方法,其特征在于:所述步骤S2中,建立一个哈希表来保存抓取的网页。
6.根据权利要求1所述的基于用户访问数据的用户画像形成方法,其特征在于:所述步骤S6中,所述判断分类器包括训练好的卷积神经网络和logistic回归二元分类器,卷积神经网络的输出端与logistic回归二元分类器的输入端连接,卷积神经网络用于对标签进行分类,logistic回归二元分类器用于输出卷积神经网络的分类结果。
CN201610935388.3A 2016-11-01 2016-11-01 基于用户访问数据的用户画像形成方法 Active CN106599022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610935388.3A CN106599022B (zh) 2016-11-01 2016-11-01 基于用户访问数据的用户画像形成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610935388.3A CN106599022B (zh) 2016-11-01 2016-11-01 基于用户访问数据的用户画像形成方法

Publications (2)

Publication Number Publication Date
CN106599022A true CN106599022A (zh) 2017-04-26
CN106599022B CN106599022B (zh) 2019-12-10

Family

ID=58589465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610935388.3A Active CN106599022B (zh) 2016-11-01 2016-11-01 基于用户访问数据的用户画像形成方法

Country Status (1)

Country Link
CN (1) CN106599022B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633036A (zh) * 2017-09-08 2018-01-26 广州汪汪信息技术有限公司 一种微博用户画像方法、电子设备、存储介质、***
CN107818334A (zh) * 2017-09-29 2018-03-20 北京邮电大学 一种移动互联网用户访问模式表征和聚类方法
CN107895024A (zh) * 2017-09-13 2018-04-10 同济大学 用于网页新闻分类推荐的用户模型构建方法及推荐方法
CN108521435A (zh) * 2018-07-06 2018-09-11 武汉思普崚技术有限公司 一种用户网络行为画像的方法及***
CN108769440A (zh) * 2018-06-06 2018-11-06 北京京东尚科信息技术有限公司 前置分流方法和装置
CN108874941A (zh) * 2018-06-04 2018-11-23 成都知道创宇信息技术有限公司 基于卷积特征和多重哈希映射的大数据url去重方法
CN108920717A (zh) * 2018-07-27 2018-11-30 百度在线网络技术(北京)有限公司 用于显示信息的方法及装置
CN109002459A (zh) * 2018-05-30 2018-12-14 珠海市君天电子科技有限公司 一种用户喜好的商品类型识别方法以及装置
CN109168044A (zh) * 2018-10-11 2019-01-08 北京奇艺世纪科技有限公司 一种视频特征的确定方法及装置
CN109710836A (zh) * 2018-11-29 2019-05-03 国政通科技有限公司 一种基于追星族公会的大数据智能推荐***及方法
CN109710890A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 基于构建的行为画像模型实时识别虚假材料的方法和***
CN109934629A (zh) * 2019-03-12 2019-06-25 重庆金窝窝网络科技有限公司 一种信息推送方法及装置
CN110020113A (zh) * 2017-09-28 2019-07-16 南京无界家居科技有限公司 一种基于特征匹配的家居产品预测方法及装置
CN110598016A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法、装置、设备和介质
CN110717116A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 关系网络的链接预测方法及***、设备、存储介质
CN111915366A (zh) * 2020-07-20 2020-11-10 上海燕汐软件信息科技有限公司 一种用户画像构建方法、装置、计算机设备及存储介质
CN112380418A (zh) * 2020-12-31 2021-02-19 广州智云尚大数据科技有限公司 一种基于网络爬虫的数据处理方法、***及云平台
CN112383545A (zh) * 2020-11-13 2021-02-19 西安热工研究院有限公司 适用电力scada***的反爬虫***、装置及部署方法
CN112825076A (zh) * 2019-11-20 2021-05-21 北京搜狗科技发展有限公司 一种信息推荐方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2945113A1 (en) * 2014-05-14 2015-11-18 Cisco Technology, Inc. Audience segmentation using machine-learning
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及***
CN105718579A (zh) * 2016-01-22 2016-06-29 浙江大学 一种基于上网日志挖掘和用户活动识别的信息推送方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2945113A1 (en) * 2014-05-14 2015-11-18 Cisco Technology, Inc. Audience segmentation using machine-learning
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及***
CN105718579A (zh) * 2016-01-22 2016-06-29 浙江大学 一种基于上网日志挖掘和用户活动识别的信息推送方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633036A (zh) * 2017-09-08 2018-01-26 广州汪汪信息技术有限公司 一种微博用户画像方法、电子设备、存储介质、***
CN107895024A (zh) * 2017-09-13 2018-04-10 同济大学 用于网页新闻分类推荐的用户模型构建方法及推荐方法
CN107895024B (zh) * 2017-09-13 2021-10-08 同济大学 用于网页新闻分类推荐的用户模型构建方法及推荐方法
CN110020113A (zh) * 2017-09-28 2019-07-16 南京无界家居科技有限公司 一种基于特征匹配的家居产品预测方法及装置
CN107818334A (zh) * 2017-09-29 2018-03-20 北京邮电大学 一种移动互联网用户访问模式表征和聚类方法
CN109002459A (zh) * 2018-05-30 2018-12-14 珠海市君天电子科技有限公司 一种用户喜好的商品类型识别方法以及装置
CN108874941A (zh) * 2018-06-04 2018-11-23 成都知道创宇信息技术有限公司 基于卷积特征和多重哈希映射的大数据url去重方法
CN108874941B (zh) * 2018-06-04 2021-09-21 成都知道创宇信息技术有限公司 基于卷积特征和多重哈希映射的大数据url去重方法
CN108769440A (zh) * 2018-06-06 2018-11-06 北京京东尚科信息技术有限公司 前置分流方法和装置
CN110717116B (zh) * 2018-06-27 2023-12-05 北京京东尚科信息技术有限公司 关系网络的链接预测方法及***、设备、存储介质
CN110717116A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 关系网络的链接预测方法及***、设备、存储介质
CN108521435A (zh) * 2018-07-06 2018-09-11 武汉思普崚技术有限公司 一种用户网络行为画像的方法及***
CN108920717A (zh) * 2018-07-27 2018-11-30 百度在线网络技术(北京)有限公司 用于显示信息的方法及装置
CN109168044A (zh) * 2018-10-11 2019-01-08 北京奇艺世纪科技有限公司 一种视频特征的确定方法及装置
CN109710836A (zh) * 2018-11-29 2019-05-03 国政通科技有限公司 一种基于追星族公会的大数据智能推荐***及方法
CN109710890A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 基于构建的行为画像模型实时识别虚假材料的方法和***
CN109710890B (zh) * 2018-12-20 2023-06-09 四川新网银行股份有限公司 基于构建的行为画像模型实时识别虚假材料的方法和***
CN109934629A (zh) * 2019-03-12 2019-06-25 重庆金窝窝网络科技有限公司 一种信息推送方法及装置
CN110598016A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法、装置、设备和介质
CN112825076A (zh) * 2019-11-20 2021-05-21 北京搜狗科技发展有限公司 一种信息推荐方法、装置和电子设备
CN112825076B (zh) * 2019-11-20 2024-03-01 北京搜狗科技发展有限公司 一种信息推荐方法、装置和电子设备
CN111915366A (zh) * 2020-07-20 2020-11-10 上海燕汐软件信息科技有限公司 一种用户画像构建方法、装置、计算机设备及存储介质
CN111915366B (zh) * 2020-07-20 2024-01-12 上海燕汐软件信息科技有限公司 一种用户画像构建方法、装置、计算机设备及存储介质
CN112383545A (zh) * 2020-11-13 2021-02-19 西安热工研究院有限公司 适用电力scada***的反爬虫***、装置及部署方法
CN112380418A (zh) * 2020-12-31 2021-02-19 广州智云尚大数据科技有限公司 一种基于网络爬虫的数据处理方法、***及云平台

Also Published As

Publication number Publication date
CN106599022B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN106599022A (zh) 基于用户访问数据的用户画像形成方法
CN104077377B (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN110633373A (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN109815386B (zh) 一种基于用户画像的构建方法、装置及存储介质
US20140229486A1 (en) Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis
Wu et al. News filtering and summarization on the web
CN115329085A (zh) 一种社交机器人分类方法及***
Fiol-Roig et al. Data mining techniques for web page classification
CN111680505B (zh) 一种Markdown特征感知的无监督关键词提取方法
CN116776889A (zh) 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法
Wasim et al. Extracting and modeling user interests based on social media
Zhu A book recommendation algorithm based on collaborative filtering
Patil et al. Detecting and categorization of click baits
Liebeskind et al. Text categorization from category name in an industry-motivated scenario
CN108205532A (zh) 生成网页的方法和装置
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Tran et al. User interest analysis with hidden topic in news recommendation system
CN112417858A (zh) 一种实体权重评分方法、***、电子设备及存储介质
JP2020113267A (ja) リーディングリストを生成するシステム及び方法
John et al. Methods for removing noise from web pages: a review
Pan et al. Automatically infer human traits and behavior from social media data
Panawong et al. Tourism web filtering and analysis using Naïve bay with boundary values and text mining
Bhatia et al. Opinion score mining system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Nie Lin

Inventor after: Lin Jing

Inventor after: Wang Qing

Inventor after: Luo Siwei

Inventor before: Luo Siwei

Inventor before: Lin Jing

Inventor before: Wang Qing

Inventor before: Nie Lin

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170426

Assignee: GUANGDONG TECSUN TECHNOLOGY Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2023980054810

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240102

Application publication date: 20170426

Assignee: Guangzhou Quying Information Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2023980054796

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240102

Application publication date: 20170426

Assignee: SHENDAYUN NETWORK (SHENZHEN) Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2023980054646

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20231229

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170426

Assignee: Guangzhou Ainuo Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001983

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240205

Application publication date: 20170426

Assignee: Guangzhou Ruijinyuan Food Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001982

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240205

Application publication date: 20170426

Assignee: Guangzhou Liren Digital Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001991

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240205

Application publication date: 20170426

Assignee: Spectrum Blue Cloud (Guangzhou) Digital Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001990

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240205

Application publication date: 20170426

Assignee: Lingjing Information Technology (Guangzhou) Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001986

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240205

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170426

Assignee: Guangzhou Love Time Information Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980002610

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240307

Application publication date: 20170426

Assignee: Zhongyuan Technology (Guangdong) Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980002582

Denomination of invention: A User Profile Formation Method Based on User Access Data

Granted publication date: 20191210

License type: Common License

Record date: 20240307

EE01 Entry into force of recordation of patent licensing contract