CN106126605A - 一种基于用户画像的短文本分类方法 - Google Patents
一种基于用户画像的短文本分类方法 Download PDFInfo
- Publication number
- CN106126605A CN106126605A CN201610453205.4A CN201610453205A CN106126605A CN 106126605 A CN106126605 A CN 106126605A CN 201610453205 A CN201610453205 A CN 201610453205A CN 106126605 A CN106126605 A CN 106126605A
- Authority
- CN
- China
- Prior art keywords
- user
- short text
- portrait
- classification
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户画像的短文本分类方法。本方法为:1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的用户画像 为用户ui属于类别ci的值;2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。本发明大大增加了分类的准确率。
Description
技术领域
本发明属于计算机数据挖掘领域中的文本挖掘领域,涉及海量文本数据分类方法分析,本发明着重解决的问题是在海量数据环境中基于用户画像的短文本分类。
背景技术
分类是一种重要的信息组织方式,研究的目标是对文本自动归类。互联网正悄然无息地影响着人们的生活习惯,由于社交网络的出现,短文本形式的信息大量涌入人们的生活中。面对大规模的短文本形式的数据,如何快速而准确地从中获取所需的关键信息,进行文本挖掘或商业挖掘,短文本分类技术发挥着非常重要的作用,并且在用户兴趣挖掘、热点话题追踪、流行语分析等领域都有着广泛的应用前景。目前的文本分类技术多是针对长文本进行,虽然性能较好但由于短文本字数少、数量庞大,并多数依存于网络,并不一定适用。国内针对短文本的研究多集中在语义扩展、特征处理等方面,并没有特别深入***的研究。据此,基于用户画像的短文本分类方法具有极其重要的研究意义:
从理论上看,文本分类作为一种有效的组织和管理方法,得到了广泛应用和快速发展。文本分类是信息处理的主要研究方向,有着极其重要的应用价值。由于其能快速、全面、准确地处理各种杂乱信息,在信息检索、信息过滤、搜索引擎、数字图书馆管理和文本管理等领域中有着广泛的应用。
从商业活动上来看,将产品评论中的产品特征、观点词作为语义内容,并将语义内容数量和评论文本长度等加入分类特征进行产品评论的挖掘,进而获得产品相关的反馈以改进产品质量的针对性意见。
从文化生活的角度看,分类技术可以挖掘世界各地用户对生活中的各类人文地理文化自动分类,有利于用户按照分类信息快速浏览查阅自己想知道的内容。此外分类技术还可以用于社交网络中的个性化推荐功能,比如根据用户好友平时经常浏览的类别信息对用户进行图书、电影、音乐等推荐。
通常情况下,文本经过预处理、降维、向量化后文本被转换为向量,先对训练集通过某种分类方法训练得到一分类器,再用分类器对测试集数据进行分类。通常的分类方法有两类:第一类是借助外部文本如搜索引擎结果,扩展短文本;第二类是借助知识库挖掘短文本中词语之间的内在联系。第一类方法不是很理想,一方面消耗较长时间,另一方面对搜索引擎的结果非常依赖;第二类方法利用知识库可以发现大部分分词之间的语义关系,但对于知识库中不存在的词无能为力。
分类的准确率一直都是大家关注的重点,短文本由于其长度较短,特征较少,使得其分类准确率一直很难提升。有些方法比如扩展短文本的特征,其方法的准确率受限于扩展的方法,也不能很好的解决短文本分类问题。
短文本分类主要存在以下问题:短文本本身含有的特征太少。在一篇短文本中,词的数量非常有限,而拓展词汇虽然扩展了短文本的特征,但其扩展方法的准确性仍然有待考证。
综上所述,为了解决短文本分类,提高判断短文本分类的准确率,本发明提出了一种基于用户画像的短文本分类方法。
发明内容
为了解决上述问题,我提出使用用户历史数据来预测当前文本。本发明的目的在于提供一种短文本分类处理方法及***,使用人工标注的用户历史数据,来预测该用户一条新的短文本所属类别,既使用用户画像辅助分类。
本发明主要包含两个方面:(1)首先,定义并使用用户画像。(2)其次,综合用户画像与分类器结果进行分类。
用户发出来的短文本有这样一个现象,这些短文本往往属于一个或几个类别,而该用户的一条新的短文本,往往很大程度上在这些类别之中。因此,我们可以使用历史数据来刻画用户画像,进而辅助分类。
令U={u1,...,uk}表示一个用户集合,对于该集合中的任意一个用户ui,假设该用户ui的历史短文本信息集合是每条短文本信息对应的类别标签是其中C是类别集合,共有m=|C|个类别,那么对于所有类别C={c1,...,cj,...,cm},用户ui的用户画像是:其中,num(ci)是用户ui短文本信息的集合中标签的个数。
对于分类器给出的短文本TS所属类别的可能性F={f1,...,fm},进行归一化,得到G={g1,...,gm},与用户画像结合得到所属可能性为P={p1,...,pm},pi=gi*pfi,即相对应类别的可能性与画像相乘,选出最大的类别结果作为该短文本的类别标签。
基于此,本发明的技术方案为:
一种基于用户画像的短文本分类方法,其步骤为:
1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的用户画像为用户ui属于类别ci的值;
2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};
3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。
进一步的,生成该用户ui的用户画像的方法为:设该用户ui的历史短文本信息集合是每条短文本信息对应的类别标签是其中,C是类别集合,共有m=|C|个类别;那么对于所有类别C={c1,...,cj,...,cm},用户ui的用户画像是其中,num(ci)是用户ui短文本信息的集合中标签的个数。
进一步的,步骤2)中,对该短文本TS所属类别的可能性F={f1,...,fi,...,fm}进行归一化,得到G={g1,...,gi,...,gm},其中,fi为该短文本TS属于类别ci的可能性。
进一步的,步骤3)中,根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值的方法为:将用户ui的用户画像与F={f1,...,fi,...,fm}相乘,得到P={p1,...,pi,...,pm},其中,pi=gi*pfi。
进一步的,步骤1)中,对该用户画像进行一次平滑操作,然后进行步骤2)。
进一步的,所述分类器为SVM或朴素贝叶斯分类器。
进一步的,所述类别包括体育、娱乐、教育。
本发明使用历史数据对用户刻画用户画像,根据用户画像,结合分类器分类结果,给出短文本的分类结果。
与现有技术向,本发明的积极效果为:
本发明提出的基于用户画像的短文本分类方法,综合考虑了句子的文本和用户历史信息,增加了分类的准确率。实验证明,见表1,将用户画像与传统的SVM方法进行融合后效果有明显提升。
表1为实验结果对比表
Method | Accuracy |
SVM | 81.4% |
SVM-PR | 85.6% |
附图说明
图1为本发明的方法流程图。
具体实施方式
本发明公开了一种有监督的短文本分类方法,其流程如图1所示,其包括如下步骤:
对于每个用户和用户的历史数据,选出20条进行人工标注。
假设短文本共有三类(体育,娱乐,教育)。如对于用户A,选取历史短文本数据20条,经过人工标注后,共有5条体育类别,15条娱乐类别的短文本数据。那么用户A的历史数据就是(5,15,0)。
根据上述公式计算每个用户的用户画像。
对于用户A,体育类别的用户画像概率就是log(5)=2.32,娱乐类别的用户画像概率就是log(15)=3.91,以此可得用户A的用户画像是(2.32,3.91,0),经过一次平滑的操作,得到用户A的用户画像(2.32,3.91,1)
预测:
给出一个短文本,计算分类器(如SVM,朴素贝叶斯等)给出的结果。
如有两条用户A的短文本a、b,经过SVM分类后,属于三个类别的概率分别为a:(0.8,0.1,0.1),b:(0.4,0.3,0.3)。
综合用户画像与分类器分出来的结果,计算,并选出p总最大的值的类别标签作为该短文本的类别。
对于a,将用户A的用户画像与分类器分类结果进行相乘,得到(0.8*2.32,0.1*3.91,0.1*1),得到(1.856,0.391,0.01),则得出结论短文本a属于第一类;对于短文本b,经过同样的运算,得到(0.928,1.173,0.03),则我们认为短文本b属于第二类。
Claims (7)
1.一种基于用户画像的短文本分类方法,其步骤为:
1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的用户画像 为用户ui属于类别ci的值;
2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};
3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。
2.如权利要求1所述的方法,其特征在于,生成该用户ui的用户画像的方法为:设该用户ui的历史短文本信息集合是每条短文本信息对应的类别标签是其中,C是类别集合,共有m=|C|个类别;那么对于所有类别C={c1,...,cj,...,cm},用户ui的用户画像是其中,num(ci)是用户ui短文本信息的集合中标签的个数。
3.如权利要求1或2所述的方法,其特征在于,步骤2)中,对该短文本TS所属类别的可能性F={f1,...,fi,...,fm}进行归一化,得到G={g1,...,gi,...,gm},其中,fi为该短文本TS属于类别ci的可能性。
4.如权利要求3所述的方法,其特征在于,步骤3)中,根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值的方法为:将用户ui的用户画像与F={f1,...,fi,...,fm}相乘,得到P={p1,...,pi,...,pm},其中,pi=gi*pfi。
5.如权利要求1所述的方法,其特征在于,步骤1)中,对该用户画像进行一次平滑操作,然后进行步骤2)。
6.如权利要求1所述的方法,其特征在于,所述分类器为SVM或朴素贝叶斯分类器。
7.如权利要求1所述的方法,其特征在于,所述类别包括体育、娱乐、教育。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610453205.4A CN106126605B (zh) | 2016-06-21 | 2016-06-21 | 一种基于用户画像的短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610453205.4A CN106126605B (zh) | 2016-06-21 | 2016-06-21 | 一种基于用户画像的短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106126605A true CN106126605A (zh) | 2016-11-16 |
CN106126605B CN106126605B (zh) | 2019-12-10 |
Family
ID=57470320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610453205.4A Active CN106126605B (zh) | 2016-06-21 | 2016-06-21 | 一种基于用户画像的短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126605B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897402A (zh) * | 2017-02-13 | 2017-06-27 | 山大地纬软件股份有限公司 | 基于社保数据构建用户画像的方法和用户画像生成器 |
CN107145536A (zh) * | 2017-04-19 | 2017-09-08 | 畅捷通信息技术股份有限公司 | 用户画像构建方法与装置及推荐方法与装置 |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN107392879A (zh) * | 2017-07-20 | 2017-11-24 | 武汉大学 | 一种基于参考帧的低照度监控图像增强方法 |
CN109614509A (zh) * | 2018-10-29 | 2019-04-12 | 山东中创软件工程股份有限公司 | 船舶画像构建方法、装置、设备及存储介质 |
CN110209767A (zh) * | 2019-05-28 | 2019-09-06 | 重庆大学 | 一种用户画像构建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556553A (zh) * | 2009-03-27 | 2009-10-14 | 中国科学院软件研究所 | 基于需求变更的缺陷预测方法和*** |
CN103514174A (zh) * | 2012-06-18 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种文本分类方法和装置 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN104967978A (zh) * | 2015-07-06 | 2015-10-07 | 陈包容 | 一种节日祝福短信的发送方法 |
CN105069141A (zh) * | 2015-08-19 | 2015-11-18 | 北京工商大学 | 一种股票标准新闻库的构建方法及构建*** |
-
2016
- 2016-06-21 CN CN201610453205.4A patent/CN106126605B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556553A (zh) * | 2009-03-27 | 2009-10-14 | 中国科学院软件研究所 | 基于需求变更的缺陷预测方法和*** |
CN103514174A (zh) * | 2012-06-18 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种文本分类方法和装置 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN104967978A (zh) * | 2015-07-06 | 2015-10-07 | 陈包容 | 一种节日祝福短信的发送方法 |
CN105069141A (zh) * | 2015-08-19 | 2015-11-18 | 北京工商大学 | 一种股票标准新闻库的构建方法及构建*** |
Non-Patent Citations (1)
Title |
---|
范秀梅等: "基于朴素贝叶斯算法的水产类专利文本分类", 《渔业信息与战略》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897402A (zh) * | 2017-02-13 | 2017-06-27 | 山大地纬软件股份有限公司 | 基于社保数据构建用户画像的方法和用户画像生成器 |
CN107145536A (zh) * | 2017-04-19 | 2017-09-08 | 畅捷通信息技术股份有限公司 | 用户画像构建方法与装置及推荐方法与装置 |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN107301225B (zh) * | 2017-06-20 | 2021-01-26 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN107392879A (zh) * | 2017-07-20 | 2017-11-24 | 武汉大学 | 一种基于参考帧的低照度监控图像增强方法 |
CN107392879B (zh) * | 2017-07-20 | 2019-10-25 | 武汉大学 | 一种基于参考帧的低照度监控图像增强方法 |
CN109614509A (zh) * | 2018-10-29 | 2019-04-12 | 山东中创软件工程股份有限公司 | 船舶画像构建方法、装置、设备及存储介质 |
CN110209767A (zh) * | 2019-05-28 | 2019-09-06 | 重庆大学 | 一种用户画像构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106126605B (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
JP5391634B2 (ja) | 文書の段落分析によるその文書のタグの選択 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
CN106126605A (zh) | 一种基于用户画像的短文本分类方法 | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
Shi et al. | Learning-to-rank for real-time high-precision hashtag recommendation for streaming news | |
Gupta et al. | An overview of social tagging and applications | |
CN104572797A (zh) | 基于主题模型的个性化服务推荐***和方法 | |
CN106940726B (zh) | 一种基于知识网络的创意自动生成方法与终端 | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
JP2009093651A (ja) | 統計分布を用いたトピックスのモデリング | |
CN102033880A (zh) | 基于结构化数据集合的标注方法和装置 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
Cordobés et al. | Graph-based techniques for topic classification of tweets in Spanish | |
Raghuvanshi et al. | A brief review on sentiment analysis | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
Chen et al. | Search engine reinforced semi-supervised classification and graph-based summarization of microblogs | |
Marujo et al. | Hourly traffic prediction of news stories | |
Tembhurnikar et al. | Topic detection using BNgram method and sentiment analysis on twitter dataset | |
Thakkar | Twitter sentiment analysis using hybrid naive Bayes | |
Li et al. | Research on hot news discovery model based on user interest and topic discovery | |
KR20130113250A (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 | |
Buccoli et al. | A dimensional contextual semantic model for music description and retrieval | |
Song et al. | Research on weibo hotspot finding based on self-adaptive incremental clustering | |
Wang et al. | Sentiment Analysis of Name Entity for Text. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |