CN108804651A - 一种基于强化贝叶斯分类的社交行为检测方法 - Google Patents
一种基于强化贝叶斯分类的社交行为检测方法 Download PDFInfo
- Publication number
- CN108804651A CN108804651A CN201810578405.1A CN201810578405A CN108804651A CN 108804651 A CN108804651 A CN 108804651A CN 201810578405 A CN201810578405 A CN 201810578405A CN 108804651 A CN108804651 A CN 108804651A
- Authority
- CN
- China
- Prior art keywords
- word
- classification
- text
- chinese
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于强化贝叶斯分类的社交行为检测方法具体为:步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列vi,i∈{1,2,3,…f},f为训练样本总数;步骤3)通过TF‑IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;步骤5)通过强化贝叶斯分类器对分类器进行强化。本发明方法能够更加精确和高效的对人物社交行为进行检测,具有较好的应用前景。
Description
技术领域
本发明涉及一种基于强化贝叶斯分类的社交行为检测方法,尤其是在在线社交网络中进行社交行为检测,通过TF-IDF中文分词算法对社交网络人物言论进行检测分类,并且提取特征词及特征值权值,之后特征词及其权值输入贝叶斯分类器中进行社交网络人物行为进行分类检测。
背景技术
贝叶斯算法以其高效、易于实现、扩展性好的特点,已广泛的应用在行为分类的过程中此外,贝叶斯算法能够通过对中文语言样本的训练,自动学习样本内容来对社交人物行为进行检测。在现有的社交人物行为进行检测中,贝叶斯算法在行为检测中显现出了极好的应用效果。
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
加强学习是一种迭代的算法,会对同一个训练集使用不同的分类器训练,之后,再把这些分类器集合起来,构建一个最终的最强的分类器。其算法本身是通过改变一个权重D的分布来实现的,该权重D初始化一致,然后改变之后交给下一次分类器。使用加强分类器能够过滤掉一些不必要的训练数据特征,然后放在关键的训练数据上面。
发明内容
技术问题:本发明公开了一种基于强化贝叶斯分类的社交行为检测方法。该方法首先将人物的言论量化为行为向量,行为向量的每个维度的值相当于人物对该行为的取值。使用朴素贝叶斯分类模型实现对人物行为向量进行简单分类。
技术方案:本发明的一种基于强化贝叶斯分类的社交行为检测方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列Vi,i∈{1,2,3,...f},f为训练样本总数;
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;
步骤5)通过强化贝叶斯分类器对分类器进行强化。
其中,
步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,根据提取的特征词以及特征词权值更新特征词词库,具体如下:
步骤31)计算vi词语序列中的第j个词语vi,j的正向词频公式中的ni,j是词语vi,j在词序列vi中的出现次数,∑ni,j是次序列vi所有字词的出现次数之和;
步骤32)计算vi词语序列中的第j个词语vi,j的逆文件词频|D|是语料库中的文件总数,countsum是包含词语vi,j的文件总数;
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值;tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词。
所述步骤4)输入特征词序列,使用贝叶斯模型进行学习识别的过程为:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词;
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n社交行为类别;
步骤43)在各个特征属性是条件独立的基础上,见算出每个类别下的各个属性的条件概率P(*)为贝叶斯概率公式,*为概率事件;
步骤44)根据公式对每个类别的概率P(x|yz)P(yz)进行计算,P(yz)为类别yz的概率。P(ak|yz)是在分类属性为ak条件下的的条概率,u为迭代变量u∈{1,2,...m};
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第P个属性值。
所述步骤5)加强贝叶斯分类器进行训练的方法为:
步骤51):准备N个训练样本{(xp,yq)},p∈{1,2,3,...m}组成训练集和D,yq是xp对应的第q个社交行为类别,赋予每个样本相等的权重权重;
步骤52):训练样本集D上,利用样本权重ω和步骤4中学习得到弱分类器h(xp)计算弱分类器h(xp)的错误率 I(h(xp)≠yq)为每个分类器偏差率;
步骤53)假设ε>0.5,使用简单贝叶斯进行分类,否则计算模型迭代权值a,
步骤54)根据公式计算出强化贝叶斯分类模型h*。T为总的行为总类数目,x中文文本的特征词序列,a是不同类别的加权值,h*是强化分类器模型,I(h(xp)≠yq)为每个分类器正确率。
有益效果:本发明采用以上技术方案与现有技术相比:
(1)本发明算法较为简单,节省了计算成本,能够更好地提取文章关键词
(2)本发明方法基于词典对训练集的属性进行筛选,并且朴素贝叶斯分类对数据进行分类,使用使用强化贝叶斯分类模型对模型进行连接,能够更加精确和高效的对人物社交行为进行检测,检测准确度非常高。
具体实施方式
本发明的一种基于强化贝叶斯分类的社交行为检测方法方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集。
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列Vi,i∈{1,2,3,...f},f为训练样本总数,f为500,第i个文本训练集为内容为“这是一个非常优秀的人,喜欢帮助别人,热爱学习”,分词后的词序列Vi为{优秀,帮助,热爱,学习,非常,这,是,一个,喜欢,帮助};
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,步骤如下:
步骤31)计算vi词语序列中的第j个词语vi,j的正向词频公式中的ni,j是词语vi,j在词序列vi中的出现次数,∑ni,j是次序列vi所有字词的出现次数之和;
步骤32)计算vi词语序列中的第j个词语vi,j的逆文件词频|D|是语料库中的文件总数,countsum是包含词语vi,j的文件总数;
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词,阙值t为50。
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别,具体步骤如下:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词。特征词序列x为{帮助,喜欢,热爱},m的值为4。社交行为类别集合C={赞赏,攻击,喜爱,痴迷,讨厌},n为5.
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n社交行为类别。
步骤43)在各个特征属性是条件独立的基础上,见算出每个类别下的各个属性的条件概率P(*)为贝叶斯概率公式,*为概率事件。
步骤44)根据公式对每个类别的概率P(x|yz)P(yz)进行计算,P(yz)为类别yz的概率。P(ak|yz)是在分类属性为ak条件下的的条概率,u为迭代变量u∈{1,2,...m}。
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第p个属性值。
步骤5)通过强化贝叶斯分类器对分类器进行强化,具体步骤如下:
步骤51):准备N个训练样本{(xp,yq)},p∈{1,2,3,...m}组成训练集和D,yq是xp对应的第q个社交行为类别,赋予每个样本相等的权重权重,N为500,ω为0.002;
步骤52):训练样本集D上,利用样本权重ω和步骤4中学习得到弱分类器h(xp)计算弱分类器h(xp)的错误率 I(h(xp)≠yq)为每个分类器偏差率。
步骤53)假设ε=0.6,使用简单贝叶斯进行分类,否则计算模型迭代权值a,
步骤54)根据公式计算出强化贝叶斯分类模型h*。T为总的行为总类数目,x中文文本的特征词序列,a是不同类别的加权值,h*是强化分类器模型,I(h(xp)≠yq)为每个分类器正确率。
通过该方法验证得知,该文本社交数据属于攻击性言论。
Claims (4)
1.一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,该方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列vi,i∈{1,2,3,...f},f为训练样本总数;
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;
步骤5)通过强化贝叶斯分类器对分类器进行强化。
2.根据权利要求1所述的一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,根据提取的特征词以及特征词权值更新特征词词库,具体如下:
步骤31)计算vi词语序列中的第j个词语vi,j的正向词频公式中的ni,j是词语vi,j在词序列vi中的出现次数,∑ni,j是次序列vi所有字词的出现次数之和;
步骤32)计算vi词语序列中的第j个词语vi,j的逆文件词频|D|是语料库中的文件总数,countsum是包含词语vi,j的文件总数;
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值;tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词。
3.根据权利要求1所述的一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,所述步骤4)输入特征词序列,使用贝叶斯模型进行学习识别的过程为:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词;
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n社交行为类别;
步骤43)在各个特征属性是条件独立的基础上,见算出每个类别下的各个属性的条件概率P(*)为贝叶斯概率公式,*为概率事件;
步骤44)根据公式对每个类别的概率P(x|yz)P(yz)进行计算,P(yz)为类别yz的概率。P(ak|yz)是在分类属性为ak条件下的的条概率,u为迭代变量u∈{1,2,...m};
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第P个属性值。
4.根据权利要求1所述的一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,所述步骤5)加强贝叶斯分类器进行训练的方法为:
步骤51):准备N个训练样本{(xp,yq)},p∈{1,2,3,...m}组成训练集和D,yq是xp对应的第q个社交行为类别,赋予每个样本相等的权重
步骤52):训练样本集D上,利用样本权重ω和步骤4中学习得到弱分类器h(xp)计算弱分类器h(xp)的错误率 I(h(xp)≠yq)为每个分类器偏差率;
步骤53)假设ε>0.5,使用简单贝叶斯进行分类,否则计算模型迭代权值a,
步骤54)根据公式计算出强化贝叶斯分类模型h*。T为总的行为总类数目,x中文文本的特征词序列,a是不同类别的加权值,h*是强化分类器模型,I(h(xp)≠yq)为每个分类器正确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810578405.1A CN108804651B (zh) | 2018-06-07 | 2018-06-07 | 一种基于强化贝叶斯分类的社交行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810578405.1A CN108804651B (zh) | 2018-06-07 | 2018-06-07 | 一种基于强化贝叶斯分类的社交行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804651A true CN108804651A (zh) | 2018-11-13 |
CN108804651B CN108804651B (zh) | 2022-08-19 |
Family
ID=64087542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810578405.1A Active CN108804651B (zh) | 2018-06-07 | 2018-06-07 | 一种基于强化贝叶斯分类的社交行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804651B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583208A (zh) * | 2018-12-03 | 2019-04-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于移动应用评论数据的恶意软件识别方法和*** |
CN109635092A (zh) * | 2018-12-14 | 2019-04-16 | 泰康保险集团股份有限公司 | 分析员工工作状态的方法、装置、介质及电子设备 |
CN110688484A (zh) * | 2019-09-24 | 2020-01-14 | 北京工商大学 | 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法 |
CN111553388A (zh) * | 2020-04-07 | 2020-08-18 | 哈尔滨工程大学 | 一种基于在线AdaBoost的垃圾邮件检测方法 |
CN112667943A (zh) * | 2020-11-10 | 2021-04-16 | 中科金审(北京)科技有限公司 | 一种非法网站识别和锁定方法 |
CN112949713A (zh) * | 2021-03-01 | 2021-06-11 | 武汉工程大学 | 一种基于复杂网络的集成学习的文本情感分类方法 |
CN113987185A (zh) * | 2021-11-03 | 2022-01-28 | 国网天津市电力公司 | 面向国网云架构的html数据的自动分类方法 |
CN114564582A (zh) * | 2022-02-25 | 2022-05-31 | 苏州浪潮智能科技有限公司 | 一种短文本分类方法、装置、设备及存储介质 |
CN115713307A (zh) * | 2022-11-17 | 2023-02-24 | 西安电子科技大学广州研究院 | 运营商智能定责方法及装置 |
CN114564582B (zh) * | 2022-02-25 | 2024-06-28 | 苏州浪潮智能科技有限公司 | 一种短文本分类方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086952A (zh) * | 2017-04-19 | 2017-08-22 | 中国石油大学(华东) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 |
CN107748783A (zh) * | 2017-10-24 | 2018-03-02 | 天津大学 | 一种基于句向量的多标签公司描述文本分类方法 |
-
2018
- 2018-06-07 CN CN201810578405.1A patent/CN108804651B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086952A (zh) * | 2017-04-19 | 2017-08-22 | 中国石油大学(华东) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 |
CN107748783A (zh) * | 2017-10-24 | 2018-03-02 | 天津大学 | 一种基于句向量的多标签公司描述文本分类方法 |
Non-Patent Citations (1)
Title |
---|
AURANGZEB KHAN 等: "A Review of Machine Learning Algorithms for Text-Documents Classification", 《JOURNAL OF ADVANCES IN INFORMATION TECHNOLOGY》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583208A (zh) * | 2018-12-03 | 2019-04-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于移动应用评论数据的恶意软件识别方法和*** |
CN109635092A (zh) * | 2018-12-14 | 2019-04-16 | 泰康保险集团股份有限公司 | 分析员工工作状态的方法、装置、介质及电子设备 |
CN110688484A (zh) * | 2019-09-24 | 2020-01-14 | 北京工商大学 | 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法 |
CN111553388A (zh) * | 2020-04-07 | 2020-08-18 | 哈尔滨工程大学 | 一种基于在线AdaBoost的垃圾邮件检测方法 |
CN112667943A (zh) * | 2020-11-10 | 2021-04-16 | 中科金审(北京)科技有限公司 | 一种非法网站识别和锁定方法 |
CN112949713A (zh) * | 2021-03-01 | 2021-06-11 | 武汉工程大学 | 一种基于复杂网络的集成学习的文本情感分类方法 |
CN112949713B (zh) * | 2021-03-01 | 2023-11-21 | 武汉工程大学 | 一种基于复杂网络的集成学习的文本情感分类方法 |
CN113987185A (zh) * | 2021-11-03 | 2022-01-28 | 国网天津市电力公司 | 面向国网云架构的html数据的自动分类方法 |
CN114564582A (zh) * | 2022-02-25 | 2022-05-31 | 苏州浪潮智能科技有限公司 | 一种短文本分类方法、装置、设备及存储介质 |
CN114564582B (zh) * | 2022-02-25 | 2024-06-28 | 苏州浪潮智能科技有限公司 | 一种短文本分类方法、装置、设备及存储介质 |
CN115713307A (zh) * | 2022-11-17 | 2023-02-24 | 西安电子科技大学广州研究院 | 运营商智能定责方法及装置 |
CN115713307B (zh) * | 2022-11-17 | 2024-02-06 | 西安电子科技大学广州研究院 | 运营商智能定责方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108804651B (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804651A (zh) | 一种基于强化贝叶斯分类的社交行为检测方法 | |
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN108021616B (zh) | 一种基于循环神经网络的社区问答专家推荐方法 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN111125358B (zh) | 一种基于超图的文本分类方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和*** | |
CN111177374A (zh) | 一种基于主动学习的问答语料情感分类方法及*** | |
CN108536870A (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及*** | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN110851718B (zh) | 一种基于长短时记忆网络以及用户评论的电影推荐方法 | |
CN106126751A (zh) | 一种具有时间适应性的分类方法及装置 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
CN104008187B (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN111460157A (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN114841257A (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN108875034A (zh) | 一种基于层次化长短期记忆网络的中文文本分类方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN110309515B (zh) | 实体识别方法及装置 | |
CN106203520B (zh) | 基于深度相关向量机的sar图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |