CN111177374A - 一种基于主动学习的问答语料情感分类方法及*** - Google Patents

一种基于主动学习的问答语料情感分类方法及*** Download PDF

Info

Publication number
CN111177374A
CN111177374A CN201911283416.8A CN201911283416A CN111177374A CN 111177374 A CN111177374 A CN 111177374A CN 201911283416 A CN201911283416 A CN 201911283416A CN 111177374 A CN111177374 A CN 111177374A
Authority
CN
China
Prior art keywords
classifier
data set
data
similar
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911283416.8A
Other languages
English (en)
Other versions
CN111177374B (zh
Inventor
刘振宇
王亚平
杨硕
孙科武
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201911283416.8A priority Critical patent/CN111177374B/zh
Publication of CN111177374A publication Critical patent/CN111177374A/zh
Application granted granted Critical
Publication of CN111177374B publication Critical patent/CN111177374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主动学习的问答语料情感分类方法及***,包括:对语料库中的训练语句进行分词,确定TF‑IDF值,根据TF‑IDF值构建句子相量样本,确定训练数据;将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;对训练数据中的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;利用投票数据集和人工标注数据集对综合分类器进行训练;根据待分类语料确定句子相量,并利用已训练好的综合分类器确定情感分类结果。

Description

一种基于主动学习的问答语料情感分类方法及***
技术领域
本发明涉及计量主动学习技术领域,并且更具体地,涉及一种基于主动学习的问答语料情感分类方法及***。
背景技术
智能客服随着机器学习和自然语言处理的发展极大地提高了企业的效率,方便用户询问的同时减轻了客服人员的压力,帮助企业实现了全新的客服行为体系框架,普遍应用于电信、银行等诸多领域。在智能客服的主要应用中,情感分类占据着越来越重要的位置。早期的大部分工作都是利用监督学习方法对社交数据进行训练,如神经网络和支持向量机。然而,有监督学习需要大量的数据进行训练,但是客服问答数据并没有社交数据那么多。针对数据集少,数据标注困难的情况,主动学习和迁移学习被提出,并情感分析中取得了较好的效果。
主动学习和迁移学习在面对少量标注数据时都可以取得较好的效果,但是迁移学习需要大量的预训练才能获得较好的参数。主动学习则是通过训练初始小数据集,然后不断抽样进行人工标注的方法获取更好的效果。现有的主动学习在自然语言处理的应用当中主要是通过调整采样策略来提高文本分类的准确率,这种方法针对不同的分类问题以及数据集时的效果不一致,一种选择策略仅仅能用在某些特定的领域。
因此,需要一种问答语料情感分类方法,以研究基于税务问答数据的用户情感的预测,构造用户问题与用户情感之间的分类模型,利用自然语言处理相关技术以及主动学习和半监督学习方法,构造机器学习训练模型,预测情感极性。
发明内容
本发明提出一种基于主动学习的问答语料情感分类方法及***,以解决如何准确地对问答语句进行情感分类的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种基于主动学习的问答语料情感分类方法,所述方法包括:
步骤1,对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
步骤2,将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
步骤3,对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
步骤4,利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
步骤5,利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则返回步骤2;
步骤6,根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
优选地,其中所述根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
Figure BDA0002317372040000021
Figure BDA0002317372040000022
Figure BDA0002317372040000031
Figure BDA0002317372040000032
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,
Figure BDA0002317372040000033
是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,
Figure BDA0002317372040000034
是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
优选地,其中所述对训练数据中的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的
Figure BDA0002317372040000035
并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
Figure BDA0002317372040000036
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
优选地,其中所述方法还包括:
将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
优选地,其中所述根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
根据本发明的另一个方面,提供了一种基于主动学习的问答语料情感分类***,所述***包括:
处理计算单元,用于对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
分类器训练单元,用于将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
聚类单元,用于对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
数据集更新单元,用于利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
综合分类器训练单元,用于利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则进入分类器训练单元;
情感分类结果确定单元,用于根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
优选地,其中所述处理计算单元,根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
Figure BDA0002317372040000051
Figure BDA0002317372040000052
Figure BDA0002317372040000053
Figure BDA0002317372040000054
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,
Figure BDA0002317372040000055
是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,
Figure BDA0002317372040000056
是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
优选地,其中所述聚类单元,对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的
Figure BDA0002317372040000057
并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
Figure BDA0002317372040000061
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
优选地,其中所述***还包括:
标注单元,用于将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
优选地,其中所述数据集更新单元,根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
本发明提供了一种基于主动学习的问答语料情感分类方法及***,从智能客服对话***出发,为提升智能问答中用户体验,利用主动学习和多监督学习训练器投票的方式,增强情感分析多分类的准确率,提出了基于主动学习的问答语料情感分类模型。与传统的机器学习和神经网络相比,处理小数据量时能更快的达到更高的准确率,在处理稀疏性强的小数据集时可以获得很好的效果。用于税务问答等专业领域问答语料的情感极性分析,在数据积累初期以及缺乏人工标注时,能很好的分辨用户情感,进行情感极性分类。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的基于主动学习的问答语料情感分类方法100的流程图;
图2为根据本发明实施方式的问答情感分析***架构图;
图3为根据本发明实施方式的半监督多分类器投票流程的示意图;以及
图4为根据本发明实施方式的基于主动学习的问答语料情感分类***400的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的基于主动学习的问答语料情感分类方法100的流程图。如图1所示,本发明实施方式提供的基于主动学习的问答语料情感分类方法,从智能客服对话***出发,为提升智能问答中用户体验,利用主动学习和多监督学习训练器投票的方式,增强情感分析多分类的准确率,提出了基于主动学习的问答语料情感分类模型。与传统的机器学习和神经网络相比,处理小数据量时能更快的达到更高的准确率,在处理稀疏性强的小数据集时可以获得很好的效果。用于税务问答等专业领域问答语料的情感极性分析,在数据积累初期以及缺乏人工标注时,能很好的分辨用户情感,进行情感极性分类。本发明实施方式提供的基于主动学习的问答语料情感分类方法100从步骤101处开始,在步骤101,对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据。
优选地,其中所述根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
Figure BDA0002317372040000081
Figure BDA0002317372040000082
Figure BDA0002317372040000083
Figure BDA0002317372040000084
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,
Figure BDA0002317372040000085
是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,
Figure BDA0002317372040000086
是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
图2为根据本发明实施方式的问答情感分析***架构图。如图2所示,***架构分为向量空间模块,主客观分类模块,情感分类模块和主动学习模块四部分,各部分之间的联系见附图,各部分功能如下:
向量空间模块(Vector space model,VSM)将语料库进行分词训练获得句子的特征,并根据句子中不同的分词词性给予权重的体现,这一模块能有效的根据语料的特点获得不同的权重,由于税务客服问答语料是一种弱情感语料,没有明显的情感词,因此针对词性和位置的不同权重的TF-IDF方法能有效的描述文本特征。
主客观分类模块(sub-object Classification,SOC)的任务是进行一次文本分类,筛选出包含主观意图的句子,主要是根据VSM提取的特征进行主客观的训练和分类。由于智能客服问答***中,只有尽可能准确的获取用户情感才能生成相应的回答来进行情感回复,因此情感分类的准确率比召回率要更重要,所以进过二分类后的数据在进行多标签的情感分类能获得更好的效果。
情感分类模块(Multi-emotion Classification,MEC)将从SOC获取的主观情感通过多个二分类的支持向量机进行多标签分类,MEC模块的目的是通过多标签分类获得不同的用户情感,并根据不同情感在对应的机器回答中添加相应的情感回复,达到智能客服情感互动和情感安抚的目的。
主动学***衡性极强,主观情感语料不足整体语料的1%,因此常规的标注方法很难获取大量均匀的标注语料,从而很难获得较好训练结果,通过主动学习采样规则,从未标注库中抽取不确定性最大的数据进行标注,将标注中非情感的句子单独作为新类添加到下一轮主动学习中,获得更好的多标签分类效果,计算用户的真实情感。
TF-IDF是一种常用的词向量空间模型,基于统计理论从特定类别文档的词频以及该词语在整个文档集合中出现的频率可以得到TD-IDF值,一般较高的词频(TF)和较低的逆文档频率(IDF)可以得到较高的权重。TF表示一篇文档中某个词出现的频率,因为文档的长短不同,经过归一化处理后如公式1所示:
Figure BDA0002317372040000091
其中,ni,j是词i才文档j中出现的次数,
Figure BDA0002317372040000092
是文档j中所有词语出现次数和。TF的值越大说明词语在文档中越重要。
IDF是逆文档频率,IDF越大表明包含该词语的文档越少,说明该词区别该类文档的效果越好,当IDF等于1时,表示所有文档都包含该词,无法用来区分文档类别,如公式2所示:
Figure BDA0002317372040000101
其中D是总文档数,
Figure BDA0002317372040000102
是包含词语wi的总文档数,一般为了便于计算,通常使用
Figure BDA0002317372040000103
来表示IDF。
但是传统的TF-IDF方法有许多不足,首先,没有考虑特征词的位置因素对文本分类的区分度,不同位置的词语对文本的影响力是不一样的,在有专业性的税务智能问答中用户的问题主体部分是税务领域的专业词语,这些词语对用户的情感表达基本没有帮助,而用户语句中标点符号旁边的词语即每个短句的开头和结尾往往能包含更多的情感主旨,例如“您好”、“谢谢”等表达用户礼貌的情感主题,“啊”、“怎么办”、“为什么”等表达用户焦急的情感主体。其次,TF-IDF的方法不考虑词性因素,而对出现较少的生僻词汇认为是文本的关键词。为了获得税务客服问答数据主客观语料词性比重的区别,本产品通过对人工标注的1000条数据进行传统贝叶斯分类训练,主客观训练结果准确率在80%以上,通过训练得到的模型对四十万税务智能客服问答数据进行分类,分类后发现主观情感具有较高比重的连词、代词和语气词等,客观情感具有较高比重的名称,而形容词、动词等所占的比例基本一致,如表1所示:
Figure BDA0002317372040000104
Figure BDA0002317372040000111
表1主客观语料词性比重对比
弱情感语言缺少明显的情感形容词和动词,所以需要从词语位置以及主客观词性的分布来进行改进加权,位置加权函数如公式3所示:
Figure BDA0002317372040000112
其中,loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0,用
Figure BDA0002317372040000113
来限制过长的词语和过短的单词句子的影响。
词性方面根据实验获得的主客观语料词性比重对名词等词语采用降权处理,对连词代词和状态词等采用增权处理,如公式4所示:
Figure BDA0002317372040000114
其中,sub和obj代表主客观中词语n词性的比重。
优化后的TF-IDF综合加权公式如下所示:
TFIDF=(ω1p)·ωtf·ωdif
通过TF-IDF综合加权计算公式可以获得句子中每个词的词频-逆文档频率值,将分词后的句子构造成由01组成的句子向量,1代表句子中包含某个词语,0代表该句子中不包含这个位置的词语,根据词语的词性和位置对每个句子向量中的TF-IDF值进行加权修改,将句子向量中的词语用综合加权的TF-IDF值表示,构成句子向量和句子。多个句子向量构成句子矩阵。
例如,文本矩阵[[′小明,今天中国的天气非常好啊!′][′中国芯片技术落后于世界′]],经过分词生成词表为{′小明′:4,′今天′:2,′中国′:1,′天气′:3,′非常′:7,′芯片′:6,′技术落后′:5,′世界′:0,′好′:8},词向量表示后的结果是[[0 1 1 1 1 0 0 1 1][1 10 0 0 1 1 0 0]],1代表句子中包含某个词语,0代表改句子中不包含这个位置的词语。经过TF-IDF计算得到句子向量矩阵[[0.0.33517574 0.47107781 0.47107781 0.471077810.0.47107781][0.53404633 0.37997836 0.0.0.0.53404633 0.53404633 0.]],由于句子中不同位置的词语和词语词性对句子的情感影响不同,‘好’等形容词具有明显的正面情感倾向,因此通过优化后TF-IDF综合加权后的句子向量矩阵为[[0.0.23517574 0.471077810.27107781 0.57107781 0.0.67107781][0.53404633 0.37997836 0.0.0.0.534046330.53404633 0.]],可以看出经过修改后的句子矩阵中具有情感倾向的词语的权重明显加强了。
优化后的TF-IDF公式能更好的在向量空间中表示出词性的影响,同时能对弱情感语句中不同位置词语给予不同的权重,只有更能表示出用户情感的词性的单词在文档的重要位置才能获得较高的TFIDF值。可以更好的用于多标签情感分类。
在步骤102,将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器。
在步骤103,对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器。
优选地,其中所述对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的
Figure BDA0002317372040000121
并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
Figure BDA0002317372040000122
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
优选地,其中所述方法还包括:
将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
在步骤104,利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集。
优选地,其中所述根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
在步骤105,利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则返回步骤102。
基于单SVM分类器无法保证在迭代过程中保证分类准确度的问题,本发明实施方式提出一种多策略投票的半监督训练方式,在最大化训练数据的同时确保了一定的伪标签的正确性。首先,设置多个SVM训练器分别用来训练伪标签集合、专家标注集合、相似集合。然后,根据主动学习采样策略获得人工标注集合,并根据相似度和投票机制分别更新相似集合和伪标签集合。最后,通过不断迭代直到所有数据标注完毕或者准确率不再增长。
本发明实施方式的半监督多分类器投票流程如图3所示。其中,半监督的多分类器投票流程需要构造多个不同策略的分类器,用来保证自动添加的伪标签数据标签的准确性,首先构造两个空集合,伪标签数据集P和相似数据集S。开始迭代,将训练数据T与人工标注数据集合L、伪标签数据集P、相似数据集S分别组合训练出人工标注分类器,伪标签分类器以及相似分类器。然后,对采样池中的未标注数据进行抽取,对抽取的数据进行无监督的聚类,并将相似数据加入相似数据集并重新训练相似分类器。然后,根据投票策略当三个SVM分类器对未标注数据的分类结果一致时就将该数据加入到投票数据集V中,若投票结果超过分类器半数一样,就将该数据加入到伪标签数据集P中,若未达到半数则返回未标注数据集U中。然后,根据投票数据集合P和人工标注数据集L进行训练综合分类器的训练。若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器。反之,则进行下一轮的迭代,重新确定人工标注分类器,伪标签分类器以及相似分类器,直到未标注数据集标注完成或者分类准确率不再增长为止。
主动学习是为了解决机器学习中数据标注困难、数据标签不足而被提出的一种从未标记样例池中根据后验概率抽取数据并进行人工标注的启发式方法。旨在快速提高分类器的效果和减少人工标注的工作。目前主动学习根据选择样本的方式可以分为基于流的主动学习、基于池的主动学习和成员查询综合主动学习。根据采样池的策略又可以分为不确定采样、基于期望模型、基于空间模型等多种采样方式。
基于池的不确定性采样策略MS(Margin Sample Heuristic)依据多标签不确定性的最小差值选择抽样的伪标签数据,如下公式:
Figure BDA0002317372040000141
其中,y表示分类类别,P(y|x)代表x的置信标签是y。但是这种方法本质上任然忽略了绝大部分输出的剩余类别的分布情况。
本发实施方式在此基础上引入了标签聚类和文本向量空间选择两个步骤,提出了优化的不确定性抽样策略,在对采样池中的未标注数据进行抽取时,具体步骤如下:
(1)根据已训练模型计算所有未标签数据集合的后验概率{Pθ(y1,y2…yn|xj)}。
(2)依据Margin挑选标准计算所有未标注数据集的
Figure BDA0002317372040000151
并升序排序。
(3)根据预设取样个数取前n个样本,此时取出的样本数据是由TF-IDF构成的句子向量,因为句子向量中词语的位置顺序是一致的,不同的是句子在该位置是否包含该词语,所以可以用向量相似度的方式比较两个句子向量的相似性。取前n个样本并定义他们的样本标签相似度simlabel为:
Figure BDA0002317372040000152
其中,xj是n个样本中初始随机选取的核心点。设置样本相似阈值γ,通过样本标签相似度siml构造聚类簇Ck
(4)根据优化TF-IDF计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出,以重新确定相似分类器。
另外,将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
优化的主动学习方法更好的结合了原始数据与伪标签数据的信息,通过聚类的方法减少了重复数据的采样,通过相似度计算从同一类的簇中获取了最能代表簇的伪标签数据,增加分类器泛化能力的同时提高了采样能力。
在步骤106,根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
在本发明的实施方式中,综合分类器完成最终训练后,用户输入新的情感语料,逐步经过分词和TF-IDF模型转换成词向量,最后构造出句子向量,输入句子向量后经过训练好的SVM综合分类器判别后得到最终的分类结果。在小数据量下该主动学***均准确率提高3%以上。
在本发明实施方式的半监督分类器投票流程中,伪标签数据集和相似数据集可以随着人工标注的更新而不断更新,这样避免了固定添加伪标签方式导致的错误,同时通过投票机制保证一定的准确度。半监督的分类机制将人工标记的数据及其相似数据以及上一轮迭代的伪标签数据共同作为训练数据,理论上能加快训练速度,同时投票机制的引入可以在一定程度上保证半监督训练的准确率。
图4为根据本发明实施方式的基于主动学习的问答语料情感分类***400的结构示意图。如图4所示,本发明实施方式提供的基于主动学习的问答语料情感分类***400,包括:处理计算单元401、分类器训练单元402、聚类单元403、数据集更新单元404、综合分类器训练单元405和情感分类结果确定单元406。
优选地,所述处理计算单元401,用于对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据。
优选地,其中所述处理计算单元401,根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
Figure BDA0002317372040000161
Figure BDA0002317372040000162
Figure BDA0002317372040000171
Figure BDA0002317372040000172
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,
Figure BDA0002317372040000173
是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,
Figure BDA0002317372040000174
是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
优选地,所述分类器训练单元402,用于将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器。
优选地,所述聚类单元403,用于对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器。
优选地,其中所述聚类单元403,对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的
Figure BDA0002317372040000175
并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
Figure BDA0002317372040000181
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
优选地,其中所述***还包括:标注单元,用于将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
优选地,所述数据集更新单元404,用于利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集。
优选地,其中所述数据集更新单元404,根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
优选地,所述综合分类器训练单元405,用于利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则进入分类器训练单元。
优选地,所述情感分类结果确定单元406,用于根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
本发明的实施例的基于主动学习的问答语料情感分类***400与本发明的另一个实施例的基于主动学习的问答语料情感分类方法100相对应,在此不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于主动学习的问答语料情感分类方法,其特征在于,所述方法包括:
步骤1,对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
步骤2,将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
步骤3,对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
步骤4,利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
步骤5,利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则返回步骤2;
步骤6,根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
Figure FDA0002317372030000011
Figure FDA0002317372030000012
Figure FDA0002317372030000021
Figure FDA0002317372030000022
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,
Figure FDA0002317372030000023
是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,
Figure FDA0002317372030000024
是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
3.根据权利要求1所述的方法,其特征在于,所述对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的
Figure FDA0002317372030000025
并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
Figure FDA0002317372030000026
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
5.根据权利要求1所述的方法,其特征在于,所述根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
6.一种基于主动学习的问答语料情感分类***,其特征在于,所述***包括:
处理计算单元,用于对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
分类器训练单元,用于将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
聚类单元,用于对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
数据集更新单元,用于利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
综合分类器训练单元,用于利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则进入分类器训练单元;
情感分类结果确定单元,用于根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
7.根据权利要求6所述的***,其特征在于,所述处理计算单元,根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
Figure FDA0002317372030000041
Figure FDA0002317372030000042
Figure FDA0002317372030000043
Figure FDA0002317372030000044
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,
Figure FDA0002317372030000045
是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,
Figure FDA0002317372030000046
是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
8.根据权利要求6所述的***,其特征在于,所述聚类单元,对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的
Figure FDA0002317372030000047
并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
Figure FDA0002317372030000051
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
9.根据权利要求8所述的***,其特征在于,所述***还包括:
标注单元,用于将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
10.根据权利要求6所述的***,其特征在于,所述数据集更新单元,根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
CN201911283416.8A 2019-12-13 2019-12-13 一种基于主动学习的问答语料情感分类方法及*** Active CN111177374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911283416.8A CN111177374B (zh) 2019-12-13 2019-12-13 一种基于主动学习的问答语料情感分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911283416.8A CN111177374B (zh) 2019-12-13 2019-12-13 一种基于主动学习的问答语料情感分类方法及***

Publications (2)

Publication Number Publication Date
CN111177374A true CN111177374A (zh) 2020-05-19
CN111177374B CN111177374B (zh) 2024-01-19

Family

ID=70646277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911283416.8A Active CN111177374B (zh) 2019-12-13 2019-12-13 一种基于主动学习的问答语料情感分类方法及***

Country Status (1)

Country Link
CN (1) CN111177374B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813944A (zh) * 2020-09-09 2020-10-23 北京神州泰岳智能数据技术有限公司 一种直播评论分析方法、装置、电子设备及存储介质
CN112069310A (zh) * 2020-06-18 2020-12-11 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及***
CN112101184A (zh) * 2020-09-11 2020-12-18 电子科技大学 一种基于半监督学习的无线跨域动作识别方法
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN112200245A (zh) * 2020-10-10 2021-01-08 深圳市华付信息技术有限公司 一种基于半监督的图像分类方法
CN112214576A (zh) * 2020-09-10 2021-01-12 深圳价值在线信息科技股份有限公司 舆情分析方法、装置、终端设备及计算机可读存储介质
CN112329877A (zh) * 2020-11-16 2021-02-05 山西三友和智慧信息技术股份有限公司 一种基于投票机制的web服务分类方法及***
CN112396094A (zh) * 2020-11-02 2021-02-23 华中科技大学 同时用于情感分类和回归的多任务主动学习方法和***
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及***
CN112837701A (zh) * 2020-12-31 2021-05-25 西安电子科技大学 基于多分类器交互学习的语音情感识别方法
CN112883173A (zh) * 2021-02-08 2021-06-01 联想(北京)有限公司 一种文本应答方法及装置
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113407713A (zh) * 2020-10-22 2021-09-17 腾讯科技(深圳)有限公司 基于主动学习的语料挖掘方法、装置及电子设备
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN113792659A (zh) * 2021-09-15 2021-12-14 上海金仕达软件科技有限公司 文档识别方法、装置及电子设备
CN114003725A (zh) * 2021-12-30 2022-02-01 深圳佑驾创新科技有限公司 信息标注模型的构建方法以及信息标注的生成方法
CN114637848A (zh) * 2022-03-15 2022-06-17 美的集团(上海)有限公司 语义分类方法及装置
CN115617975A (zh) * 2022-12-20 2023-01-17 国家电网有限公司客户服务中心 针对少样本多轮对话的意图识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及***
US20190197105A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197105A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓楠;余本功;: "基于情感词向量和BLSTM的评论文本情感倾向分析", 计算机应用研究, no. 12 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN112069310A (zh) * 2020-06-18 2020-12-11 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及***
CN112069310B (zh) * 2020-06-18 2023-05-02 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及***
CN111813944A (zh) * 2020-09-09 2020-10-23 北京神州泰岳智能数据技术有限公司 一种直播评论分析方法、装置、电子设备及存储介质
CN112214576B (zh) * 2020-09-10 2024-02-06 深圳价值在线信息科技股份有限公司 舆情分析方法、装置、终端设备及计算机可读存储介质
CN112214576A (zh) * 2020-09-10 2021-01-12 深圳价值在线信息科技股份有限公司 舆情分析方法、装置、终端设备及计算机可读存储介质
CN112101184B (zh) * 2020-09-11 2022-03-15 电子科技大学 一种基于半监督学习的无线跨域动作识别方法
CN112101184A (zh) * 2020-09-11 2020-12-18 电子科技大学 一种基于半监督学习的无线跨域动作识别方法
CN112200245A (zh) * 2020-10-10 2021-01-08 深圳市华付信息技术有限公司 一种基于半监督的图像分类方法
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN113407713B (zh) * 2020-10-22 2024-04-05 腾讯科技(深圳)有限公司 基于主动学习的语料挖掘方法、装置及电子设备
CN113407713A (zh) * 2020-10-22 2021-09-17 腾讯科技(深圳)有限公司 基于主动学习的语料挖掘方法、装置及电子设备
CN112396094A (zh) * 2020-11-02 2021-02-23 华中科技大学 同时用于情感分类和回归的多任务主动学习方法和***
CN112396094B (zh) * 2020-11-02 2022-05-20 华中科技大学 同时用于情感分类和回归的多任务主动学习方法和***
CN112329877A (zh) * 2020-11-16 2021-02-05 山西三友和智慧信息技术股份有限公司 一种基于投票机制的web服务分类方法及***
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及***
CN112837701B (zh) * 2020-12-31 2022-12-27 西安电子科技大学 基于多分类器交互学习的语音情感识别方法
CN112837701A (zh) * 2020-12-31 2021-05-25 西安电子科技大学 基于多分类器交互学习的语音情感识别方法
CN112883173A (zh) * 2021-02-08 2021-06-01 联想(北京)有限公司 一种文本应答方法及装置
CN112883173B (zh) * 2021-02-08 2024-06-18 联想(北京)有限公司 一种文本应答方法及装置
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113792659A (zh) * 2021-09-15 2021-12-14 上海金仕达软件科技有限公司 文档识别方法、装置及电子设备
CN113792659B (zh) * 2021-09-15 2024-04-05 上海金仕达软件科技股份有限公司 文档识别方法、装置及电子设备
CN114003725A (zh) * 2021-12-30 2022-02-01 深圳佑驾创新科技有限公司 信息标注模型的构建方法以及信息标注的生成方法
CN114637848A (zh) * 2022-03-15 2022-06-17 美的集团(上海)有限公司 语义分类方法及装置
CN115617975A (zh) * 2022-12-20 2023-01-17 国家电网有限公司客户服务中心 针对少样本多轮对话的意图识别方法及装置

Also Published As

Publication number Publication date
CN111177374B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN111177374B (zh) 一种基于主动学习的问答语料情感分类方法及***
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN104217226B (zh) 基于深度神经网络与条件随机场的对话行为识别方法
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN107608999A (zh) 一种适用于自动问答***的问句分类方法
Seroussi et al. Collaborative inference of sentiments from texts
CN109086269B (zh) 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN108763539B (zh) 一种基于词性分类的文本分类方法和***
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN111859961B (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
Alwan et al. Political Arabic articles orientation using rough set theory with sentiment lexicon
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115935998A (zh) 多特征金融领域命名实体识别方法
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
Vetagiri et al. Leveraging GPT-2 for Automated Classification of Online Sexist Content.
Sergienko et al. A comparative study of text preprocessing approaches for topic detection of user utterances
Siddique et al. Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
Chen et al. Learning the chinese sentence representation with LSTM autoencoder
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN115600595A (zh) 一种实体关系抽取方法、***、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant