CN111460224A - 评论数据的质量标注方法、装置、设备及存储介质 - Google Patents

评论数据的质量标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111460224A
CN111460224A CN202010229510.1A CN202010229510A CN111460224A CN 111460224 A CN111460224 A CN 111460224A CN 202010229510 A CN202010229510 A CN 202010229510A CN 111460224 A CN111460224 A CN 111460224A
Authority
CN
China
Prior art keywords
comment
comment data
quality
marked
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010229510.1A
Other languages
English (en)
Other versions
CN111460224B (zh
Inventor
陈颖
郭酉晨
仇贲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN202010229510.1A priority Critical patent/CN111460224B/zh
Publication of CN111460224A publication Critical patent/CN111460224A/zh
Application granted granted Critical
Publication of CN111460224B publication Critical patent/CN111460224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种评论数据的质量标注方法、装置、设备及存储介质。该方法包括:获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注。本发明实施例的技术方案,利用已标注评论数据对待标注评论数据进行评论质量预测,为待标注评论数据标注准确的评论质量。

Description

评论数据的质量标注方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种评论数据的质量标注方法、装置、设备及存储介质。
背景技术
随着网络技术的发展,出现了各种视频发布平台或者直播平台,用户可以通过在视频下方评论或者直接发送弹幕的方式,对一个视频内容或者直播内容发表评论。
发明人在实现本发明的过程中,发现:如何在众多的评论数据中找到真正有价值的高质量评论,对视频内容或者直播内容的归类或者推荐具有重要作用,因此,对未标注的评论数据进行评论质量的标注成为亟待解决的问题。
发明内容
本发明实施例提供一种评论数据的质量标注方法、装置、设备及存储介质,利用已标注评论数据对待标注评论数据进行评论质量预测,实现了为待标注评论数据标注准确的评论质量。
第一方面,本发明实施例提供了一种评论数据的质量标注方法,包括:
获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;
其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;
根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注。
可选的,计算已标注评论数据集合中各已标注评论数据的标准句子特征向量,包括:
将各已标注评论数据分别输入至预训练的BERT模型中,并获取BERT模型输出的各已标注评论数据的标准句子特征向量;
其中,BERT模型中包括:掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型;掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型各自的损失函数,共同构成BERT模型的损失函数。
可选的,在计算已标注评论数据集合中各已标注评论数据的标准句子特征向量之前,还包括:
根据已标注评论数据集合,构建与掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型的预测任务分别对应的训练样本;
将训练样本分别输入至初始的BERT模型中,得到预训练的BERT模型。
可选的,在BERT模型中,关键词质量预测模型与掩盖语言预测模型共享BERT模型中Transformer结构输出的特征向量。
可选的,掩盖语言预测模型的损失函数的确定参数包括:被掩盖词在掩盖语言预测模型中的损失值,以及被掩盖词的质量权重值。
可选的,通过下述公式确定掩盖语言预测模型的损失函数lossmlm
Figure BDA0002428834630000021
Figure BDA0002428834630000022
其中,wT_M为输入评论数据中被掩盖词wM经过BERT模型中Transformer结构特征提取后输出的特征向量;
Figure BDA0002428834630000031
是输入评论数据中第i个被掩盖词在掩盖语言预测模型中的损失值;
Figure BDA0002428834630000032
为被掩盖词的质量权重值;D为根据已标注评论数据集合中所标注的高质量评论数据确定的高质量关键词词典,r>1。
可选的,获取预先标注有评论质量的已标注评论数据集合,包括:
从设定视频播放平台中,获取与至少一个视频分别对应的视频评论数据;
根据视频评论数据的评论属性,在各视频评论数据中,分别获取与各视频分别对应的标注正样本以及标注负样本;
根据各标注正样本以及各标注负样本,构造已标注评论数据集合。
可选的,根据视频评论数据的评论属性,在各视频评论数据中,获取与视频对应的标注正样本以及标注负样本,包括:
分别获取与当前处理的目标视频对应的各目标视频评论数据的评论属性,评论属性包括:评论用户等级、评论回复数以及评论点赞数;
根据评论属性,计算与各目标视频评论数据分别对应的评论属性权重值,其中,评论属性权重与各项评论属性正相关;
按照评论属性权重值从大到小的顺序,对各目标视频评论数据进行排序,并根据排序结果,获取第一比例的评论数据作为标注正样本;
在评论点赞数为0的目标视频评论数据中,获取第二比例的评论数据作为标注负样本。
可选的,根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注,包括:
将比对句子特征向量输入至预先训练的评论质量标注模型中,获取评论质量标注模型输出的待标注评论数据的评论质量的标注结果;
其中,评论质量标注模型使用各标准句子特征向量训练得到。
第二方面,本发明实施例还提供了一种评论数据的质量标注装置,包括:
特征向量计算模块,用于获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;
其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;
评论质量标注模块,用于根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注。
第三方面,本发明实施例还提供了一种设备,设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明任意实施例提供的评论数据的质量标注方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的评论数据的质量标注方法。
本发明实施例通过获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注,解决了现有技术中无法有效对未标注评论数据进行评论质量标注的问题,利用已标注评论数据对待标注评论数据进行评论质量预测,实现了为待标注评论数据标注准确的评论质量。
附图说明
图1a是本发明实施例一中的一种评论数据的质量标注方法的流程图;
图1b是本发明实施例一中的一种评论数据的质量标注过程的流程图
图2a是本发明实施例二中的一种评论数据的质量标注方法的流程图;
图2b是本发明实施例二中的一种改进后的BERT模型的结构示意图;
图3是本发明实施例三中的一种评论数据的质量标注装置的结构示意图;
图4是本发明实施例四中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1a是本发明实施例一中的一种评论数据的质量标注方法的流程图,本实施例可适用于为未标注评论数据进行评论质量的标注的情况,该方法可以由评论数据的质量标注装置来执行,该装置可以由硬件和/或软件来实现,并一般可以集成在提供质量标注服务的设备中。如图1a所示,该方法包括:
步骤110、获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量。
本实施例中,已标注评论数据用于训练语言模型计算评论数据的句子特征向量,其中,已标注评论数据对应标准句子特征向量,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征,待标注评论数据对应比对句子特征向量,比对句子特征向量中也包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征。
可选的,获取预先标注有评论质量的已标注评论数据集合,可以包括:从设定视频播放平台中,获取与至少一个视频分别对应的视频评论数据;根据视频评论数据的评论属性,在各视频评论数据中,分别获取与各视频分别对应的标注正样本以及标注负样本;根据各标注正样本以及各标注负样本,构造已标注评论数据集合。
本实施例中,为了能够获取高质量的已标注评论数据,使得训练后的语言模型计算出的评论数据的句子特征向量更加准确,预先从设定的具有丰富视频且高质量评论很多的视频播放平台中,获取与至少一个视频分别对应的视频评论数据,然后根据评论回复数等视频评论数据的评论属性,从各视频评论数据中,分别获取与当前视频对应的高质量评论数据作为标注正样本,以及获取与当前视频对应的低质量评论数据作为标注负样本,最后将各视频对应的标注正样本和标注负样本组成为已标注评论数据集合。
可选的,计算已标注评论数据集合中各已标注评论数据的标准句子特征向量,可以包括:将各已标注评论数据分别输入至预训练的BERT模型中,并获取BERT模型输出的各已标注评论数据的标准句子特征向量;其中,BERT模型中包括:掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型;掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型各自的损失函数,共同构成BERT模型的损失函数。
本实施例中,在从其他视频播放平台获取到已标注评论数据集合之后,为了能够在保证模型效果的情况下将其他视频播放平台的评论数据应用到本视频播放平台,适用于本视频播放平台的特定业务,在BERT模型原有预测任务的基础上,增加了关键词质量预测任务,在预测被掩盖的词的语义的同时,根据上下文信息预测被掩盖的词的质量高低,使得BERT模型中包括:掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型,相应的,BERT模型的损失函数也由掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型各自的损失函数共同构成。另一方面,为了在预测高质量关键词时掩盖语言预测模型能够更加敏感,根据预测的被掩盖的词是否是高质量关键词,对掩盖语言预测模型进行改进。
其中,掩盖语言预测模型,用于对于随机掩盖掉部分输入词的词序列,根据上下文信息预测该词序列中被掩盖的词分别是什么,与句内上下文关系特征相对应;下一语句预测模型,用于对于输入的一对词序列,判断后一个词序列是否是前一个词序列的下一句,与句间关系特征相对应;关键词质量预测模型,用于根据上下文信息预测被掩盖词的质量高低,与句内关键词质量特征相对应。
本实施例中,如图1b所示,通过将已标注评论数据集合中的已标注评论数据分别输入至改进后的BERT模型中,对改进后的BERT模型进行预训练,并根据预训练后的BERT模型计算各已标注评论数据的标准句子特征向量,以及,根据预训练后的BERT模型计算输入至模型中的各待标注评论数据的比对句子特征向量,为后续对待标注评论数据进行评论质量预测做准备。
可选的,在计算已标注评论数据集合中各已标注评论数据的标准句子特征向量之前,还可以包括:根据已标注评论数据集合,构建与掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型的预测任务对应的训练样本;将训练样本分别输入至初始的BERT模型中,得到预训练的BERT模型。
本实施例中,为了使已标注评论数据对应的标准句子特征向量能考虑到文本质量信息,并可以应用于文本质量评估领域,在已标注评论数据集合中各已标注评论数据的标准句子特征向量之前,需要先对改进后的BERT模型进行预训练,通过逐渐调整BERT模型参数,最小化BERT模型的损失函数,即最小化“预测被掩盖词”的损失、“预测是否为下一句”的损失以及“预测被掩盖的词的质量高低”的损失之和,使得预训练的BERT能够计算出准确度更改的标准句子特征向量。
本实施例中,初始的BERT模型指的是改进后的BERT模型,为了使得收集的已标注评论数据能够符合初始的BERT模型的输入格式,需要先对已标注评论数据集合中的数据进行相应处理,得到与掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型的预测任务对应的训练样本,然后将训练样本分别输入至初始的BERT模型中对初始的BERT模型进行训练,即可得到预训练的BERT模型。
步骤120、根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注。
可选的,根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注,可以包括:将比对句子特征向量输入至预先训练的评论质量标注模型中,获取评论质量标注模型输出的待标注评论数据的评论质量的标注结果;其中,评论质量标注模型使用各标准句子特征向量训练得到。
本实施例中,如图1b所示,为了能够给待标注评论数据进行评论质量的预测和标注,在得到已标注评论数据的标准句子特征向量之后,根据各标准句子特征向量对机器学习模型进行训练,得到评论质量标注模型。通过将待标注评论数据的比对句子特征向量输入至预先训练的评论质量标注模型中,得到评论质量标注模型输出的待标注评论数据的评论质量的标注结果,从而确定各待标注评论数据的评论质量高低。
本实施例中,在对待标注评论数据进行评论质量的标注之后,可以从视频已有的评论数据中筛选出高质量评论并置顶,还可以基于筛选出的高质量评论采用深度学习生成另一批高质量评论,丰富视频评论区,提高用户参与视频讨论的兴趣,提高视频的社区性。
本发明实施例通过获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注,解决了现有技术中无法对未标注评论数据进行评论质量标注的问题,利用已标注评论数据对待标注评论数据进行评论质量预测,实现了为待标注评论数据标注准确的评论质量。
实施例二
图2a是本发明实施例二中的一种评论数据的质量标注方法的流程图。本实施例可以与上述实施例中各个可选方案结合。具体的,参考图2a,该方法可以包括如下步骤:
步骤210、获取预先标注有评论质量的已标注评论数据集合。
本实施例中,获取预先标注有评论质量的已标注评论数据集合,可以包括:从设定视频播放平台中,获取与至少一个视频分别对应的视频评论数据;根据视频评论数据的评论属性,在各视频评论数据中,分别获取与各视频分别对应的标注正样本以及标注负样本;根据各标注正样本以及各标注负样本,构造已标注评论数据集合。
可选的,根据视频评论数据的评论属性,在各视频评论数据中,获取与视频对应的标注正样本以及标注负样本,可以包括:分别获取与当前处理的目标视频对应的各目标视频评论数据的评论属性,评论属性包括:评论用户等级、评论回复数以及评论点赞数;根据评论属性,计算与各目标视频评论数据分别对应的评论属性权重值,其中,评论属性权重与各项评论属性正相关;按照评论属性权重值从大到小的顺序,对各目标视频评论数据进行排序,并根据排序结果,获取第一比例的评论数据作为标注正样本;在评论点赞数为0的目标视频评论数据中,获取第二比例的评论数据作为标注负样本。
本实施例中,为了从获取的众多视频评论数据中挑选出评论质量较高的正标注样本以及评论质量较低的负标注样本,可以分别获取与当前处理的目标视频对应的各目标视频评论数据的评论用户等级、评论回复数以及评论点赞数,然后根据各项评论属性取值与评论属性权重值之间的映射关系,计算各目标视频评论数据对应的评论属性权重值。例如,评论用户等级为3,评论回复数属于(500,1000)范围,评论点赞数属于(10000,15000)范围,则对应的评论属性权重值为0.65;评论用户等级为2,评论回复数属于(500,1000)范围,评论点赞数属于(1000,5000)范围,则对应的评论属性权重值为0.3。然后按照评论属性权重值从大到小的顺序,对各目标视频评论数据进行排序,并从排序结果中选择前10%的目标视频评论数据作为标注正样本,并从评论点赞数为0的目标视频评论数据中,按照选择排序后10%的目标视频评论数据作为标注负样本。
其中,第一比例和第二比例的取值都是可调的,可以根据需求将第一比例和/或第二比例设置为5%、15%或者其他数值。
本实施例中,获取到评论质量较高的视频评论数据后,可以对每条高质量评论数据进行分词,并将每条评论数据作为一份文档,采用textrank提取各文档中的高质量关键词,组成高质量关键词词典,以用于后续判断一个关键词是否是高质量单词。
步骤220、将各已标注评论数据分别输入至预训练的BERT模型中,并获取BERT模型输出的各已标注评论数据的标准句子特征向量。
其中,BERT模型中包括:掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型;掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型各自的损失函数,共同构成BERT模型的损失函数,如图2b所示。
可选的,在BERT模型中,关键词质量预测模型与掩盖语言预测模型共享BERT模型中Transformer结构输出的特征向量。
本实施例中,如图2b所示,为了让BERT模型考虑文本质量因素,将关键词质量预测任务加入到BERT模型中,以在预测被掩盖词的语义的同时,根据上下文信息预测被掩盖词的质量高低。关键词质量预测任务在Transformer中与掩盖语言预测任务共享参数,用Transformer结构输出的掩盖语言预测模型的特征向量,预测被掩盖词的质量高低,并将交叉熵作为关键词质量预测模型的损失加入到BERT的损失函数中,实现考虑关键词质量的BERT模型。
其中,图2b中,BERT模型的输入文本的开始有一个CLS符号,CLS符号对应的Transformer结构输出为整个输入文本的语义表示,可以用于文本分类任务;输入文本中的任意两句话之间有一个SEP符号,用于区分输入文本中的不同语句,可以用于句子预测任务;Transformer结构中包括多个Transformer子结构Trm,用于为每一个输入的词生成一个向量;Task special layer用于根据Transformer结构输出的预测模型的特征向量,计算得到该预测模型对应的预测结果,例如,Task special layer根据Transformer结构输出的下一语句预测模型的特征向量A,计算出下一语句预测模型输出的预测结果为“后一个词序列是前一个词序列的下一句”。
可选的,掩盖语言预测模型的损失函数的确定参数包括:被掩盖词在掩盖语言预测模型中的损失值,以及被掩盖词的质量权重值。
本实施例中,由于高质量关键词在语料库中出现的频率较低,当被掩盖词为高质量关键词时,BERT模型预测失败的概率会很高,影响高质量文本特征的提取,最终影响BERT模型的参数调整结果,因此,为了使BERT模型在预测高质量关键词时更加敏感,在计算BERT模型损失时,需要将被掩盖词为高质量关键词词典中的高质量关键词时对应的质量权重进行加大,即在掩盖语言预测模型的损失函数中,既要包括被掩盖词在掩盖语言预测模型中的损失值,又要包括被掩盖词的质量权重值。
可选的,可以通过下述公式确定掩盖语言预测模型的损失函数lossmlm
Figure BDA0002428834630000131
Figure BDA0002428834630000132
其中,wT_M为输入评论数据中被掩盖词wM经过BERT模型中Transformer结构特征提取后输出的特征向量;
Figure BDA0002428834630000133
是输入评论数据中第i个被掩盖词在掩盖语言预测模型中的损失值;
Figure BDA0002428834630000134
为被掩盖词的质量权重值;D为根据已标注评论数据集合中所标注的高质量评论数据确定的高质量关键词词典,r>1。
本实施例中,如上式所示,为了使BERT模型预测高质量关键词时更加敏感,掩盖语言预测模型的损失函数中增加了参数被掩盖词的质量权重值,在对被掩盖词进行预测后,将预测结果与高质量关键词词典进行比对,如果确定被掩盖词是高质量关键词,则将被掩盖词的质量权重值调整为r,如果确定被掩盖词不是高质量关键词,则将被掩盖词的质量权重值调整为1,实现了高质量关键词具有更大的质量权重值。其中,高质量关键词的权重调整r的取值可以通过BERT模型超参数搜索得到最佳值。
本实施例中,如图2b所示,改进后的BERT模型包含了3个预测任务,掩盖语言预测、改进的下一语句预测和关键词质量预测。对BERT模型进行改进之后,如图1b所示,使用已标注评论数据对改进的BERT模型进行预训练,利用预训练后的BERT模型产生已标注评论数据和待标注评论数据的句子向量特征,并基于机器学习模型对已标注评论数据集进行训练和验证,得到训练好的评论质量标注模型,以用于对待标注评论数据进行评论质量的预测和标注。
步骤230、根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注。
本发明实施例通过获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注,解决了现有技术中无法对未标注评论数据进行评论质量标注的问题,利用已标注评论数据对待标注评论数据进行评论质量预测,实现了为待标注评论数据标注准确的评论质量。
实施例三
图3是本发明实施例三中的一种评论数据的质量标注装置的结构示意图,本实施例可适用于为未标注评论数据进行评论质量的标注的情况。如图3所示,该评论数据的质量标注装置包括:
特征向量计算模块310,用于获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;
其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;
评论质量标注模块320,用于根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注。
本发明实施例通过获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注,解决了现有技术中无法对未标注评论数据进行评论质量标注的问题,利用已标注评论数据对待标注评论数据进行评论质量预测,实现了为待标注评论数据标注准确的评论质量。
可选的,特征向量计算模块310,具体用于:将各已标注评论数据分别输入至预训练的BERT模型中,并获取BERT模型输出的各已标注评论数据的标准句子特征向量;
其中,BERT模型中包括:掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型;掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型各自的损失函数,共同构成BERT模型的损失函数。
可选的,特征向量计算模块310,还包括:预训练模块,用于在计算已标注评论数据集合中各已标注评论数据的标准句子特征向量之前,根据已标注评论数据集合,构建与掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型的预测任务对应的训练样本;将训练样本分别输入至初始的BERT模型中,得到预训练的BERT模型。
可选的,在BERT模型中,关键词质量预测模型与掩盖语言预测模型共享BERT模型中Transformer结构输出的特征向量。
可选的,掩盖语言预测模型的损失函数的确定参数包括:被掩盖词在掩盖语言预测模型中的损失值,以及被掩盖词的质量权重值。
可选的,特征向量计算模块310,具体用于:通过下述公式确定掩盖语言预测模型的损失函数lossmlm
Figure BDA0002428834630000161
Figure BDA0002428834630000162
其中,wT_M为输入评论数据中被掩盖词wM经过BERT模型中Transformer结构特征提取后输出的特征向量;
Figure BDA0002428834630000163
是输入评论数据中第i个被掩盖词在掩盖语言预测模型中的损失值;
Figure BDA0002428834630000164
为被掩盖词的质量权重值;D为根据已标注评论数据集合中所标注的高质量评论数据确定的高质量关键词词典,r>1。
可选的,特征向量计算模块310,具体用于:从设定视频播放平台中,获取与至少一个视频分别对应的视频评论数据;根据视频评论数据的评论属性,在各视频评论数据中,分别获取与各视频分别对应的标注正样本以及标注负样本;根据各标注正样本以及各标注负样本,构造已标注评论数据集合。
可选的,特征向量计算模块310,具体用于:分别获取与当前处理的目标视频对应的各目标视频评论数据的评论属性,评论属性包括:评论用户等级、评论回复数以及评论点赞数;根据评论属性,计算与各目标视频评论数据分别对应的评论属性权重值,其中,评论属性权重与各项评论属性正相关;按照评论属性权重值从大到小的顺序,对各目标视频评论数据进行排序,并根据排序结果,获取第一比例的评论数据作为标注正样本;在评论点赞数为0的目标视频评论数据中,获取第二比例的评论数据作为标注负样本。
可选的,评论质量标注模块320,具体用于:将比对句子特征向量输入至预先训练的评论质量标注模型中,获取评论质量标注模型输出的待标注评论数据的评论质量的标注结果;其中,评论质量标注模型使用各标准句子特征向量训练得到。
本发明实施例所提供的评论数据的质量标注装置可执行本发明任意实施例所提供的评论数据的质量标注方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四中的一种设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备12的框图。图4显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的评论数据的质量标注方法,包括:
获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;
其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;
根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注。
实施例五
本发明实施例五还公开了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现一种评论数据的质量标注方法,包括:
获取预先标注有评论质量的已标注评论数据集合,并计算已标注评论数据集合中各已标注评论数据的标准句子特征向量;
其中,标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;
根据各标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对待标注评论数据进行评论质量的标注。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)域连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种评论数据的质量标注方法,其特征在于,包括:
获取预先标注有评论质量的已标注评论数据集合,并计算所述已标注评论数据集合中各已标注评论数据的标准句子特征向量;
其中,所述标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;
根据各所述标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对所述待标注评论数据进行评论质量的标注。
2.根据权利要求1所述的方法,其特征在于,计算所述已标注评论数据集合中各已标注评论数据的标准句子特征向量,包括:
将各所述已标注评论数据分别输入至预训练的BERT模型中,并获取所述BERT模型输出的各已标注评论数据的标准句子特征向量;
其中,所述BERT模型中包括:掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型;所述掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型各自的损失函数,共同构成所述BERT模型的损失函数。
3.根据权利要求2所述的方法,其特征在于,在计算所述已标注评论数据集合中各已标注评论数据的标准句子特征向量之前,还包括:
根据所述已标注评论数据集合,构建与所述掩盖语言预测模型、下一语句预测模型以及关键词质量预测模型的预测任务对应的训练样本;
将所述训练样本分别输入至初始的BERT模型中,得到所述预训练的BERT模型。
4.根据权利要求2所述的方法,其特征在于,在所述BERT模型中,所述关键词质量预测模型与所述掩盖语言预测模型共享所述BERT模型中Transformer结构输出的特征向量。
5.根据权利要求2所述的方法,其特征在于,所述掩盖语言预测模型的损失函数的确定参数包括:被掩盖词在掩盖语言预测模型中的损失值,以及所述被掩盖词的质量权重值。
6.根据权利要求5所述的方法,其特征在于,通过下述公式确定所述掩盖语言预测模型的损失函数lossmlm
Figure FDA0002428834620000021
Figure FDA0002428834620000022
其中,wT_M为输入评论数据中被掩盖词wM经过所述BERT模型中Transformer结构特征提取后输出的特征向量;
Figure FDA0002428834620000023
是输入评论数据中第i个被掩盖词在掩盖语言预测模型中的损失值;
Figure FDA0002428834620000024
为被掩盖词的质量权重值;D为根据已标注评论数据集合中所标注的高质量评论数据确定的高质量关键词词典,r>1。
7.根据权利要求1所述的方法,其特征在于,获取预先标注有评论质量的已标注评论数据集合,包括:
从设定视频播放平台中,获取与至少一个视频分别对应的视频评论数据;
根据视频评论数据的评论属性,在各所述视频评论数据中,分别获取与各所述视频分别对应的标注正样本以及标注负样本;
根据各所述标注正样本以及各所述标注负样本,构造所述已标注评论数据集合。
8.根据权利要求7所述的方法,其特征在于,根据视频评论数据的评论属性,在各所述视频评论数据中,获取与所述视频对应的标注正样本以及标注负样本,包括:
分别获取与当前处理的目标视频对应的各目标视频评论数据的评论属性,所述评论属性包括:评论用户等级、评论回复数以及评论点赞数;
根据所述评论属性,计算与各所述目标视频评论数据分别对应的评论属性权重值,其中,所述评论属性权重与各项评论属性正相关;
按照所述评论属性权重值从大到小的顺序,对各所述目标视频评论数据进行排序,并根据排序结果,获取第一比例的评论数据作为所述标注正样本;
在评论点赞数为0的目标视频评论数据中,获取第二比例的评论数据作为所述标注负样本。
9.根据权利要求1-8任一项所述的方法,其特征在于,根据各所述标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对所述待标注评论数据进行评论质量的标注,包括:
将所述比对句子特征向量输入至预先训练的评论质量标注模型中,获取所述评论质量标注模型输出的所述待标注评论数据的评论质量的标注结果;
其中,所述评论质量标注模型使用各所述标准句子特征向量训练得到。
10.一种评论数据的质量标注装置,其特征在于,包括:
特征向量计算模块,用于获取预先标注有评论质量的已标注评论数据集合,并计算所述已标注评论数据集合中各已标注评论数据的标准句子特征向量;
其中,所述标准句子特征向量中包括:句内上下文关系特征、句间关系特征以及句内关键词质量特征;
评论质量标注模块,用于根据各所述标准句子特征向量,以及与待标注评论数据对应的比对句子特征向量,对所述待标注评论数据进行评论质量的标注。
11.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的评论数据的质量标注方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的评论数据的质量标注方法。
CN202010229510.1A 2020-03-27 2020-03-27 评论数据的质量标注方法、装置、设备及存储介质 Active CN111460224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010229510.1A CN111460224B (zh) 2020-03-27 2020-03-27 评论数据的质量标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010229510.1A CN111460224B (zh) 2020-03-27 2020-03-27 评论数据的质量标注方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111460224A true CN111460224A (zh) 2020-07-28
CN111460224B CN111460224B (zh) 2024-03-08

Family

ID=71679793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010229510.1A Active CN111460224B (zh) 2020-03-27 2020-03-27 评论数据的质量标注方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111460224B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113822045A (zh) * 2021-09-29 2021-12-21 深圳市易平方网络科技有限公司 一种基于多模态数据的影评质量的识别方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及***
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
US20180357508A1 (en) * 2017-06-07 2018-12-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating a competition commentary based on artificial intelligence, and storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及***
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
US20180357508A1 (en) * 2017-06-07 2018-12-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating a competition commentary based on artificial intelligence, and storage medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN112966509B (zh) * 2021-04-16 2023-04-07 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113822045A (zh) * 2021-09-29 2021-12-21 深圳市易平方网络科技有限公司 一种基于多模态数据的影评质量的识别方法及相关装置
CN113822045B (zh) * 2021-09-29 2023-11-17 重庆市易平方科技有限公司 一种基于多模态数据的影评质量的识别方法及相关装置

Also Published As

Publication number Publication date
CN111460224B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN110287278B (zh) 评论生成方法、装置、服务器及存储介质
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN110941951A (zh) 文本相似度计算方法、装置、介质及电子设备
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN111597800A (zh) 同义句的获取方法及装置、设备及存储介质
CN110909768B (zh) 一种标注数据获取方法及装置
CN112084779A (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
CN113762459A (zh) 一种模型训练方法、文本生成方法、装置、介质及设备
CN113919360A (zh) 语义理解方法、语音交互方法、装置、设备及存储介质
CN112926334A (zh) 确定词表示向量的方法、装置及电子设备
CN116306690A (zh) 机器翻译质量评估方法、装置、设备及存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant