CN109408808A - 一种文艺作品的评估方法及评估*** - Google Patents

一种文艺作品的评估方法及评估*** Download PDF

Info

Publication number
CN109408808A
CN109408808A CN201811064005.5A CN201811064005A CN109408808A CN 109408808 A CN109408808 A CN 109408808A CN 201811064005 A CN201811064005 A CN 201811064005A CN 109408808 A CN109408808 A CN 109408808A
Authority
CN
China
Prior art keywords
word
chain
artistic works
node
collected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811064005.5A
Other languages
English (en)
Other versions
CN109408808B (zh
Inventor
刘杉
周钰欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201811064005.5A priority Critical patent/CN109408808B/zh
Publication of CN109408808A publication Critical patent/CN109408808A/zh
Application granted granted Critical
Publication of CN109408808B publication Critical patent/CN109408808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文艺作品的传播效果的评估方法及评估***,所述评估方法包括:S2:收集文艺作品;S4:预处理所述收集到的文艺作品,并得到预处理数据;S6:语言处理所述预处理数据,并得到语言处理数据;S8:收集评论信息,将所述评论信息与所述语言处理数据关联,并得出关联数据;S10:根据所述关联数据判断所述收集到的文艺作品的传播效果。本申请所提供的文艺作品的传播效果的评估方法及***能够在读者和专家选择、自创文本标签的基础上,生成关于一部网络文艺作品读者关注点、专家关注点的***报告,并对网络文学创作起到一定的引导作用。

Description

一种文艺作品的评估方法及评估***
技术领域
本申请涉及信息处理领域,特别是一种文艺作品的评估方法及评估***。
背景技术
现阶段,对网络文学的评估报告只集中对于IP价值、版权价值等商业化价值作出评估,专业学术期刊的研究重点则集中于网络文学的内容特点、产业发展趋势,与普通读者脱节。总而言之,现阶段缺乏直接针对大众的网络文艺作品传播效果评估***。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓解上述问题。
根据本申请的一个方面,提供了一种文艺作品的传播效果的评估方法,包括如下步骤:S2:收集文艺作品;S4:预处理所述收集到的文艺作品,并得到预处理数据;S6:语言处理所述预处理数据,并得到语言处理数据;S8:收集评论信息,将所述评论信息与所述语言处理数据关联,并得出关联数据;S10:根据所述关联数据判断所述收集到的文艺作品的传播效果。
可选地,所述步骤S4包括:S41:使用ICTCLAS分词***,对所述收集到的文艺作品进行分词,标注词性,保留名词、动词、形容词、副词、连词,并将这些词按原来顺序形成文章顺序序列,将所述文章顺序序列加入至预处理数据库,同时将小说语料库加入至所述预处理数据库中;S42:识别原创名词。
可选地,所述步骤S42包括:S421:将百家姓录入词库,并且将地名常出现的后缀录入地名词库;S422:保留未登录名词。
可选地,所述步骤S6包括:S61:对所述文章顺序序列进行遍历,依次抽取出n个相邻最近的人名—动词—物名—动词—动词对象,直到下一句话的主语是另一个人名或物名,则结束概该链,记为Tn。若一个人物动作的对象是另一个人,则将该链记为两条主链接之间的关联链;S62:提取主要人物所在的情节链,记该章节的长度为T,将所含人名相同的主链Tn相加,得道链S1、S2、S3…,求出它们的平均长度并选取出长度超过的Sn;S63:记一个链节的特征值为{名词1,动词,名词2}或{名词21,被+动词,名词1},若Tn和Tt,链节的名词1与名词2相同,则将Tn、Tt归于新开辟的节点中,记为Cn,其中n、t为任选的两个值,统计形容词副词总数N,记录一个节点包括的括的形容词、副词总数Cn(x),记录一条链接的形容丰富度;F(n)=Cn(x)/N,记一个节点所包含的链节所在句子长度为L(n),记一个段落里的总链结数为P,记一个节点的权重W=F(n)+L(n)+1/P,a、b为常数,若节点中含有与该章节重复的词,则权重公式中加上a,若节点中含有转折词库中的词,则权重公式中加上b;S64:根据上述计算结果,选取前TOTAL1/500个节点加入到情节网中;S65:确定节点的位置,将预处理数据的叙述顺序用同心圆表示,以该章节原来的文字线性顺序为参照,越是在之前被叙述的节点,越接近圆心,越是在之后被叙述的节点,越是在外圆上,同心圆的个数为n,将该章节的总字数记为TOTAL2,n=[TOTAL2/500]+1;记节点Cn中,按原章节线性文字顺序,最靠前的情节链为Tf,则Tf第一个字节前所有的字数记为Q,Cn所在环数R=[Q/500]+1;S66:在两个节点之间若有关联链,则在情节网图中用关联链将他们联系起来;S67:通过双引号或者“说”+冒号来识别所述预处理数据中人物的语言,若其长度不超过阈值t,则可认为是简单的日常对话语言,对对话内容进行分词和遍历,与对话出现的上一链节和下一链节分词进行对比,记重名词重复的个数分别为G和L,若G>L,则将该对话内容折叠到上一链节,若G<L,则将对话折叠到下一链节,若L=G!=0,则将该对话作为连接链结,若G=L=0,则将该对话折叠到F(n)+L(n)值较小的链节中。
可选地,所述步骤S8包括:S81:收集评论信息;S82:对所述收集到的评论信息进行分词处理,并得到评论内容;S83:使用词频统计***将关键词和评论内容进行匹配统计;S84:使用SPSS对关键词词频与小说热度进行相关性分析;S85:分析用户的普遍行为特征。
可选地,所述步骤S82为:对所述收集到的评论信息进行中文分词,清洗数据,去掉噪声字符;所述步骤S83为:对评论逐条进行关键词词频统计,将结果导入到EXCEL表格中,按照关键词的词频划分三个等级,分别为低频区,中频区,高频区。采用SATI软件工具对统计信息进行分析处理,对高频词构建共词矩阵;所述步骤S84为:采用SPSS工具,对数据样本进行相关性分析,采用***聚类法,对关键词共词矩阵进行类聚分析;所述步骤S85为:按显著正相关、正相关、负相关、显著负相关对关键词进行分类,并对其进行词性及含义分析,采用SVM分类器对关键词进行文本分类,将分类后的结果导出到EXCEL表格中,将关键词的文本分类,以及相应的相关性结果,对应的词频数列在表格中,根据统计数据,收集到的信息,进行信息分析,从而探究出关键词文本所反映出的用户关注点,热点,存在问题,并合理利用这些信息结合相应算法进行热点预判。
根据本申请的另一方面,提供了一种文艺作品的传播效果的评估***,使用上述任意一项所述的文艺作品的传播效果的评估方法。
根据本申请的另一方面,提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述任意一项所述的方法。
根据本申请的另一方面,提供了优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述任意一项所述的方法。
根据本申请的另一方面,一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述任意一项所述的方法。
本申请所提供的文艺作品的传播效果的评估方法及***能够在读者和专家选择、自创文本标签的基础上,生成关于一部网络文艺作品读者关注点、专家关注点的***报告,并对网络文学创作起到一定的引导作用。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的***架构的示意图;
图2是根据本申请一个实施例的预处理功能的示意图;
图3是根据本申请一个实施例的自然语言处理模块的示意图;
图4是根据本申请一个实施例的流量检测的示意图;
图5是根据本申请一个实施例的情节网示意图的示意图;
图6是根据本申请一个实施例的确定用户行为是否可信的示意图;
图7是根据本申请一个实施例的用户标签检测的示意图;
图8是根据本申请一个实施例的用户参与投票等级限制的示意图;
图9是根据本申请一个实施例的用户发出申请时间长度的示意图。
具体实施方式
请参照图1-图9,本申请一实施例中,文艺作品的传播效果的评估方法,包括如下步骤:S2:收集文艺作品;S4:预处理所述收集到的文艺作品,并得到预处理数据;S6:语言处理所述预处理数据,并得到语言处理数据;S8:收集评论信息,将所述评论信息与所述语言处理数据关联,并得出关联数据;S10:根据所述关联数据判断所述收集到的文艺作品的传播效果。
在本申请另一实施例中,所述步骤S4包括:S41:使用ICTCLAS分词***,对所述收集到的文艺作品进行分词,标注词性,保留名词、动词、形容词、副词、连词,并将这些词按原来顺序形成文章顺序序列,将所述文章顺序序列加入至预处理数据库,同时将小说语料库加入至所述预处理数据库中;
S42:识别原创名词。
在本申请另一实施例中,所述步骤S42包括:S421:将百家姓录入词库,并且将地名常出现的后缀录入地名词库;S422:保留未登录名词。
在本申请另一实施例中,所述步骤S6包括:S61:对所述文章顺序序列进行遍历,依次抽取出n个相邻最近的人名—动词—物名—动词—动词对象,直到下一句话的主语是另一个人名或物名,则结束概该链,记为Tn。若一个人物动作的对象是另一个人,则将该链记为两条主链接之间的关联链;S62:提取主要人物所在的情节链,记该章节的长度为T,将所含人名相同的主链Tn相加,得道链S1、S2、S3…,求出它们的平均长度并选取出长度超过的Sn;S63:记一个链节的特征值为{名词1,动词,名词2}或{名词21,被+动词,名词1},若Tn和Tt,链节的名词1与名词2相同,则将Tn、Tt归于新开辟的节点中,记为Cn,其中n、t为任选的两个值,统计形容词副词总数N,记录一个节点包括的括的形容词、副词总数Cn(x),记录一条链接的形容丰富度;F(n)=Cn(x)/N,记一个节点所包含的链节所在句子长度为L(n),记一个段落里的总链结数为P,记一个节点的权重W=F(n)+L(n)+1/P,a、b为常数,若节点中含有与该章节标题重复的词,则权重公式中加上a,若节点中含有转折词库中的词,则权重公式中加上b;S64:根据上述计算结果,选取前TOTAL1/500个节点加入到情节网中;S65:确定节点的位置,将预处理数据的叙述顺序用同心圆表示,以该章节原来的文字线性顺序为参照,越是在之前被叙述的节点,越接近圆心,越是在之后被叙述的节点,越是在外圆上,同心圆的个数为n,将该章节的总字数记为TOTAL2,n=[TOTAL2/500]+1;记节点Cn中,按原章节线性文字顺序,最靠前的情节链为Tf,则Tf第一个字节前所有的字数记为Q,Cn所在环数R=[Q/500]+1;S66:在两个节点之间若有关联链,则在情节网图中用关联链将他们联系起来;S67:通过双引号或者“说”+冒号来识别所述预处理数据中人物的语言,若其长度不超过阈值t,则可认为是简单的日常对话语言,对对话内容进行分词和遍历,与对话出现的上一链节和下一链节分词进行对比,记重名词重复的个数分别为G和L,若G>L,则将该对话内容折叠到上一链节,若G<L,则将对话折叠到下一链节,若L=G!=0,则将该对话作为连接链结,若G=L=0,则将该对话折叠到F(n)+L(n)值较小的链节中。
在本申请另一实施例中,所述步骤S8包括:S81:收集评论信息;S82:对所述收集到的评论信息进行分词处理,并得到评论内容;S83:使用词频统计***将关键词和评论内容进行匹配统计;S84:使用SPSS对关键词词频与小说热度进行相关性分析;S85:分析用户的普遍行为特征。
在本申请另一实施例中,所述步骤S82为:对所述收集到的评论信息进行中文分词,清洗数据,去掉噪声字符;所述步骤S83为:对评论逐条进行关键词词频统计,将结果导入到EXCEL表格中,按照关键词的词频划分三个等级,分别为低频区,中频区,高频区。采用SATI软件工具对统计信息进行分析处理,对高频词构建共词矩阵;所述步骤S84为:采用SPSS工具,对数据样本进行相关性分析,采用***聚类法,对关键词共词矩阵进行类聚分析;所述步骤S85为:按显著正相关、正相关、负相关、显著负相关对关键词进行分类,并对其进行词性及含义分析,采用SVM分类器对关键词进行文本分类,将分类后的结果导出到EXCEL表格中,将关键词的文本分类,以及相应的相关性结果,对应的词频数列在表格中,根据统计数据,收集到的信息,进行信息分析,从而探究出关键词文本所反映出的用户关注点,热点,存在问题,并合理利用这些信息结合相应算法进行热点预判。
以下介绍本申请各个模块的功能及其实现的技术方案。
专业报告模块:根据某部网络小说各个情节链的读者评论,生成该部网络小说的IP化价值报告和阅读价值报告,根据资深用户打分,确定一部小说的社会价值。
数据收集、模块:收集各大网络小说平台上读者评论、各章节的内容等文本内容;以及客户端模块中专家鉴赏和普通读者评论文本等***内交互内容。
文本处理模块:针对收集到的文本数据,用自然语言分词技术进行清理、归类。
预处理数据库:导入自然语言生成语料库,根据词语重复率和前后文相关算法生成文本标签和情节标签,和数据一起进行压缩储存。
数据指标和自然语言处理模型模块:生成某部小说的章节情节链-情节网
数据库:运用数据库技术对现有的数值型指标和文本标签进行分类索引。建立网络小说作品名、章节名、文本标签名的横向、纵向联系。
客户端处理器模块:接受用户提交的获取数据申请,并从数据库中调用相应的数据传输到用户客户端。
普通用户模块:该模块功能包括上传用户的评论、提交用户的徽章数据和打分数据
机器学习模块:将分词词库中未出现的词传递给专家,进行人工标定词汇词性。
各个主要模块的功能实现流程:
数据收集模块:用集搜客、八爪鱼等网络爬虫软件从起点文学网、晋江***、纵横中文网等各大网络小说发布按扒取网络小说原文材料。
预处理数据模块:
S1使用ICTCLAS分词***,对导入的小说进行分词、标注词性,保留名词、动词、形容词、副词、连词,并将这些词按原来顺序形成文章顺序序列,加入预处理数据库。并加入小说语料库,同样将其加入预处理数据库。
S2识别原创名词:现网络小说会自创虚拟人物、地名、物品,必须识别出这些人物的人名才能将他们作为情节链的主体。
S2.1将百家姓录入词库,将“国、镇、省、城、乡”等地名常出现的后缀录入地名词库。
S2.2对未登录名词进行保留:
例《魔道祖师》中的一句话:天色再晚一些,就该举着火把才能在山林里前行了。魏无羡走了一阵,竟没遇上几个修士。他颇感讶异:莫非来的家族里,一批都在佛脚镇上继续纸上谈兵争论不休,另一批都像方才那拨人一般束手无策、败兴而归?
粗切分结果:天色/再晚一些,就该/举着/火把/才能/在/山林/里/前行/了。魏无羡/走/了/一阵,竟/没/遇上/几个/修士。他/颇/感/讶异:莫非/来的/家族/里,一批/都/在/佛脚镇/上/继续/纸上谈兵/争论不休,另/一批/都/像/方才/那/拨/人/一般/束手无策、/败兴而归?
在这里,“魏无羡”、“佛教镇”是未登录名词,并不将“佛教镇上”切分成“佛脚/镇上”,遇到以百家姓开头的名词,则保留直至下一个其他词性的词出现,遇到地名后缀,若有前一个名词紧挨,则将该名词与地名后缀打包作为一个自创地名。
除人名、地名外,其他不能识别的名词统一作为专有物名。
预处理数据库示意图:
自然语言处理模块:
大多数提取主题词方法是基于对词汇出现次数的高低的比较,出现概率高的词被定为主题词,但这种方法应该比较适用于论文文献,因为这种文体会不断重复它要强调的论点。这种做法也可以适用于小说,小说中的重要描述对象会反复出现。但是小说的情节链生成与论文的摘要生成过程的不同之处在于,小说的目的是叙述一件事,因此应该从中提取出人物(或物体名)—动作—动作对象这样的关系链。
具体做法:
S3.1:从头至尾,对文章顺序序列进行遍历,依次抽取出n个相邻最近的人名—动词—物名—动词—动词对象,直到下一句话的主语是另一个人名或物名,则结束概该链,记为Tn。若一个人物动作的对象是另一个人,则将该链记为两条主链接之间的关联链。
S3.2只提取出主要人物所在的情节链,记该章节的长度(以字数记)为T,将所含人名相同的主链Tn相加,得道链S1、S2、S3·······························……求出它们的平均长度并只选取出长度超过的Sn。
S3.3同人物所在情节链的权重计算:对于主要人物所在的情节链,应该只提取重要情节链,而网络小说的重点情节应该在有转折或者大量描写处;一般重点描述的动作,根据作者的写作习惯不同,会加上大量形容词、副词,或者一个人进行一系列的动作。而且,把重点的东西单独成段,也是很多作者惯用的手法。
记一个链节的特征值为{名词1,动词,名词2}或{名词21,被+动词,名词1}若Tn和Tt(n、t为任选的两个值)链节的名词1与名词2相同,则将Tn、Tt归于新开辟的节点中,记为Cn。
统计形容词副词总数N,记录一个节点包括的括的形容词、副词总数Cn(x),记录一条链接的形容丰富度
F(n)=Cn(x)/N
记一个节点所包含的链节所在句子长度为L(n)
记一个段落里的总链结数为P。
记一个节点的权重W=F(n)+L(n)+1/P
a、b为常数,若节点中含有与该章节标题重复的词,则权重公式中加上a,若节点中含有转折词库中的词(比如但是、然而、虽然如此等),则权重公式中加上b
S3.4选取节点:根据计算结果,选取前TOTAL/500个节点加入到情节网中;
S3.5确定节点的位置:
将小说的叙述顺序用同心圆表示,以该章节原来的文字线性顺序为参照,越是在之前被叙述的节点,越接近圆心,越是在之后被叙述的节点,越是在外圆上。
同心圆的个数n:将该章节的总字数记为TOTAL,n=[TOTAL/500]+1
记节点Cn中,按原章节线性文字顺序,最靠前的情节链为Tf,则Tf第一个字节前所有的字数记为Q,Cn所在环数R=[Q/500]+1。
S3.5在两个节点之间若有关联链,则在情节网图中用关联链将他们联系起来。
S3.6人物语言的处理:人物的语言,靠双引号或者“说”+冒号来识别,若其长度不超过阈值t,则可认为是简单的日常对话语言,对对话内容进行分词和遍历,与对话出现的上一链节和下一链节分词进行对比,记重名词重复的个数分别为G和L,若G>L,则将该对话内容折叠到上一链节,若G<L,则将对话折叠到下一链节,若L=G!=0,则将该对话作为连接链结,若G=L=0,则将该对话折叠到F(n)+L(n)值较小的链节中。
专业报告模块:
文本情感分析:
Step1:从服务器中尽可能多地、随机地抽取部分读者评论,并将评论导出。
Step2:将数据进行分词处理(采用哈工大LTP分词技术)并生成一个新的副本用于后续处理。
分词效果如下:
(分词前原句)我喜欢吃苹果。
(分词后保存的文本)我喜欢吃苹果。
Step3:对文章中相同词汇进行频数统计,并按照“词汇”“出现次数”生成一个Excel表格文件。
Step4:根据分词结果,设定积极评价的值为1,消极评价的值为0,与评论数据分别对应人工生成一份【语料类别】文本。
Step5:利用step4获得的文本以及gensim中的Word2vec,Dictionary工具生成词语的索引字典和词向量字典。
Step6:利用Keras+LSTM进行文本分类,得出相应的实验结果。
Step7:
设置情感梯度(0分为所有评论均为消极评论的情况,1分为所有评论均为积极评论的情况):
0.0~0.2分:大部分读者认为该文章完全不具有可读性。
0.2~0.4分:大部分读者认为该文章质量较低。
0.4~0.6分:大部分读者认为该文章质量马马虎虎。
0.6~0.8分:大部分读者认为该文章值得认真一读。
0.8~1.0分:大部分读者认为该文章堪称经典之作。
Step8:根据Step5得出的结果与Step6的情感梯度进行比对,将比对结果返回客户端供读者参考。
Step9:可视化。
利用matlab生成一张分析表对该作品的情感评估进行展示。
根据Step3抽取出现次数最高的前20个热词形成词云,用词云展示读者对该作品的总体定位。
示例:
现有一本小说《Novel》在本平台通过上述流程进行情感评估,评估结果为0.74732,用评估结果与情感梯度进行比对,可以得出:本平台读者认为《Novel》这部作品值得认真一读。该结论会返回客户端供更多读者参考。同时,根据抽取的前二十个热词:“有趣”“无厘头式搞笑”“人物”“有血有肉”“热血”“剧情”……读者能大致了解《Novel》是一部热血搞笑小说,同时该作品笔力虬劲,情节生动。
关键词分析:
流程
Step1用户评论的原始数据进行分词处理
Step2使用词频统计***,将关键词和评论内容进行匹配统计。
Step3使用SPSS对关键词词频与小说热度进行相关性分析。
Step4分析用户的普遍行为特征
步骤
Step1对原始数据进行中文分词,清洗数据,去掉噪声字符
“这个情节真的很棒了”
分词后“这个”,“情节”,“真”“很棒”
Step2对评论逐条进行关键词词频统计,将结果导入到EXCEL表格中,按照关键词的词频划分三个等级,分别为低频区,中频区,高频区。可采用SATI软件工具对统计信息进行分析处理,对高频词构建共词矩阵。
Step3相关性分析,采用SPSS工具,对数据样本进行相关性分析。采用***聚类法,对关键词共词矩阵进行类聚分析。
关键词与热度相关性分析中关于热度的评判标准说明:根据对应小说作品的点赞量、评论量、推荐数等热度评定指标与关键词数据进行数据相关性分析。例如,通常情况下,转发和点赞数的相关性更强,那么,在对关键词进行热度相关性分类时,就以转发量和点赞量的综合权值数据作为热度的评判标准。以此来作为关键词与热度相关性分析时的数据项。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个数据集合是否在一条线上,用以衡量定距变量间的线性关系。将关键词词频统计情况以EXCEL表格的形式导入SPSS软件,选择分析—相关—双变量,用SPSS相关性分析法分别计算关键词变量与阅读量、评论量、转发量等热度指数的Person相关系数r,从而分析关键词与热度的相关性。
Step4在SPSS中对关键词进行了相关性后,按显著正相关、正相关、负相关、显著负相关这四大类,对关键词进行分类,并对其进行词性及含义分析。采用SVM分类器对关键词进行文本分类。将分类后的结果导出到EXCEL表格中,将关键词的文本分类,以及相应的相关性结果,对应的词频数列在表格中,根据统计数据,收集到的信息,进行信息分析。从而探究出关键词文本所反映出的用户关注点,热点,存在问题等有价值的信息。并合理利用这些信息结合相应算法进行热点预判。
投票用户的筛选机制:
徽章:根据用户在本网站的活跃程度、时间长度(用户活动),给用户颁发种类不同、等级不同的徽章,根据这些徽章来确定用户投票的权重。没有一定等级徽章的用户不能参加投票,这样可以规避刷票行为。
用户标签:用户可以给自己打上年龄、职业、性别等标签。
流量检测器:检测一部网络小说主页的浏览量、浏览用户的标签,用以检测一部网络小说网络小说受不同群体的关注度。
用户活动:
给网络小说打分:从一星至十星
发起投票:
对于自己的投票进行描述,为什么发起这个投票。投票选项:网络小说名、人物名、情节链,若A被包括到投票中,则页面显示A的基本信息,以及A主页的超链接。
参加别的用户发起的投票
对别的用户发起的投票进行评论
评论情节链:
在网络小说的主页下对情节链进行评论
回复别人的评论
给别人的评论点“有帮助“
为网站做出贡献:
添加网络小说/人物主页
修改主页内容
徽章:(与用户活动相对应)
鉴赏家徽章xx:(xx为level1、2、3……):发表Nn条评论,获得等级为level(n+1)的该徽章,(n+1)有最高级G
投票发起人xx(xx为level1、2、3……):发表的投标参与人数超过Tn,获得等级为level(n+1)的该徽章(n+1)有最高级G
投票参与者xx(xx为level1、2、3……):参加的投票超过Mn,获得等级为level(n+1)的该徽章(n+1)有最高级G
贡献名录者(xx为level1、2、3……):创建了新的网络小说/影星名单少于超过Kn,获得等级为level(n+1)的该徽章(n+1)有最高级G
修改名录者((xx为level1、2、3……):修改网络小说/影星名单超过Ln,获得等级为level(n+1)的该徽章(n+1)有最高级G
有效投票用户筛选机制
一、确定用户的行为是否可信
使用基于java实现的web***,由JSP页面和后台控制程序组成。通过监控浏览页面的时间长度、浏览页面时鼠标动作、键入次数,调用该文中的模型对用户行为的可信值进行计算。查出有可信值低于阈值行为的用户,对其进行警告、封号等处理
二、确定用户投票的权重
用户投票权重W=[鉴赏家徽章level*J+(投票发起人徽章level*M1+投票参与者level*M1)*M+(名录贡献者level*L1+名录修改者level*L2)*L]
系数J、M1、M2、M、L1、L2、L均为零至一之间的权重系数,用于用户衡量评论次数、发起投票被参与度、参与投票和用户对网络小说评分的可参考性的大小。在此认为,参与这些活动越多的用户,越是资深观影者,并具有越高的网络小说鉴赏能力,所以应该给他们较其他用户较高的权重。具体这些数是多少待定。w
评分计算方法:∑用户评分数*W/评价用户总数*评分调和系数E
评分调和系数E:因为W是一0至1之间的数,算出的评分一定比原来的评分偏低,需要在网络上选出一定数量的评分较为具有参考性的网络小说,评分记为A,用过仿真计算一下用权重法算出来的评分B,则E=B/A的平均值。
检测某一部影片对于不同用户群体的影响:
用“确定用户行为是否可信“该步骤中用到的检测用户浏览行为的技术,统计出每日浏览某影片主页时间以及操作满足条件的用户数量,将该数据进行可视化。可以以用户标签为横轴,在该类标签下用户的数量为纵轴绘制图表。
浏览时间要求:建议停留1至2s以上,
操作要求:建议页面滚动条有滑动。
具体的实施步骤:
活跃程度:
将用户每次登陆后发表评论数Nn、发表的投标参与人数超过Tn、参加的投票Mn、创建了新的网络小说/影星名单Kn、修改网络小说/网络小说人物名单Ln等发送给***,***进行储存并计算各数值总和,超过一定数值便授予用户更高等级的相应徽章。
时间长度:
用户登录时发送登录请求信息给***,***对该登录请求信息进行相应并发送响应信息,发送响应信息的同时加载第一时间戳。然后用户退出登录时向***发送退出登录请求,***响应该退出登录请求并加载第二时间戳。第二时间戳与第一时间戳的差值即为用户的时间长度
颁发徽章:
用户每次发表评论、发起或参与投票、新建或修改名录时发送对应信息给***,***后台计算用户给徽章累积的发表评论数Nn、发表的投标参与人数超过Tn、参加的投票Mn、创建了新的网络小说/网络小说人物名单Kn、修改网络小说/网络小说人物名单Ln等值,并在该值超过规定数值时给予用户更高等级的相应徽章。
用户参与投票等级限制:
用户登录时发送等级信息给***,***对该等级信息进行处理,与投票等级限制进行比对,高于限制等级***便给予用户参与投票权限,否则不给予用户参与投票权限。
流量检测:
用户浏览某小说主页时发送浏览信息给***,***统计一部小说主页的点击浏览次数,对浏览次数进行累加。
用户标签检测:
将浏览某小说主页用户的用户标签发送给***,由***进行同种标签的数量累加并排序,将数量最多的5个标签设为该小说的标签,从而显示该小说网络小说受不同群体的关注度。
确定用户行为是否可信:
用户浏览某小说主页、投票***时发送浏览请求信息给***,***对该浏览请求信息进行相应并发送响应信息,发送响应信息的同时加载第一时间戳。然后用户关闭该网页或完成投票时向***发送退出请求,***响应该退出请求并加载第二时间戳。第二时间戳与第一时间戳的差值即为用户的时间长度。
本申请还提供了一种文艺作品的传播效果的评估***,其特征在于,使用上述的文艺作品的传播效果的评估方法。
本申请还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述任意一项的方法。
本申请还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述任意一项的方法。
本申请还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述任意一项的方法。
关于一些名词的解释:
1.ICTCLAS(Institute of Computing Technology,Chinese Lexical AnalysisSystem),是中国科学院计算技术研究所在多年研究工作积累的基础上,研制出的汉语词法分析***,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。
2.SPSS(Statistical Product and Service Solutions)为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,分析结果清晰美观。
3.SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。
4.SATI(Statistical Analysis Toolkit for Informetrics,SATI),文献题录信息统计分析工具,利用一般计量分析、共现分析、聚类分析、多维尺度分析、社会网络分析等数据分析方法,挖掘和呈现出美妙的可视化数据结果。
本申请所提供的文艺作品的传播效果的评估方法及***能够在读者和专家选择、自创文本标签的基础上,生成关于一部网络文艺作品读者关注点、专家关注点的***报告,并对网络文学创作起到一定的引导作用。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种文艺作品的传播效果的评估方法,其特征在于,包括如下步骤:
S2:收集文艺作品;
S4:预处理所述收集到的文艺作品,并得到预处理数据;
S6:语言处理所述预处理数据,并得到语言处理数据;
S8:收集评论信息,将所述评论信息与所述语言处理数据关联,并得出关联数据;
S10:根据所述关联数据判断所述收集到的文艺作品的传播效果。
2.根据权利要求1所述的文艺作品的传播效果的评估方法,其特征在于,所述步骤S4包括:
S41:使用ICTCLAS分词***,对所述收集到的文艺作品进行分词,标注词性,保留名词、动词、形容词、副词、连词,并将这些词按原来顺序形成文章顺序序列,将所述文章顺序序列加入至预处理数据库,同时将小说语料库加入至所述预处理数据库中;
S42:识别原创名词。
3.根据权利要求2所述的文艺作品的传播效果的评估方法,其特征在于,所述步骤S42包括:
S421:将百家姓录入词库,并且将地名常出现的后缀录入地名词库;
S422:保留未登录名词。
4.根据权利要求2所述的文艺作品的传播效果的评估方法,其特征在于,所述步骤S6包括:
S61:对所述文章顺序序列进行遍历,依次抽取出n个相邻最近的人名—动词—物名—动词—动词对象,直到下一句话的主语是另一个人名或物名,则结束概该链,记为Tn。若一个人物动作的对象是另一个人,则将该链记为两条主链接之间的关联链;
S62:提取主要人物所在的情节链,记该章节的长度为T,将所含人名相同的主链Tn相加,得道链S1、S2、S3…,求出它们的平均长度并选取出长度超过的Sn;
S63:记一个链节的特征值为{名词1,动词,名词2}或{名词21,被+动词,名词1},若Tn和Tt,链节的名词1与名词2相同,则将Tn、Tt归于新开辟的节点中,记为Cn,其中n、t为任选的两个值,统计形容词副词总数N,记录一个节点包括的括的形容词、副词总数Cn(x),记录一条链接的形容丰富度;
F(n)=Cn(x)/N,
记一个节点所包含的链节所在句子长度为L(n),
记一个段落里的总链结数为P,
记一个节点的权重W=F(n)+L(n)+1/P,
a、b为常数,若节点中含有与该章节标题重复的词,则权重公式中加上a,若节点中含有转折词库中的词,则权重公式中加上b;
S64:根据上述计算结果,选取前TOTAL1/500个节点加入到情节网中;
S65:确定节点的位置,将预处理数据的叙述顺序用同心圆表示,以该章节原来的文字线性顺序为参照,越是在之前被叙述的节点,越接近圆心,越是在之后被叙述的节点,越是在外圆上,同心圆的个数为n,将该章节的总字数记为TOTAL2,n=[TOTAL2/500]+1;
记节点Cn中,按原章节线性文字顺序,最靠前的情节链为Tf,则Tf第一个字节前所有的字数记为Q,Cn所在环数R=[Q/500]+1;
S66:在两个节点之间若有关联链,则在情节网图中用关联链将他们联系起来;
S67:通过双引号或者“说”+冒号来识别所述预处理数据中人物的语言,若其长度不超过阈值t,则可认为是简单的日常对话语言,对对话内容进行分词和遍历,与对话出现的上一链节和下一链节分词进行对比,记重名词重复的个数分别为G和L,若G>L,则将该对话内容折叠到上一链节,若G<L,则将对话折叠到下一链节,若L=G!=0,则将该对话作为连接链结,若G=L=0,则将该对话折叠到F(n)+L(n)值较小的链节中。
5.根据权利要求1所述的文艺作品的传播效果的评估方法,其特征在于,所述步骤S8包括:
S81:收集评论信息;
S82:对所述收集到的评论信息进行分词处理,并得到评论内容;
S83:使用词频统计***将关键词和评论内容进行匹配统计;
S84:使用SPSS对关键词词频与小说热度进行相关性分析;
S85:分析用户的普遍行为特征。
6.根据权利要求5所述的文艺作品的传播效果的评估方法,其特征在于,所述步骤S82为:对所述收集到的评论信息进行中文分词,清洗数据,去掉噪声字符;
所述步骤S83为:对评论逐条进行关键词词频统计,将结果导入到EXCEL表格中,按照关键词的词频划分三个等级,分别为低频区,中频区,高频区。采用SATI软件工具对统计信息进行分析处理,对高频词构建共词矩阵;
所述步骤S84为:采用SPSS工具,对数据样本进行相关性分析,采用***聚类法,对关键词共词矩阵进行类聚分析;
所述步骤S85为:按显著正相关、正相关、负相关、显著负相关对关键词进行分类,并对其进行词性及含义分析,采用SVM分类器对关键词进行文本分类,将分类后的结果导出到EXCEL表格中,将关键词的文本分类,以及相应的相关性结果,对应的词频数列在表格中,根据统计数据,收集到的信息,进行信息分析,从而探究出关键词文本所反映出的用户关注点,热点,存在问题,并合理利用这些信息结合相应算法进行热点预判。
7.一种文艺作品的传播效果的评估***,其特征在于,使用权利要求1-6任意一项所述的文艺作品的传播效果的评估方法。
8.一种计算机设备,其特征在于,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如权利要求1-6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行权利要求1-6中任一项所述的方法。
CN201811064005.5A 2018-09-12 2018-09-12 一种文艺作品的评估方法及评估*** Active CN109408808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811064005.5A CN109408808B (zh) 2018-09-12 2018-09-12 一种文艺作品的评估方法及评估***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811064005.5A CN109408808B (zh) 2018-09-12 2018-09-12 一种文艺作品的评估方法及评估***

Publications (2)

Publication Number Publication Date
CN109408808A true CN109408808A (zh) 2019-03-01
CN109408808B CN109408808B (zh) 2023-08-22

Family

ID=65464192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811064005.5A Active CN109408808B (zh) 2018-09-12 2018-09-12 一种文艺作品的评估方法及评估***

Country Status (1)

Country Link
CN (1) CN109408808B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818677A (zh) * 2021-02-22 2021-05-18 康美健康云服务有限公司 一种基于互联网的信息评估方法及***
CN113191624A (zh) * 2021-04-28 2021-07-30 上海核工程研究设计院有限公司 一种用于核电设计研发的工作量预估方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541912A (zh) * 2010-12-17 2012-07-04 北大方正集团有限公司 一种网络文章传播影响力的评价***及方法
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
US20140365207A1 (en) * 2013-06-06 2014-12-11 Xerox Corporation Method and system for classifying reviewers' comments and recommending related actions in idea-generating social media platforms
CN104391984A (zh) * 2014-12-11 2015-03-04 南京大学 一种中英文混合的网络用户评论的推荐度评分方法
US20150154177A1 (en) * 2013-12-03 2015-06-04 International Business Machines Corporation Detecting Literary Elements in Literature and Their Importance Through Semantic Analysis and Literary Correlation
CN105718587A (zh) * 2016-01-26 2016-06-29 王薇 一种网络内容资源评估方法及评估***
CN106022878A (zh) * 2016-05-19 2016-10-12 华南理工大学 基于社区评论情感倾向性分析的手游排行榜构建方法
CN106709824A (zh) * 2016-12-15 2017-05-24 华南理工大学 一种基于网络文本语义分析的建筑评价方法
CN107301200A (zh) * 2017-05-23 2017-10-27 合肥智权信息科技有限公司 一种基于情感倾向分析的文章评估方法和***
CN107491491A (zh) * 2017-07-20 2017-12-19 西南财经大学 一种适应用户兴趣变化的媒体文章推荐方法
CN107977798A (zh) * 2017-12-21 2018-05-01 中国计量大学 一种电子商务产品质量的风险评价方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541912A (zh) * 2010-12-17 2012-07-04 北大方正集团有限公司 一种网络文章传播影响力的评价***及方法
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
US20140365207A1 (en) * 2013-06-06 2014-12-11 Xerox Corporation Method and system for classifying reviewers' comments and recommending related actions in idea-generating social media platforms
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
US20150154177A1 (en) * 2013-12-03 2015-06-04 International Business Machines Corporation Detecting Literary Elements in Literature and Their Importance Through Semantic Analysis and Literary Correlation
CN104391984A (zh) * 2014-12-11 2015-03-04 南京大学 一种中英文混合的网络用户评论的推荐度评分方法
CN105718587A (zh) * 2016-01-26 2016-06-29 王薇 一种网络内容资源评估方法及评估***
CN106022878A (zh) * 2016-05-19 2016-10-12 华南理工大学 基于社区评论情感倾向性分析的手游排行榜构建方法
CN106709824A (zh) * 2016-12-15 2017-05-24 华南理工大学 一种基于网络文本语义分析的建筑评价方法
CN107301200A (zh) * 2017-05-23 2017-10-27 合肥智权信息科技有限公司 一种基于情感倾向分析的文章评估方法和***
CN107491491A (zh) * 2017-07-20 2017-12-19 西南财经大学 一种适应用户兴趣变化的媒体文章推荐方法
CN107977798A (zh) * 2017-12-21 2018-05-01 中国计量大学 一种电子商务产品质量的风险评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚彬等: "一种基于深度学习的科普文章评论情感分析", 《科研信息化技术与应用》 *
张丽等: "基于中文分词和词频统计的图书在线评论文本分析", 《信息***工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818677A (zh) * 2021-02-22 2021-05-18 康美健康云服务有限公司 一种基于互联网的信息评估方法及***
CN113191624A (zh) * 2021-04-28 2021-07-30 上海核工程研究设计院有限公司 一种用于核电设计研发的工作量预估方法

Also Published As

Publication number Publication date
CN109408808B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
Mäntylä et al. The evolution of sentiment analysis—A review of research topics, venues, and top cited papers
Cao et al. Automatic rumor detection on microblogs: A survey
Elmogy et al. Fake reviews detection using supervised machine learning
Saad et al. Twitter sentiment analysis based on ordinal regression
Hammad et al. An approach for detecting spam in Arabic opinion reviews
US8676730B2 (en) Sentiment classifiers based on feature extraction
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
US20220138572A1 (en) Systems and Methods for the Automatic Classification of Documents
Ahmed Detecting opinion spam and fake news using n-gram analysis and semantic similarity
Shen et al. Latent friend mining from blog data
KR20120108095A (ko) 소셜 데이터 분석 시스템
Figueroa et al. Category-specific models for ranking effective paraphrases in community question answering
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus
Saghayan et al. Exploring the impact of machine translation on fake news detection: A case study on persian tweets about covid-19
CN109408808A (zh) 一种文艺作品的评估方法及评估***
Suhartono et al. Argument annotation and analysis using deep learning with attention mechanism in Bahasa Indonesia
Granskogen Automatic detection of fake news in social media using contextual information
Stylios et al. Using Bio-inspired intelligence for Web opinion Mining
Panchendrarajan et al. Eatery: a multi-aspect restaurant rating system
Zhong et al. Identification of opinion spammers using reviewer reputation and clustering analysis
Guadie et al. Amharic text summarization for news items posted on social media
Wang et al. CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method
Deshpande et al. BI and sentiment analysis
Syaputra et al. Improving mental health surveillance over Twitter text classification using word embedding techniques
Bonnefoy et al. The web as a source of evidence for filtering candidate answers to natural language questions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant