一种基于语义网络的文学作品新颖度评价***和方法
技术领域
本发明涉及文学作品评价领域,特别涉及一种基于语义网络的文学作品新颖度评价***和方法。
背景技术
文学作品作为人类情感和智慧的结晶,从最顶级的诺贝尔文学奖到各学校、企业内的段子奖,其作品的好坏,主要通过评审人的知识范畴和欣赏角度对文学作品进行评价。为了减少对作品的主观性评价,目前文学作品的新颖度评估方法主要是通过多位评委对某一作品进行人为评估,然后通过统计和讨论的形式给出最终的作品优劣性评价。这种统计和讨论的方法一方面主要依赖评委的知识面,同时也会引入评委的主观因素。而从技术上进行作品的查新技术,主要是通过自然语言统计的方式,计算当前作品与数据库中作品使用文字相似度,给出一个创新性评价,并没有从文学作品内在的故事情节和精神层面进行深入分析。
目前还没有一种客观的技术能够定量定性的对文学作品进行分析,并给出作品新颖度评估。
发明内容
本发明的目的是提供一种基于语义网络的文学作品新颖度评价***和方法,通过构建文学作品的人物实体和关系网络,并深度挖掘人物实体所产生的事件发展趋势(事件树)之间的关联关系,从故事发展情节和事件描述过程上定量的分析作品与作品之间的相似度,从而给出文学作品的新颖度评估。
为达到上述目的,本发明采用的技术方案是:一种基于语义网络的文学作品新颖度评价***,包括:
数据库,其用于存储若干组文学数据,每组文学数据包括文学作品、其实体网络及其事件网络;
数据输入装置,其用于向数据库中输入文学作品的文本;
实体构建模块,其用于识别抽取每篇文学作品的各命名实体及各命名实体之间的关系以构建每篇文学作品的实体网络;
实体网络相似度计算模块,其用于计算被检测文学作品与各现有文学作品的实体网络相似度;
事件构建模块,其用于识别抽取每篇文学作品的各事件集及各事件集之间的关系以构建每篇文学作品的事件网络;
事件网络相似度计算模块,其用于计算被检测文学作品与各现有文学作品的事件网络相似度;
新颖度计算模块,其用于对被检测文学作品与各现有文学作品的实体网络相似度和事件网络相似度后进行相似度融合计算以得到被检测文学作品的新颖度。
上述技术方案中,所述实体构建模块包括命名实体识别模型和命名实体关系抽取模型,所述命名实体识别模型识别人物、动植物、物品、地点、组织机构以及社会团体中的一者或多者,所述命名实体关系抽取模型抽取各命名实体的共现关系、时间先后关系、父子包含关系以及前后因果关系中的一者或多者。
上述技术方案中,所述事件构建模块包括事件识别模型和事件关系抽取模型,所述事件识别模型识别军事事件、经济事件以及学术事件中的一者或多者,所述事件关系抽取模型抽取各事件的序列关系。
上述技术方案中,所述实体网络相似度计算模块为用于计算网络节点间结构的结构相似度的Struc2Vec模型。
上述技术方案中,所述实体网络相似度计算模块包括用于计算带权网络节点的节点相似度并形成按照节点相似度高低排序的结点排序集的Net2Vec模型和计算两个结点排序集之间的相似度的Cross-Correlation模型。
上述技术方案中,所述事件网络相似度计算模块为计算两颗事件树相似度的TreeKernel模型。
上述技术方案中,所述新颖度计算模块为线性融合模型或几何融合模型或幂级融合模型或sigmoid函数融合模型。
上述技术方案中,所述数据输入装置为扫描装置。
本发明还提供另外一个技术方案:一种基于语义网络的文学作品新颖度评价方法,采用如上所述的文学作品新颖度评价***,所述文学作品新颖度评价方法包括如下步骤:
S1、通过数据输入装置向数据库中输入多篇现有文学作品的文本;
S2、通过实体构建模块识别抽取每篇现有文学作品的各命名实体及各命名实体之间的关系以构建每篇现有文学作品的实体网络并存储至数据库中;
S3、通过事件构建模块识别抽取每篇现有文学作品的各事件集及各事件集之间的关系以构建每篇现有文学作品的事件网络并存储至数据库中;
S4、通过数据输入装置向数据库中输入一篇被检测文学作品的文本;
S5、通过实体构建模块识别抽取被检测文学作品的各命名实体及各命名实体之间的关系以构建被检测文学作品的实体网络并存储至数据库中;
S6、通过实体网络相似度计算模块将被检测文学作品与现有文学作品进行实体网络相似度计算;
S7、通过事件构建模块识别抽取被检测文学作品的各事件集及各事件集之间的关系以构建被检测文学作品的事件网络并存储至数据库中;
S8、通过事件网络相似度计算模块将被检测文学作品与现有文学作品进行事件网络相似度计算;
S9、通过新颖度计算模块将被检测文学作品的实体网络相似度和事件网络相似度进行融合以得到被检测文学作品的新颖度。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:本发明公开的基于语义网络的文学作品新颖度评价***和方法,通过识别文学作品中的实体并抽取实体与实体之间的关系构建实体网络,从而计算新文学作品与现有文学作品库中的作品实体网络相似度得到实体网络相似度,可以深度挖掘和分析作品之间人物性格和关系的新颖度,同时通过事件抽取和构建事件树模型计算新作品和现有文学作品之间的事件树相似度,从故事情节描述角度量化作品新颖度,通过融合角色性格新颖和故事情节新颖两个指数,来对文学作品的新颖度进行评估,克服了现有基于内容匹配的文章查重技术所不能实现的内容语义逻辑判别,同时也为文学评审人员提供更为客观的参考指标。
附图说明
图1是本发明公开的文学作品新颖度评价***的组成方框图;
图2是本发明公开的文学作品新颖度评价方法的流程图;
图3是本发明公开的诺贝尔文学奖作品《群山淡景》实体网络样例图;
图4是本发明公开的某案件章节事件网络样例图。
其中:10、数据库;20、数据输入装置;30、实体构建模块;40、实体网络相似度计算模块;50、事件构建模块;60、事件网络相似度计算模块;70、新颖度计算模块。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
参见图1,如其中的图例所示,一种基于语义网络的文学作品新颖度评价***,包括:
数据库10,其用于存储若干组文学数据,每组文学数据包括文学作品、其实体网络及其事件网络;
数据输入装置20,其用于向数据库10中输入文学作品的文本;
实体构建模块30,其用于识别抽取每篇文学作品的各命名实体及各命名实体之间的关系以构建每篇文学作品的实体网络;
实体网络相似度计算模块40,其用于计算被检测文学作品与各现有文学作品的实体网络相似度;
事件构建模块50,其用于识别抽取每篇文学作品的各事件集及各事件集之间的关系以构建每篇文学作品的事件网络;
事件网络相似度计算模块60,其用于计算被检测文学作品与各现有文学作品的事件网络相似度;
新颖度计算模块70,其用于对被检测文学作品与各现有文学作品的实体网络相似度和事件网络相似度后进行相似度融合计算以得到被检测文学作品的新颖度。
本实施例中,实体构建模块30包括命名实体识别模型和命名实体关系抽取模型,上述命名实体识别模型识别人物、动植物、物品、地点、组织机构以及社会团体,上述命名实体关系抽取模型抽取各命名实体的共现关系、时间先后关系、父子包含关系以及前后因果关系。在其他实施例中,上述命名实体识别模型所识别的实体种类数量,根据不同训练集可以得到其他不同的类目。
本实施例中,事件构建模块50包括事件识别模型和事件关系抽取模型,上述事件识别模型识别军事事件、经济事件以及学术事件,所述事件关系抽取模型抽取各事件的序列关系。在其他实施例中,上述事件识别模型所识别的事件种类和数量,根据不同训练集可以得到其他不同的类目。
本实施例中,实体网络相似度计算模块40包括用于计算带权网络节点的节点相似度并形成按照节点相似度高低排序的结点排序集的Net2Vec模型和计算两个结点排序集之间的相似度的Cross-Correlation模型。在其他实施例中,还可以是:实体网络相似度计算模块为用于计算网络节点间结构的结构相似度的Struc2Vec模型。
本实施例中,事件网络相似度计算模块60为计算两颗事件树相似度的TreeKernel模型。
本实施例中,新颖度计算模块70为线性融合模型。在其他实施例中,还可以是:新颖度计算模块为几何融合模型或幂级融合模型或sigmoid函数融合模型。
本实施例中,数据输入装置20为扫描装置。
参见图2,如其中的图例所示,一种基于语义网络的文学作品新颖度评价方法,采用如上所述的文学作品新颖度评价***,上述文学作品新颖度评价方法包括如下步骤:
S1、通过数据输入装置20向数据库10中输入多篇现有文学作品Arti的文本;
S2、通过实体构建模块30识别抽取每篇现有文学作品Arti的各命名实体(如人物实体 张三、李四,动物实体 小花猫、大黄狗,地方实体苏州、北京,时间实体2018年10月10日2018年11月等)及各命名实体之间的关系以构建每篇现有文学作品的实体网络Neti并存储至数据库10中;
S3、通过事件构建模块50识别抽取每篇现有文学作品Arti的各事件集(如军事事件,经济事件,学术事件等)及各事件集之间的关系以构建每篇现有文学作品的事件网络Treei并存储至数据库10中;
S4、通过数据输入装置20向数据库10中输入一篇被检测文学作品Artj的文本, 如通过扫描或其他方式以TXT形式进行文本输入;
S5、通过实体构建模块30识别抽取被检测文学作品Artj的各命名实体(如人物实体 张三、李四,动物实体 小花猫、大黄狗,地方实体苏州、北京,时间实体2018年10月10日2018年11月等)及各命名实体之间的关系以构建被检测文学作品的实体网络Netj并存储至数据库10中;
S6、通过实体网络相似度计算模块40将被检测文学作品Artj的实体网络Netj与现有文学作品Artid 的实体网络Netj进行实体网络相似度计算,如:Sim(Neti,Netj) =Cross-Correlation(Neti,Netj);
S7、通过事件构建模块50识别抽取被检测文学作品Artj的各事件集(如军事事件,经济事件,学术事件等)及各事件集之间的关系以构建被检测文学作品的事件网络Treej并存储至数据库10中;
S8、通过事件网络相似度计算模块60将被检测文学作品Artj的事件网络Treej与现有文学作品Arti的事件网络Treei进行事件网络相似度计算,如:Sim(Treei,Treej) =Kernel(Treei,Treej)
S9、通过新颖度计算模块70将被检测文学作品Artj的实体网络相似度Sim(Neti,Netj)和事件网络相似度Sim(Treei,Treej)进行融合以得到被检测文学作品的新颖度。如采用线性融合算法Sim(Arti, Artj) = a*Sim(Neti,Netj)+b*Sim(Treei,Treej),其中a和b是线性调权因子。
上述步骤S1和步骤S4中,如通过扫描或其他方式以TXT形式进行文本输入;
上述步骤S2和步骤S5中,如人物实体的先后顺序"张三-->李四"代表某个场景下“张三”出现后出现了“李四”,人物实体和动物实体的共现"张三--大黄狗"代表某个场景下“张三”和“大黄狗”一起出现了;
上述步骤S3和步骤S7中,通过整个作品对不同事件的描述顺序,将所有事件描述内容添加到一棵以时间为主轴的事件树上。如通过实体识别技术的到某个片段故事的描述三元组<段某, 进行, 吼骂>结构,并通过事件描述的前后关系因果关系,给出整个事件的树形结构;
上述步骤S8中,如Sim(Arti, Artj)的新颖度区间为[0 1],其中0是完全不相同即全新,1是完全相同,即没有任何创新,最终给出的是一个相似度的结论,例如,相似度80%。
参见图3和图4,分别是诺贝尔文学奖作品《群山淡景》实体网络样例图和某案件章节事件网络样例图。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。