CN115017304A - 基于新闻文本进行企业风险评估的方法、计算设备和介质 - Google Patents
基于新闻文本进行企业风险评估的方法、计算设备和介质 Download PDFInfo
- Publication number
- CN115017304A CN115017304A CN202210344751.XA CN202210344751A CN115017304A CN 115017304 A CN115017304 A CN 115017304A CN 202210344751 A CN202210344751 A CN 202210344751A CN 115017304 A CN115017304 A CN 115017304A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- topic
- news
- news text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种基于新闻文本进行企业风险评估的方法、计算设备和计算机可读存储介质。该方法包括:为所述新闻文本构建舆情实体,所述舆情实体的属性包括所述新闻文本的主题类别和情感极性;基于所述舆情实体和所述企业的企业知识图谱确定所述新闻文本对所述企业的直接关系风险值和关联风险值;基于所述企业知识图谱和历史新闻文本集合确定所述新闻文本对所述企业的间接关系风险值;以及基于所述直接关系风险值、间接关系风险值和关联风险值确定所述新闻文本对所述企业的风险值。
Description
技术领域
本公开概括而言涉及机器学习领域,更具体地,涉及一种基于新闻文本进行企业风险评估的方法、计算设备和计算机可读存储介质。
背景技术
对于许多企业,尤其是直接与民生相关的企业来说,舆论对其声誉的影响巨大,尤其是负面舆论,如果不及时应对,很可能会对企业造成严重甚至毁灭性损失。当前在信息时代,随着互联网技术发展,越来越多的新闻资讯能够第一时间出现在网络上。随着各种网络媒体,尤其是自媒体的繁荣,舆论来源更多,传播更快。因此,仅仅依靠企业市场部门或者公关部门的人工阅读已经无法全面了解舆论情况,尤其是无法在负面舆论还未广泛传播之前及时了解到这些负面舆论。
因此,存在着需要通过计算机***自动采集各种舆论消息并对其进行及时分析以评估企业风险并进行预警的需要。
发明内容
针对上述问题中的至少一个,本公开提供了一种通过对采集的新闻文本(本文中也称为舆情)进行包括情感、主题、实体、关系、事件等中的多个维度的分析,以评估其对企业的风险影响的方案。
根据本公开的一个方面,提供了一种基于新闻文本进行企业风险评估的方法。该方法包括:为所述新闻文本构建舆情实体,所述舆情实体的属性包括所述新闻文本的主题类别和情感极性;基于所述舆情实体和所述企业的企业知识图谱确定所述新闻文本对所述企业的直接关系风险值和关联风险值;基于所述企业知识图谱和历史新闻文本集合确定所述新闻文本对所述企业的间接关系风险值;以及基于所述直接关系风险值、间接关系风险值和关联风险值确定所述新闻文本对所述企业的风险值。
在一些实施例中,基于所述舆情实体和所述企业的企业知识图谱确定所述新闻文本对所述企业的直接关系风险值包括:利用实体模型识别所述新闻文本中的提及实体;确定所述提及实体在所述企业的企业知识图谱中的命中实体;以及基于所述企业知识图谱确定所述舆情实体和所述命中实体之间的直接关系风险值。
在一些实施例中,确定所述直接关系风险值包括:基于所述舆情实体和所述命中实体之间的总路径数确定所述直接关系风险值。
在一些实施例中,确定所述直接关系风险值包括:基于所述舆情实体和所述命中实体之间的预定距离内的总路径数确定所述直接关系风险值。
在一些实施例中,基于所述舆情实体和所述企业的企业知识图谱确定所述新闻文本对所述企业的关联风险值包括:基于标签传播算法,从所述企业知识图谱中确定与所述舆情实体相关联的关注实体,并且为每个关注实体标注风险值;以及基于所述关注实体的风险值确定所述舆情实体的关联风险值。
在一些实施例中,基于所述企业知识图谱和历史新闻文本集合确定所述新闻文本对所述企业的间接关系风险值包括:从历史新闻文本集合中确定与所述新闻文本的舆情实体相似的多个历史舆情实体;以及基于所述企业知识图谱确定所述多个历史舆情实体和所述新闻文本在所述企业知识图谱中的命中实体之间的间接关系风险值。
在一些实施例中,确定所述间接关系风险值包括:基于所述舆情实体和所述命中实体之间的相似度确定所述间接关系风险值。
在一些实施例中,该方法还包括:利用实体模型识别所述新闻文本中的实体并且确定所识别的实体在所述企业的企业知识图谱中的命中实体;基于所述企业知识图谱确定所述舆情实体和所述命中实体之间的直接关系风险值。
在一些实施例中,为所述新闻文本构建舆情实体包括:利用情感分类模型确定所述新闻文本的情感极性,所述情感极性指示所述情感训练文本具有正面情感、负面情感还是中性情感。
在一些实施例中,该方法还包括:构建与所述企业相关联的情感训练文本集合,所述情感训练文本集合包含多个情感训练文本,每个情感训练文本包括与所述企业相关联的新闻文本;对所述情感训练文本集合中的每个情感训练文本标注情感极性;利用所述情感训练文本和所标注的情感极性对所述情感分类模型进行训练以产生经训练的情感分类模型;以及将所述新闻文本输入经训练的情感分类模型以确定所述新闻文本的情感极性。
在一些实施例中,将所述新闻文本输入经训练的情感分类模型以确定所述新闻文本的情感极性包括:对所述新闻文本所包含的文本数据进行过滤;对经过滤的文本数据进行分词,并且将分词后的文本数据映射为文本标识序列,其中每个文本标识序列包括一个或多个离散编码向量;将所生成的文本标识序列输入所述情感分类模型的嵌入层,以将所述文本标识序列转换成连续的嵌入向量;在所述情感分类模型的编码层对所述嵌入层输出的嵌入向量进行编码以生成所述嵌入向量的上下文表示;在所述情感分类模型的池化层利用注意力函数生成所述嵌入向量的句子级别特征向量;产生所述句子级别特征向量的质量概率分布,所述质量概率分布指示所述新闻文本处于不同情感极性的概率;以及选择所述质量概率分布中概率最高的情感极性作为所述新闻文本的情感极性。
在一些实施例中,对所述情感训练文本集合中的每个情感训练文本标注情感极性包括:在所述情感训练文本中查找风险词词典中的风险词;如果在所述情感训练文本中查找到风险词,基于依存句法规则确定所述风险词关联的语义;以及基于所述风险词关联的语义对所述情感训练文本进行标注。
在一些实施例中,为所述新闻文本构建舆情实体包括:利用主题分类模型确定所述新闻文本的主题类别。
在一些实施例中,所述主题分类模型包括主题抽取层、主题聚类层和主题描述层,并且其中为所述新闻文本构建舆情实体包括:在所述主题抽取层,利用双词话题模型,确定所述新闻文本的标题在预定主题集合中的概率分布以及在所述预定主题集合中的每个主题中,所述标题中的各个单词的概率分布;在所述主题聚类层,基于所述新闻文本的标题在预定主题集合中的概率分布,利用聚类算法确定所述新闻文本的主题类别;以及在所述主题描述层,从所述新闻文本中选择中心关键词以构成所述新闻文本的主题描述。
在一些实施例中,在所述主题抽取层,利用双词话题模型,确定所述新闻文本的标题在预定主题集合中的概率分布以及在所述预定主题集合中的每个主题中,所述标题中的各个单词的概率分布包括:对所述新闻文本的标题进行分词以得到所述标题的多个单词;将所述多个单词中的两个单词组织为一个双词对并对该双词对赋予所述预定主题集合中的一个主题;确定所述多个单词构成的所有双词对的主题的概率分布;基于每个双词对的主题的概率分布确定所述双词对中的每个单词的概率分布。
在一些实施例中,在所述主题聚类层,基于所述新闻文本的标题在预定主题集合中的概率分布,利用聚类算法确定所述新闻文本的主题类别包括:将新闻标题聚类为多个簇;利用实体模型识别所述新闻文本中的提及实体;以及基于所述新闻文本中的提及实体对所述多个簇进行相似聚类合并以确定所述新闻文本的主题类别。
在一些实施例中,在所述主题描述层,从所述新闻文本中选择中心关键词以构成所述新闻文本的主题描述包括:对所述新闻文本进行摘要抽取;以及基于所述新闻文本中的实体和所述新闻文本的字数,从所述摘要中选择中心关键词作为所述主题的描述。
在一些实施例中,该方法还包括:获取所述预定主题集合中的多个历史主题描述;对所述多个历史主题描述进行文本相似度计算以确定所述多个历史主题描述彼此之间的文本相似度;以及基于所述多个历史主题描述彼此之间的文本相似度,合并所述预定主题集合中的主题以更新所述预定主题集合。
根据本公开的另一个方面,提供了一种计算设备。该计算设备包括:至少一个处理器;以及至少一个存储器,该至少一个存储器被耦合到该至少一个处理器并且存储用于由该至少一个处理器执行的指令,该指令当由该至少一个处理器执行时,使得该计算设备执行根据上述方法的步骤。
根据本公开的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序代码,该计算机程序代码在被运行时执行如上所述的方法。
附图说明
通过参考下列附图所给出的本公开的具体实施方式的描述,将更好地理解本公开,并且本公开的其他目的、细节、特点和优点将变得更加显而易见。
图1示出了用于实现根据本公开的实施例的用于实现基于新闻文本进行企业风险评估的方法的***的示意图。
图2示出了根据本公开的一些实施例的基于新闻文本进行企业风险评估的方法的流程图。
图3示出了根据本公开的另一些实施例的基于新闻文本进行企业风险评估的方法的流程图。
图4A示出了根据本公开一些实施例的用于确定舆情事件的事件风险值的方法的流程图。
图4B示出了根据本公开一些实施例的识别舆情事件的方框的更详细流程图。
图4C示出了根据本公开一些实施例的利用事件风险模型确定舆情事件的事件风险值的方框的更详细流程图。
图5A示出了根据本公开的实施例的确定新闻文本的情感极性的方法的流程图。
图5B示出了根据本公开的实施例的情感分类模型的结构示意图。
图6A示出了根据本公开的实施例的确定新闻文本的主题类别的方法的流程图。
图6B示出了根据本公开的实施例的主题分类模型的结构示意图。
图6C示出了根据本公开一些实施例的确定标题中的各个单词的概率分布的方框的更详细流程图。
图6D示出了根据本公开一些实施例的利用聚类算法确定新闻文本的主题类别的方框的更详细流程图。
图6E示出了根据本公开一些实施例的确定新闻文本的主题表述的方框的更详细流程图。
图7A示出了根据本公开的实施例的利用实体模型识别新闻文本中的提及实体的方法的流程图。
图7B示出了根据本公开一些实施例的利用实体模型从新闻文本中识别提及实体和实体关系的方框的进一步详细流程图。
图7C示出了根据本公开另一些实施例的利用实体模型从新闻文本中识别提及实体和实体关系的方框的进一步详细流程图。
图7D示出了根据本公开实施例的基于参数共享的实体和关系联合识别模型的结构示意图。
图7E示出了根据本公开一些实施例的利用标注后的训练文本对该联合识别模型进行训练的方框的详细流程图。
图7F示出了根据本公开实施例的用于确定实体距离的方框的更详细的流程图。
图8A示出了根据本公开实施例的企业知识图谱的示意图。
图8B示出了根据本公开实施例的行业知识图谱的示意图。
图9示出了适合实现本公开的实施例的计算设备的结构方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。
在下文的描述中,出于说明各种发明的实施例的目的阐述了某些具体细节以提供对各种发明实施例的透彻理解。但是,相关领域技术人员将认识到可在无这些具体细节中的一个或多个细节的情况来实践实施例。在其它情形下,与本申请相关联的熟知的装置、结构和技术可能并未详细地示出或描述从而避免不必要地混淆实施例的描述。
除非语境有其它需要,在整个说明书和权利要求中,词语“包括”和其变型,诸如“包含”和“具有”应被理解为开放的、包含的含义,即应解释为“包括,但不限于”。
在整个说明书中对“一个实施例”或“一些实施例”的提及表示结合实施例所描述的特定特点、结构或特征包括于至少一个实施例中。因此,在整个说明书的各个位置“在一个实施例中”或“在一些实施例”中的出现不一定全都指相同实施例。另外,特定特点、结构或特征可在一个或多个实施例中以任何方式组合。
此外,说明书和权利要求中所用的第一、第二、第三、第四等术语,仅仅出于描述清楚起见来区分各个对象,而并不限定其所描述的对象的大小或其他顺序等。
图1示出了用于实现根据本公开的实施例的用于实现基于新闻文本进行企业风险评估的方法的***1的示意图。如图1中所示,***1包括一个或多个数据源10、计算设备20和网络30。数据源10和计算设备20可以通过网络30进行数据交互。这里,数据源10例如可以是用于提供各种(经过筛选的)新闻文本(本文中也称为舆情)的设备,例如向计算设备20推送各种新闻文本(例如可以包括各种新闻、媒体文章、政府通告等)的第三方数据源,也可以是由计算设备20通过爬虫等技术主动去爬取的原始数据源。计算设备20可以实时获取这些新闻文本,并且对这些新闻文本进行处理以评估企业风险。计算设备20可以包括至少一个处理器22和与该至少一个处理器22耦合的至少一个存储器24,该存储器24中存储有可由该至少一个处理器22执行的指令26,该指令26在被该至少一个处理器22执行时执行如下所述的方法的至少一部分。计算设备20的具体结构例如可以如下结合图9所述。
在根据本公开的方案中,首先梳理和整合企业的内外部知识,为企业构造企业知识图谱,然后对网络上不断涌现的新闻文本,利用多个深度学习模型,通过多维度分析情感、主题、实体、关系、事件中的至少两项,获得新闻文本中所蕴含的与企业相关的风险,并在企业知识图谱中检索和推理以评估该新闻文本对该企业是否有风险和/或风险级别。最后,***可以综合风险信息、影响信息,做出预警决策。
基于新闻文本对企业进行风险评估可以包括两个层面,一个是评估该新闻是否对企业造成舆情风险,另一个是评估该新闻对企业造成舆情风险的程度(即风险值)。这两个方面可以分别单独执行,也可以结合执行,即,先评估该新闻是否对企业造成舆情风险,并且在确定该新闻对企业造成舆情风险的情况下进一步评估该新闻对企业造成风险的程度。以下结合图2和图3分别描述这两个方面的具体方案。
图2示出了根据本公开的一些实施例的基于新闻文本进行企业风险评估的方法200的流程图。方法200例如可以由图1中所示的***1中的计算设备20执行。以下以在计算设备20中执行为例,结合图1至图9对方法200进行描述。
如图2中所示,方法200包括方框210,其中计算设备20可以确定所获取的新闻文本是否满足预定条件,并且在方框220中,在确定该新闻文本满足该预定条件(即方框210中判断为“是”时)时,计算设备20可以确定该企业存在舆情风险。这里,该预定条件可以是事件风险值、情感极性、主题类别和企业知识图谱命中情况中的两个或更多个。具体地,如图2中所示,确定该新闻文本满足该预定条件可以包括方框212、214、216和218中的至少两项。
在方框212,计算设备20可以确定所获取的新闻文本所对应的舆情事件的事件风险值大于风险阈值。
这里,如前所述,新闻文本可以是计算设备20实时从各个数据源10获取的。舆情事件是指从该新闻文本出发所识别出的事件表示。可以将该舆情事件与历史舆情事件进行链接,以基于事件风险模型确定该舆情事件的事件风险值。确定舆情事件的事件风险值的方法例如结合如下图4A至4C的方法400所详述。本领域技术人员可以理解,本公开并不局限于图4A至4C的方法400的实现细节,而是可以利用其他模型,结合风险已知的历史舆情事件来确定该舆情事件的事件风险值。
在方框214,计算设备20可以确定该新闻文本的情感极性低于情感阈值。在本文中,新闻文本作为整体而言,可以具有其情感极性。例如,在三分类的情况下,新闻文本的情感极性可以包括正面、中性和负面三种,在五分类的情况下,新闻文本的情感极性可以包括正面、偏正面、中性、偏负面和负面五种。或者,在一些其他实施例中,情感极性可以表示为连续的情感范围内的一个情感值,例如[0,1]之间的一个值。确定新闻文本的情感极性可以利用回归模型、分类模型等,在本文中使用分类模型。取决于所使用的情感分类模型以及训练样本,可以实现不同的情感极性分类方法。利用情感分类模型确定该新闻文本的情感极性的方法例如结合如下图5A至5B的方法500所详述。本领域技术人员可以理解,本公开并不局限于图5A至5B的方法500的实现细节,而是可以利用其他情感分类模型来确定该新闻文本的情感极性。
这里,情感阈值例如可以是特定情感极性或者特定情感值。例如,在使用三分类或五分类的情感极性的情况下,情感阈值可以是“中性”。在使用连续的情感范围(例如[0,1])的情况下,情感阈值可以是0.5。在这些情况下,低于情感阈值的情感极性可以表示该新闻文本的情感极性偏向负面。
在方框216,计算设备20可以确定该新闻文本的主题类别并且确定所确定的主题类别属于特定风险主题集合。
这里,主题类别是指新闻文本呈现出的不同主题,确定主题类别有助于从海量新闻文本中快速筛选当前的新闻文本是否是该企业感兴趣类型(例如属于食品安全类)的新闻文本。可以利用主题分类模型确定新闻文本的主题类别,例如结合如下图6A至6E的方法600所详述。本领域技术人员可以理解,本公开并不局限于图6A至6E的方法600的实现细节,而是可以利用其他主题分类模型来确定该新闻文本的主题类型。
特定风险主题集合是指企业所感兴趣的主题类型的集合。例如,对于一个食品类企业来说,其感兴趣的主题类型可以包括食品安全、食品质量、食品致癌风险等可能对企业造成舆情风险的主题类型。在这种情况下,企业可以将其感兴趣的主题类型设置为特定风险主题集合,在方框216,在确定新闻文本的主题类别之后,可以确定该主题类别是否属于该特定风险主题集合。如果确定该新闻文本属于该特定风险主题集合,则该新闻文本对该企业造成舆情风险的可能性更高。
在方框218,计算设备20可以识别该新闻文本中的提及实体并且确定这些提及实体命中该企业的企业知识图谱。
通常,实体是指新闻文本中出现的人名、地名、机构名等,进一步地,实体还可以包括感兴趣的任何其他主体,例如产品名、材料名、品牌名等。每个实体可以包括一个或多个实体属性。此外,各个实体之间还可能存在各种实体关系。在本文中,可以利用实体模型来至少识别该新闻文本中的实体、该实体的属性和实体之间的实体关系。为了将从新闻文本中识别出的实体与企业知识图谱中显示的实体进行区分,在本文中也将前者称为“提及实体”。
利用实体模型识别新闻文本中的实体的方法例如结合如下图7A至7F的方法700所详述。本领域技术人员可以理解,本公开并不局限于图7A至7F所述的方法700的实现细节,而是可以利用其他实体模型来识别该新闻文本中的实体。
在方框212、214、216和218中的至少两个满足的情况下,在方框220,计算设备20可以确定该新闻文本会对该企业产生舆情风险。反之,在方框230,可以确定该新闻文本不会对该企业产生舆情风险。
图3示出了根据本公开的另一些实施例的基于新闻文本进行企业风险评估的方法300的流程图。方法300例如可以由图1中所示的***1中的计算设备20执行。以下以在计算设备20中执行为例,结合图1至图9对方法300进行描述。
在方框310,计算设备20可以为该新闻文本构建舆情实体。其中该舆情实体的属性包括该新闻文本的主题类别和情感极性。这里,确定该新闻文本的主题类别的方法例如可以是结合图6A至6E所描述的方法600,确定新闻文本的情感极性的方法例如可以是结合图5所描述的方法500。本领域技术人员可以理解,本公开并不局限于图5A至5B的方法500和图6A至6E的方法600的实现细节,而是可以利用其他情感分类模型来确定该新闻文本的情感极性和/或利用其他主题分类模型来确定该新闻文本的主题类型。
在方框320,计算设备20可以基于该舆情实体和该企业的企业知识图谱确定该新闻文本对该企业的直接关系风险值和关联风险值。
在一些实施例中,基于该舆情实体和该企业的企业知识图谱确定该新闻文本对该企业的直接关系风险值可以包括:利用实体模型识别该新闻文本中的提及实体;确定所述提及实体在该企业的企业知识图谱中的命中实体;并且基于该企业知识图谱确定该舆情实体和该命中实体之间的直接关系风险值。
这里,利用实体模型识别新闻文本中的实体的方法例如结合如下图7A至7F的方法700所详述。本领域技术人员可以理解,本公开并不局限于图7A至7F所述的方法700的实现细节,而是可以利用其他实体模型来识别该新闻文本中的实体(本文中也称为提及实体)。
从新闻文本中识别的实体与企业知识图谱中的实体之间可能存在着对应关系。从新闻文本中识别的实体可能是某个企业的子公司、简称、别称等,而企业知识图谱中的实体可能是为该企业设置的标准名称。在这种情况下,可以根据实体属性来确定从新闻文本中识别的实体是否命中企业知识图谱中的实体。例如,假设从一篇新闻文本中提取出了表示企业名称的实体“KFC”,而企业知识图谱中存在着表示企业名称的实体“肯德基”,并且其实体属性包括别称“KFC”,则可以确定从新闻文本中识别的实体“KFC”命中企业知识图谱中的实体“肯德基”。
在一些实施例中,直接关系风险值Rpath可以通过确定舆情实体与命中实体之间的总路径数来确定。
Rpath=∑Q(A,Ei)
其中,A为舆情实体,Ei为命中实体,Q(A,Ei)表示从舆情实体A到命中实体Ei的路径数。
在一些实施例中,可以仅基于舆情实体与命中实体之间的预定距离(例如2或者3)内的总路径数确定为直接关系风险值Rpath。
例如,假设该企业的企业知识图谱如图8A所示,进一步地,该企业知识图谱810的构建可以如图7A的方框710所述。如图8A中所示,假设该企业知识图谱810包括实体E1-E9,舆情实体为A,从该新闻文本中识别的实体(即提及实体)包括实体A1、A2、A3,提及实体A1、A2、A3在企业知识图谱中分别命中实体E2、E7和E9,并且仅计算舆情实体与命中实体之间的距离小于预定距离3的情况。则,舆情实体A与命中实体E2之间的路径数可以表示为Q(A,E2)=1(即,从舆情实体A到命中实体E2仅有一条路径A—>A2—>E2),舆情实体A与命中实体E7之间的路径数可以表示为Q(A,E7)=1(即,从舆情实体A到命中实体E7仅有一条路径A—>A1—>E7),舆情实体A与命中实体E9之间的路径数可以表示为Q(A,E9)=2(即,从舆情实体A到命中实体E9有两条路径A—>A2—>E2—>E9和A—>A3—>E9)。因此,直接关系风险值Rpath=1+1+2=4。
此外,在一些实施例中,直接关系风险值Rpath的计算还可以考虑企业知识图谱810中的实体之间的路径的有向性。例如,实体E1-E9中的部分路径是单向的,另一些路径是双向的。
在一些实施例中,基于该舆情实体和该企业的企业知识图谱810确定该新闻文本对该企业的关联风险值可以包括:基于标签传播算法,从该企业知识图谱810中确定与该舆情实体相关联的关注实体,并且为每个关注实体标注风险值;并且基于这些关注实体的风险值确定该舆情实体的关联风险值。
在整个风险评估过程中,企业知识图谱会不断更新以加入新发现的风险因素。在一些情况下,虽然从新闻文本中直接识别的文本可能没有直接命中企业知识图谱中的实体,但是企业知识图谱中可能存在着与该新闻文本相关的、存在潜在风险的实体需要特别关注。在这种情况下,可以利用标签传播算法,从企业知识图谱中挖掘出与舆情实体A可能相关联的实体(这里也称为关注实体),并且为每个关注实体标注风险值。例如,对于存在风险的关注实体为其标注风险值为1,不存在风险的关注实体为其标注风险值为0。
这样,可以基于这些关注实体的风险值来确定该舆情实体A的关联风险值Rtag。
Rtag=∑T(Ei)
其中,Ei为关注实体,T(Ei)表示该关注实体的风险值(例如为0或1)。
在方框330,计算设备20可以基于该企业知识图谱和历史新闻文本集合确定该新闻文本对该企业的间接关系风险值。
在一些实施例中,计算设备20可以从历史新闻文本集合中确定与该新闻文本的舆情实体相似的多个历史舆情实体,并且基于该企业知识图谱确定这些历史舆情实体和企业知识图谱中的命中实体之间的间接关系风险值。例如,该间接关系风险值Rsim可以通过舆情实体和命中实体之间的相似度来确定。
Rsim=∑S(A,Ei)
其中,A为舆情实体,Ei为命中实体,S(A,Ei)表示舆情实体A与命中实体Ei之间的相似度。这里,相似度可以通过舆情实体和命中实体的嵌入向量之间的向量距离来表示。
在一些实施例中,例如可以使用图嵌入法(Graph Embedding Method,GEM),也称为网络表示学习(Network Representation Learning,NRL),将企业知识图谱中的每个实体使用低维、稠密、实值的嵌入向量表达来获取整个企业知识图谱的嵌入矩阵。根据该嵌入矩阵可以查找输入的每个实体的向量表达,然后使用诸如余弦相似度、皮尔森相关系数、KL散度、Jaccard相似系数之类的相似度量来获取输入的实体之间的相似度。
在方框340,计算设备20可以基于方框320所确定的直接关系风险值和关联风险值以及方框330所确定的间接关系风险值确定该新闻文本对该企业的风险值。
在一些实施例中,不考虑直接关系风险值、间接关系风险值和关联风险值对企业的舆情风险的影响的不同,可以将直接关系风险值、间接关系风险值和关联风险值直接相加来获得该新闻文本对该企业的风险值。
在另一些实施例中,考虑到直接关系风险值、间接关系风险值和关联风险值对企业的舆情风险的影响的不同,为直接关系风险值、间接关系风险值和关联风险值分别设置不同的权重值,并且对它们加权求和来获得该新闻文本对该企业的风险值。例如,该企业的风险值可以表示为:
R=λpath*Rpath+λsim*Rsim+λtag*Rtag
其中,λpath、λsim和λtag分别是直接关系风险值、间接关系风险值和关联风险值的权重值,它们可以根据经验设置或者通过实验确定。
图4A示出了根据本公开一些实施例的用于确定舆情事件的事件风险值的方法400的流程图。
如图4A中所示,在方框410,计算设备20可以建立舆情事件模型。舆情事件模型可以至少用于识别事件类型、与每种事件类型相对应的事件触发词和事件元素。这里,可以针对该企业或者感兴趣的任何企业建立该舆情事件模型。舆情事件是指新闻文本(或舆情)的事件表示。舆情事件至少包括触发词和事件元素。其中,触发词是用于触发该舆情事件的词语,可以清晰表达事件的发生,通常是名词或动词,事件元素是事件中涉及的信息,与事件表示方法有关。
此外,在一些实施例中,除了触发词和事件元素之外,舆情事件还可以包括事件类型、事件元素角色和事件描述句中的至少一种。事件类型用于指示该舆情事件的类型,事件元素角色可以指示每个事件元素在该舆情事件中扮演的角色,事件描述句是用于描述该舆情事件的一句话,通常包含触发词和事件元素。
这里,舆情事件模型是针对该企业所建立的,其中的舆情事件以及舆情事件所包含的事件类型、触发词、事件元素、事件元素角色、事件描述句等具有与该企业相关的值。例如,下面的表1列出了食品类企业关注的舆情事件类型以及对应的触发词(列表)。
表1
在方框420,计算设备20可以利用该舆情事件模型从该新闻文本中识别舆情事件。
图4B示出了根据本公开一些实施例的识别舆情事件的方框420的更详细流程图。
如图4B所示,方框420可以进一步包括方框422,其中计算设备20可以确定该新闻文本的事件表示方式。事件表示方式可以包括标题式事件表示、中心事件表示、事件抽取表示和事件语义表示中的任一种。
在方框424,计算设备20可以基于该事件表示方式,利用为该企业建立的舆情事件模型从该新闻文本中识别出舆情事件。这里,利用该舆情事件模型从新闻文本中识别出舆情事件可以是通过舆情事件的触发词和事件元素从该新闻文本中识别的。本领域技术人员可以理解,本发明并不局限于此,还可以基于人工智能算法或者机器学习算法等来构建该舆情事件模型,以对舆情事件进行识别。并且,对于标题式事件表示,可以从该新闻文本的标题中识别该舆情事件,对于中心事件表示,可以从该新闻文本的标题和正文中提取出核心词,并且从这些核心词归纳出该舆情事件,对于事件抽取表示,可以从该新闻文本中提取触发词、基于触发词寻找相应的论元并归纳出舆情事件,对于事件语义表示,可以在事件抽取表示归纳出事件之后将该事件变换为向量表示,并进行事件融合以得到舆情事件。
在方框426,计算设备20可以为方框424所识别出的舆情事件生成短文本舆情事件表示。这里,短文本舆情事件表示是指以短文本的方式表示所识别的舆情事件。本领域技术人员可以理解,这里的短文本是相对于长文本而言的,可以根据应用场景而不同,例如可以在几十个到几百个字符的范围内。
例如,对于标题式事件表示,可以对新闻文本做一些文本预处理,如繁简转换、分词、去除停用词等,以生成舆情事件的短文本表示。对于中心事件表示,可以对新闻文本使用诸如图6B所示的主题分类模型650,以获取该舆情事件的短文本表示。
继续图4A,在方框430,计算设备20可以利用事件风险模型确定该舆情事件的事件风险值。
图4C示出了根据本公开一些实施例的利用事件风险模型确定舆情事件的事件风险值的方框430的更详细流程图。
如图4C所示,方框430可以进一步包括方框432,其中计算设备20可以构建与该企业相关联的历史事件库。该历史事件库可以包含存在感兴趣的风险类型的多个历史事件,每个历史事件基于该舆情事件模型构建。
在方框434,计算设备20可以对该历史事件库中的每个历史事件标注风险值,该风险值指示该历史事件的风险程度。
在方框436,计算设备20可以利用带有风险值的历史事件对事件风险模型进行训练以产生经训练的事件风险模型。
在方框438,计算设备20可以将方框420所识别的舆情事件输入经训练的事件风险模型以确定该舆情事件的事件风险值。
在一些实施例中,事件风险模型可以基于KNN(K-Nearest Neighbor,K近邻)模型构建。KNN模型是一种传统模型,其分类原理是对于任意一个新的样本,将其分类为与该样本距离最近的K个样本中类别最多的那个类别。这里,通过利用历史事件库中的特征词事件的出现频率将事件风险标注为不同级别的类,并且通过确定新闻文本对应的舆情事件处于哪个类别来确定相应的事件风险值。当然,本领域技术人员可以理解,本发明中的事件风险模型也可以基于其他适当的机器学习模型构建。
具体地,在方框436对该事件风险模型进行训练可以包括:基于每个历史事件的事件类型、事件触发词和事件元素构建该历史事件的特征词集合;确定为该历史事件库中的多个历史事件构建的多个特征词集合的出现频次;从多个特征词集合中选择出现频次最高的若干个特征词集合,并且确定所选择的每个特征词集合的平均词向量;最后,基于该平均词向量确定事件风险模型的参数以得到训练后的事件风险模型。
在这种情况下,在方框438确定所识别的舆情事件的事件风险值可以包括:基于该舆情事件的事件类型、事件触发词和事件元素构建该舆情事件的特征词集合;确定该特征词集合的平均词向量;将该平均词向量与该事件风险模型的参数中的多个平均词向量进行比较以确定最接近的平均词向量;基于该最接近的平均词向量确定该舆情事件的事件风险值。也就是说,最接近的平均词向量所对应的特征词集合所对应的历史事件的风险值可以被认为是该舆情事件的风险值。
利用图4A至4C所示的确定舆情事件的事件风险值的方法,可以将获取的新闻文本构建为一个整体的舆情事件,并且事件风险模型确定当前的新闻文本与历史舆情事件之间的关联关系,从而相应地确定整体的事件风险值。
图5A示出了根据本公开的实施例的利用情感分类模型确定新闻文本的情感极性的方法500的流程图。
如图5A中所示,方法500可以包括方框510,其中计算设备20可以构建与该企业相关联的情感训练文本集合。该情感训练文本集合包含多个情感训练文本,每个情感训练文本包括与该企业相关联的新闻文本。
在方框520,计算设备20可以对该情感训练文本集合中的每个情感训练文本标注情感极性。这里,以三分类情感极性为例,所标注的情感极性可以指示相应的情感训练文本具有正面情感、负面情感或者中性情感。
在方框530,计算设备20可以利用该情感训练文本和所标注的情感极性对该情感分类模型进行训练以产生经训练的情感分类模型。
在方框540,计算设备20可以将当前的新闻文本输入经训练的情感分类模型以确定该新闻文本的情感极性。
在一些实施例中,情感分类模型可以基于BERT(Bidirectional EncoderRepresentation from Transformers,基于转换器的双向编码表征)模型构建。图5B示出了根据本公开的实施例的情感分类模型550的结构示意图。如图5B所示,该情感分类模型550可以包括嵌入层551、编码层552、池化层553和输出层554。此外,在嵌入层551之前还可以包括数据预处理过程,用于产生输入给嵌入层的文本标识序列,如下所述。当然,本领域技术人员可以理解,本发明中的情感分类模型也可以基于其他适当的机器学习模型构建。
更具体地,在方框530中对该情感分类模型550进行训练可以进一步包括:对该情感训练文本所包含的文本数据进行过滤,例如进行繁简体转换、特殊词处理和/或站内预定标签格式过滤等。然后,对经过滤的文本数据进行分词,并且将分词后的文本数据映射为文本标识序列,其中每个文本标识序列包括一个或多个离散编码向量。这里,文本标识序列例如可以利用BERT模型的专用标记器(tokenizer)来生成,这里不再赘述。文本标识序列可以包括标记编码、位置编码、句子位置编码和注意力掩码。标记编码用于指示文本标识序列中每个标记转换的编码向量,位置编码指示每个标记的位置,句子位置编码指示每个标记属于哪个句子(例如“0”指示当前标记属于第一个句子,“1”指示当前标识属于第二个句子等)。注意力掩码指示当前标记是否是填充的(例如,“1”指示当前标记是非填充的,“0”指示当前标记是填充的)。通过将情感训练文本转换成文本标识序列,实现了训练前的数据预处理过程。
所生成的文本标识序列被输入到该情感分类模型550的嵌入层551,以将该文本标识序列转换成连续的嵌入向量。然后,在该情感分类模型550的编码层552,对嵌入层输出的嵌入向量进行编码以生成该嵌入向量的上下文表示。编码层552可以提取嵌入层551输出的嵌入向量的输出特征,并且可以由多个结构相同但参数不同的隐藏层串连而成。每个隐藏层例如包括线性变换、激活函数、多头自注意力和跳跃连接(skip connection)。
然后,在情感分类模型550的池化层553,可以利用注意力函数生成嵌入向量的句子级别特征向量;并且在输出层554产生该句子级别特征向量的质量概率分布以作为情感训练文本的输出向量。例如,可以利用Softmax模型来获取该质量概率分布。情感分类模型的模型收敛参数可以基于该情感训练文本的输出向量、所标注的情感极性和损失函数来确定。例如,可以使用前向传播算法或者反向传播算法来对情感分类模型的各个层的权重函数进行更新以得到稳定的模型参数。
在一些实施例中,在方框520中可以基于风险词词典来对情感训练文本进行标注。具体地,可以在情感训练文本中查找风险词词典中的风险词。这里,风险词词典可以是预先设置的表示本行业内的存在风险或者负面影响的词(即风险词)的集合。如果在情感训练文本中查找到风险词,可以基于依存句法规则确定该风险词关联的语义。依存句法规则是指词与词之间的依存关系,例如如果一个词修饰另一个词,则修饰词被认为是从属词,被修饰词被称为支配词,这二者之间的关系称为依存关系,通常,被修饰词与修饰词相结合才能真正确定被修饰词在文章中的真正语义。然后,可以基于所确定的风险词关联的语义对该情感训练文本进行标注。例如,标注为正面情感、中性情感或者负面情感。
在使用BERT模型构建该情感分类模型550的情况下,在方框540中确定该新闻文本的情感极性可以包括:对该新闻文本所包含的文本数据进行过滤,例如进行繁简体转换、特殊词处理和/或站内预定标签格式过滤等。然后,对经过滤的文本数据进行分词,并且将分词后的文本数据映射为文本标识序列,其中每个文本标识序列包括一个或多个离散编码向量。
所生成的文本标识序列被输入该情感分类模型550的嵌入层551,以将该文本标识序列转换成连续的嵌入向量。然后,在该情感分类模型550的编码层552对嵌入层551输出的嵌入向量进行编码以生成该嵌入向量的上下文表示。
然后,在情感分类模型550的池化层553,可以利用注意力函数生成该嵌入向量的句子级别特征向量,并且在输出层554利用Softmax模型产生该句子级别特征向量的质量概率分布。这里,得到的质量概率分布指示该新闻文本处于不同情感极性的概率。因此,可以选择质量概率分布中概率最高的情感极性作为该新闻文本的情感极性。
利用图5A所示的利用情感分类模型550确定新闻文本的情感极性的方法,可以从整体分析新闻文本的情感,从而可以基于新闻文本的整体情感来对该新闻文本所代表的舆情对企业产生的风险情况进行评估。
以上虽然结合图5A以BERT模型为例对根据本公开的情感分类模型进行了描述,然而本领域技术人员可以理解,本公开并不局限于此,还可以使用诸如TextCNN、Attention-BILSTM之类的深度学习模型来构建实现全文级别情感分类的情感分类模型。
此外,在一些实施例中,还可以构建实现实体级别的情感分类(例如在结合图6A至6E的方法600所述的实体识别之后)。实体级别的情感分类模型与结合图5B所述的全文级别的情感分类模型550可以采用相同的模型结构,而使用不同的训练样本。
图6A示出了根据本公开的实施例的确定新闻文本的主题类别的方法600的流程图。图6B示出了根据本公开的实施例的主题分类模型650的结构示意图。如图6B所示,主题分类模型650可以包括主题抽取层651和主题聚类层652。在一些实施例中,主题分类模型650还可以包括主题描述层653。
如图6A中所示,在方框610,在主题抽取层651,计算设备20可以利用双词话题模型(Biterm Topic Model,BTM)确定该新闻文本的标题在预定主题集合中的概率分布以及在该预定主题集合中的每个主题中,该标题中的各个单词的概率分布。
BTM模型可以通过建模文档集合中双词的产生来学习主题。这里,双词指的是在同一个上下文中共现的词对,两个词共现的次数越多,其语义越相关,也就越可能属于同一主题。根据这一认识,假设每个双词由同一个主题产生,而主题从一个定义在整个语料集合上的主题混合分布产生。在抽取的过程中,可以去掉低频词、停用词等。此外,还可以限制两个词之间的距离。例如,对于短文本,两个词之间的距离可以任意,对于长文本,两个词的距离通常选择在30-60之间。
图6C示出了根据本公开一些实施例的确定标题中的各个单词的概率分布的方框610的更详细流程图。
如图6C所示,方框610可以进一步包括方框612,其中计算设备20可以对该新闻文本的标题进行分词以得到该标题的多个单词。
在方框614,计算设备20可以将多个单词中的两个单词组织为一个双词对并对该双词对赋予预定主题集合中的一个主题。这里,预定主题集合例如可以包括根据历史新闻文本确定的多个主题类别。
在方框616,计算设备20可以确定多个单词构成的所有双词对的主题的概率分布。
在方框618,计算设备20可以基于每个双词对的主题的概率分布确定该双词对中的每个单词的概率分布。
继续图6A,在方框620,在主题聚类层652,计算设备20可以基于该新闻文本的标题在预定主题集合中的概率分布,利用聚类算法确定该新闻文本的主题类别。在一些实施例中,所使用的聚类算法可以是Xmeans算法,该算法不需要指定聚类的数量,而是根据聚类的质量指标迭代选择最优的簇数。
图6D示出了根据本公开一些实施例的利用聚类算法确定新闻文本的主题类别的方框620的更详细流程图。
如图6D所示,方框620可以进一步包括方框622,其中计算设备20可以将新闻标题聚类为多个簇。例如,可以利用Xmeans算法对新闻标题进行聚类。
在方框624,计算设备20可以利用实体模型识别新闻文本中的提及实体。这里,利用实体模型识别新闻文本中的提及实体的方法例如可以是如下参考图7A至7F所示的方法700,但是本公开并不局限于此。
然后,在方框626,计算设备20可以基于该新闻文本中的提及实体对多个簇进行相似聚类合并以确定所述新闻文本的主题类别。这里,相似聚类合并是指将提及实体分布数量较多的簇合并为一个簇。在一些实现中,可以统计提及实体在各个簇中的数量,确定每个簇中的核心实体(例如数量大于某个数量阈值的提及实体),并且将重叠度高于某个阈值的簇合并为一个簇,作为对该新闻文本中的提及实体的相似聚类合并的结果。
继续图6A,在方框630,在主题描述层653,计算设备20可以从该新闻文本中选择中心关键词以构成该新闻文本的主题描述。这样,得到的主题描述既能够实际体现该新闻文本的主题,又有较好的文字展示形式,便于阅读,提高了用户体验。
图6E示出了根据本公开一些实施例的确定新闻文本的主题表述的方框630的更详细流程图。
如图6E所示,方框630可以进一步包括方框632,其中计算设备20可以对该新闻文本进行摘要抽取。例如,在一些实施例中,计算设备20可以利用TextRank算法来进行摘要抽取。
在方框634,计算设备20可以基于该新闻文本中的提及实体和该新闻文本的字数,从该摘要中选择中心关键词作为主题的描述。
此外,图6A至6E所示的方法600还可以包括历史主题合并过程,其用于基于相似度对历史主题进行合并以避免上述预定主题集合过于庞大或分散。
更具体地,历史主题合并过程可以包括获取该预定主题集合中的多个历史主题描述,即预定主题集合中的多个主题的主题描述。然后,可以对所获取的多个历史主题描述进行文本相似度计算以确定这些历史主题描述彼此之间的文本相似度。例如,可以利用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率)来计算两个历史主题描述之间的余弦相似度作为该文本相似度。在确定了这些历史主题描述彼此之间的文本相似度之后,可以基于这些文本相似度合并该预定主题集合中的主题以更新该预定主题集合。例如,可以将文本相似度与预定的相似度阈值进行比较,并且将文本相似度小于该相似度阈值的两个历史主题合并为一个主题。
利用图6A至6E所示的利用主题分类模型确定新闻文本的主题类别的方法,可以根据该新闻文本的主题类别是否属于特定风险主题集合来对该新闻文本对企业产生的风险情况进行评估。此外,该新闻文本的主题类别可以作为该新闻文本所代表的舆情实体的属性之一,从而便于进一步将舆情实体与企业知识图谱中的实体之间进行关联。
图7A示出了根据本公开的实施例的利用实体模型识别新闻文本中的提及实体的方法700的流程图。
如图7A中所示,方法700可以包括方框710,其中计算设备20可以构建该企业的企业知识图谱。企业知识图谱例如如图8A所示,如前所述,该企业知识图谱810可以包括指示该企业的业务要素的多个实体E1-E9、每个实体的实体属性和各个实体之间的实体关系(在图8A至以实体之间的连线表示)。
这里,企业知识图谱可以基于该企业所属行业的行业知识图谱而构建。图8B示出了根据本公开实施例的行业知识图谱820的示意图。
在这种情况下,方框710可以进一步包括:基于该企业所属行业的行业特点构建行业知识图谱820。该行业知识图谱包括指示该行业的各个业务要素的实体集合{E1}-{E9}、每个实体的实体属性集合和各个实体之间的实体关系集合。
例如,对于食品行业来说,其关注食品品类、产品、食品材料、配料、企业、药品、下属单位、品牌、营养素等业务要素,因此可以为这些业务要素构建如图8B所示的行业知识图谱820,例如,其中{E1}是表示品牌的实体集合,{E2}是表示产品的实体集合,{E3}是表示食品品类的实体集合,{E4}是表示配料的实体集合,{E5}是表示营养素的实体集合,{E7}是表示企业的实体集合,{E6}是表示企业的下属单位的实体集合,{E8}是表示药品的实体集合,{E9}是表示食品材料的实体集合。各种实体与其对应的属性集合例如如下表2所示。
表2
实体之间的关系例如如下表3所示。
表3
在构建了行业知识图谱820之后,可以基于目标企业的业务数据和该行业知识图谱820构建该企业的企业知识图谱810。例如,可以选择行业知识图谱820中的实体集合{E7}中的一个具体名称作为该企业知识图谱810中的实体E7,并且建立实体E7与实体E8之间的关系为“企业供应药品”,实体E7与实体E9之间的关系为“企业供应食品材料”。
此外,如前所述,企业知识图谱810还可以包括该新闻文本所对应的舆情实体和从该新闻文本中识别的提及实体。具体地,可以为该新闻文本构建舆情实体,该舆情实体的属性包括该新闻文本的主题类别和情感极性,并且将该舆情实体和从该新闻文本中识别的提及实体加入该企业知识图谱810,如图8A中所示。舆情实体例如如下表4所示,其中舆情实体的属性可以包括该新闻文本的主题类别和情感极性。
表4
此外,在存在多个新闻文本的情况下,还可以构建各个新闻文本所对应的舆情实体之间的相似关系。例如,可以确定该舆情实体与已有的舆情实体之间的向量距离,并且在该向量距离低于某个阈值时认为这两个舆情实体是相似的,从而构建这两个舆情实体之间的关系为相似。例如,表5示出了具有相似关系的两个舆情实体。
表5
关系 | 实体 |
相似 | 舆情实体1,舆情实体2 |
这里,如前所述,确定该新闻文本的主题类别的方法例如可以是结合图6A至6E所描述的方法600,确定新闻文本的情感极性的方法例如可以是结合图5所描述的方法500。此外,从新闻文本中识别提及实体的方法例如可以是如下结合图7B至7E和方框720所详细描述的。
在方框720,计算设备20可以利用实体模型从该新闻文本中识别一个或多个提及实体、每个提及实体的属性和各个提及实体之间的实体关系。这里,提及实体的说明和属性例如如上述表2所示,各个提及实体之间的实体关系例如如上述表3所示。对实体和实体关系的识别可以包括串行方式或者联合识别方式。对于前者来说,实体模型可以包括串行的两个模型,即实体识别模型和实体关系模型,可以先从文本中识别出实体,然后再识别出实体对之间的实体关系。以串行方式进行实体和实体关系识别的方法例如结合如下图7B所详细示出的。对于后者来说,可以对实体和实体之间的关系进行联合抽取。对于联合抽取方式来说,又进一步可以包括基于参数共享的联合抽取和基于联合解码的实体关系联合抽取。基于参数共享的联合抽取方法例如结合如下图7C所详细示出的。
在方框730,计算设备20可以确定方框720所识别的提及实体与企业知识图谱中的多个实体(如企业知识图谱810中的实体E1-E9)之间的实体距离。确定该实体距离的过程例如可以参考如下图7F所详述的。
在方框740,计算设备20可以基于该实体距离确定该提及实体命中该企业知识图谱810。具体地,计算设备20可以确定方框730计算的实体距离是否小于预定距离阈值,并且在该实体距离小于该预定距离阈值时,确定该提及实体命中该企业知识图谱810中的实体。在这种情况下,企业知识图谱810中被命中的实体也被称为命中实体。
图7B示出了根据本公开一些实施例的利用实体模型从新闻文本中识别提及实体和实体关系的方框720的进一步详细流程图。在图7B所示的实施例中,实体模型包括串行的实体识别模型和实体关系模型,二者以流水线方式工作,首先利用实体识别模型从新闻文本中识别提及实体,然后利用实体关系模型确定所识别的提及实体之间的实体关系。
如图7B所示,方框720可以包括方框721,其中计算设备20可以对训练文本中的实体和实体之间的实体关系进行标注。这里,训练文本可以是历史新闻文本库中的历史新闻文本。其中,可以对需要关注的实体,例如与食品安全的风险预警有关的实体进行标注,并且标注这些需要关注的实体之间的实体关系,例如基于表3所示的实体关系中的至少一部分,对训练文本中的实体关系进行标注。即,可以在训练文本设置实体标签和实体关系标签二者。此外,还可以根据关注点对实体属性进行选择,例如从表2所示的实体属性中选择所关注的属性,并且对实体的属性进行标注。进一步地,在一些实施例中,还可以对实体级别的情感极性进行标注。
在方框722,计算设备20可以利用标注后的训练文本对该实体识别模型进行训练以产生训练后的实体识别模型。
在方框723,计算设备20可以利用标注后的训练文本对该实体关系模型进行训练以产生训练后的实体关系模型。这样,通过分别对训练文本中的实体和实体关系进行标注,利用训练文本得到了训练后的实体识别模型和实体关系模型。
在方框724,计算设备20可以利用训练后的实体识别模型从待识别的新闻文本中识别一个或多个提及实体和每个提及实体的属性。
取决于所标注的实体标签不同,训练后的实体识别模型可以识别的实体的内容也不同。例如,对实体标注的内容通常包括位置和类型,因此训练后的实体识别模型能够识别的提及实体的内容通常还包括提及实体的位置和类型。
在方框725,计算设备20可以利用该训练后的实体关系模型和方框724中从该新闻文本中识别的一个或多个提及实体,确定各个提及实体之间的实体关系。这里,取决于所标注的实体关系标签不同,训练后的实体关系模型可以识别的实体关系也不同。例如,如果仅仅对如表3所示的企业与下属单位之间的实体关系进行标注,则训练后的实体关系模型也仅能够识别提及实体是企业和下属单位的情况下二者之间的关系。
此外,在一些实施例中,例如在冷启动时,可以直接利用关键词词典来识别新闻文本中的提及实体。例如,可以通过字符串匹配方法,直接从新闻文本中查找企业预先设置的关键词。
图7C示出了根据本公开另一些实施例的利用实体模型从新闻文本中识别提及实体和实体关系的方框720的进一步详细流程图。在图7C所示的实施例中,实体模型包括实体和实体关系的联合识别模型。从任务完成的角度来看,联合识别模型仍然要完成实体识别和实体关系识别两个任务,即涉及到两个子模型。不同之处在于,在联合识别模型中,两个子模型的至少一部分可以共享。例如,可以是基于参数共享的实体关系抽取或者基于联合解码的实体关系抽取。
如图7C中所示,方框720可以包括方框721',其中计算设备20可以对训练文本中的实体以及实体之间的实体关系进行标注。
类似地,训练文本可以是历史新闻文本库中的历史新闻文本。其中,可以对需要关注的实体,例如与食品安全的风险预警有关的实体进行标注。此外,还可以根据关注点对实体属性进行选择,例如从表2所示的实体属性中选择所关注的属性,并且对实体的属性进行标注,并且可以基于表3所示的实体关系中的至少一部分,对训练文本中的实体关系进行标注。进一步地,在一些实施例中,还可以对实体级别的情感极性进行标注。
在方框722',计算设备20可以利用标注后的训练文本对该联合识别模型进行训练以产生训练后的联合识别模型。
在方框723',计算设备20可以利用训练后的联合识别模型从该新闻文本中识别一个或多个提及实体和每个提及实体的属性以及各个提及实体之间的实体关系。
在一些实施例中,该联合识别模型是基于参数共享的实体和关系联合识别模型。图7D示出了根据本公开实施例的基于参数共享的实体和关系联合识别模型750的结构示意图。图7E示出了根据本公开一些实施例的利用标注后的训练文本对该联合识别模型750进行训练的方框722'的详细流程图。如图7D所示,该基于参数共享的实体和关系联合识别模型750可以包括嵌入层751、共享编码层752、实体解码层753、关系解码层754和损失函数层755。
如图7E中所示,方框722'还包括方框7221',其中计算设备20可以将该标注后的训练文本输入嵌入层751以转化为嵌入向量。
在方框7222',计算设备20可以在共享编码层752利用上下文模型从方框7221'得到的嵌入向量中提取该训练文本的语义编码。这里,该语义编码可以包含该训练文本的语法和句法特征。
在方框7223',计算设备20可以在实体解码层753,根据方框7222'得到的语义编码计算该训练文本的实体标签类别的得分分布。
在方框7224',计算设备20可以在关系解码层754,根据方框7222'得到的语义编码计算该训练文本的关系标签类别的得分分布。
在方框7225',计算设备20可以在损失函数层755,利用交叉熵函数,分别基于该训练文本的实体标签类别的得分分布、关系标签类别的得分分布和真实分布,确定损失值。
在方框7226',计算设备20可以基于方框7225'确定的损失值对该联合识别模型750进行迭代优化,以得到训练后的联合识别模型。这里,可以使用后向传播算法来更新联合识别模型750的模型参数,以实现实体解码层753和关系解码层754的依赖。
在一些实施例中,该共享编码层752可以包括双向LSTM模型,该实体解码层753可以包括LSTM模型,该关系解码层754可以包括CNN模型。也就是说,该联合识别模型750是基于LSTM和CNN的联合识别模型。
利用该联合识别模型750,通过将输入文本通过共享编码层编码,然后使用LSTM模型和CNN模型分别进行实体识别和实体关系分类,解决了实体识别中的标签依赖问题,并且在模型迭代优化时使用后向传播算法来更新共享参数以实现两个子任务之间的依赖。
图7F示出了根据本公开实施例的用于确定实体距离的方框730的更详细的流程图。
如图7F所示,方框730可以包括方框732,其中计算设备20可以基于方框720所确定的提及实体的实体名称和该企业知识图谱中的一个实体的实体名称确定一个词向量作为实体名称距离。例如,如图8A中所示,可以将提及实体A1与企业知识图谱810中的实体E2分别表示为词向量VA1和VE2(该词向量可以是去除非关键字符之后的词向量)。然后,可以将这两个实体之间的实体名称距离表示为D1=||VA1-VE2||。
在方框734,计算设备20可以基于该提及实体的每个属性和该企业知识图谱中的一个实体的多个属性确定多个词向量作为实体属性距离。例如,如图8A中所示,可以将提及实体A1的属性与企业知识图谱810中的实体E2的属性分别表示为多个词向量VA1_i和VE2_i。然后,可以将这两个实体之间的实体属性距离表示为
在方框736,计算设备20可以基于该实体名称距离D1和实体属性距离D2确定该提及实体A1与企业知识图谱810中的实体E2之间的实体距离。在一些实施例中,实体距离D=D1+D2。
在另一些实施例中,实体距离D=α1*D1+α2*D2,其中α1和α2是经验权重值。
利用如图7A至7F所示的方法700,通过利用实体模型对新闻文本中的实体进行识别,并且确定所识别的实体命中企业知识图谱中的实体,能够从实体层面确定该新闻文本对该企业造成舆情风险。
图9示出了适合实现本公开的实施例的计算设备900的结构方框图。计算设备900例如可以是如上所述的计算设备20。
如图9中所示,计算设备900可以包括一个或多个中央处理单元(CPU)910(图中仅示意性地示出了一个),其可以根据存储在只读存储器(ROM)920中的计算机程序指令或者从存储单元980加载到随机访问存储器(RAM)930中的计算机程序指令,来执行各种适当的动作和处理。在RAM 930中,还可存储计算设备900操作所需的各种程序和数据。CPU 910、ROM 920以及RAM 930通过总线940彼此相连。输入/输出(I/O)接口950也连接至总线940。
计算设备900中的多个部件连接至I/O接口950,包括:输入单元960,例如键盘、鼠标等;输出单元970,例如各种类型的显示器、扬声器等;存储单元980,例如磁盘、光盘等;以及通信单元990,例如网卡、调制解调器、无线通信收发机等。通信单元990允许计算设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的方法200至700例如可由计算设备900的CPU 910执行。例如,在一些实施例中,方法200至700可被实现为计算机软件程序,其被有形地包括于机器可读介质,例如存储单元980。在一些实施例中,计算机程序的部分或者全部可以经由ROM 920和/或通信单元990而被载入和/或安装到计算设备900上。当计算机程序被加载到RAM 930并由CPU910执行时,可以执行上文描述的方法200至700的一个或多个操作。此外,通信单元990可以支持有线或无线通信功能。
本领域技术人员可以理解,图9所示的计算设备900仅是示意性的。在一些实施例中,计算设备20可以包含比计算设备900更多或更少的部件。
以上结合附图对根据本公开的基于新闻文本进行企业风险评估的方法200和300以及这些方法中的一部分的具体实现方法400至700以及可用作计算设备20的计算设备900进行了描述。然而本领域技术人员可以理解,方法200至700的步骤及其子步骤的执行并不局限于图中所示和以上所述的顺序,而是可以以任何其他合理的顺序来执行。此外,计算设备900也不必须包括图9中所示的所有组件,其可以仅仅包括执行本公开中所述的功能所必须的其中一些组件,并且这些组件的连接方式也不局限于图中所示的形式。
本公开可以是方法、装置、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
在一个或多个示例性设计中,可以用硬件、软件、固件或它们的任意组合来实现本公开所述的功能。例如,如果用软件来实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上,或者作为计算机可读介质上的一个或多个指令或代码来传输。
本文公开的装置的各个单元可以使用分立硬件组件来实现,也可以集成地实现在一个硬件组件,如处理器上。例如,可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑、分立硬件组件或用于执行本文所述的功能的任意组合来实现或执行结合本公开所描述的各种示例性的逻辑块、模块和电路。
本领域普通技术人员还应当理解,结合本公开的实施例描述的各种示例性的逻辑块、模块、电路和算法步骤可以实现成电子硬件、计算机软件或二者的组合。
本公开的以上描述用于使本领域的任何普通技术人员能够实现或使用本公开。对于本领域普通技术人员来说,本公开的各种修改都是显而易见的,并且本文定义的一般性原理也可以在不脱离本公开的精神和保护范围的情况下应用于其它变形。因此,本公开并不限于本文所述的实例和设计,而是与本文公开的原理和新颖性特性的最广范围相一致。
Claims (20)
1.一种基于新闻文本进行企业风险评估的方法,包括:
为所述新闻文本构建舆情实体,所述舆情实体的属性包括所述新闻文本的主题类别和情感极性;
基于所述舆情实体和所述企业的企业知识图谱确定所述新闻文本对所述企业的直接关系风险值和关联风险值;
基于所述企业知识图谱和历史新闻文本集合确定所述新闻文本对所述企业的间接关系风险值;以及
基于所述直接关系风险值、间接关系风险值和关联风险值确定所述新闻文本对所述企业的风险值。
2.如权利要求1所述的方法,其中基于所述舆情实体和所述企业的企业知识图谱确定所述新闻文本对所述企业的直接关系风险值包括:
利用实体模型识别所述新闻文本中的提及实体;
确定所述提及实体在所述企业的企业知识图谱中的命中实体;以及
基于所述企业知识图谱确定所述舆情实体和所述命中实体之间的直接关系风险值。
3.如权利要求2所述的方法,其中确定所述直接关系风险值包括:
基于所述舆情实体和所述命中实体之间的总路径数确定所述直接关系风险值。
4.如权利要求2所述的方法,其中确定所述直接关系风险值包括:
基于所述舆情实体和所述命中实体之间的预定距离内的总路径数确定所述直接关系风险值。
5.如权利要求1所述的方法,其中基于所述舆情实体和所述企业的企业知识图谱确定所述新闻文本对所述企业的关联风险值包括:
基于标签传播算法,从所述企业知识图谱中确定与所述舆情实体相关联的关注实体,并且为每个关注实体标注风险值;以及
基于所述关注实体的风险值确定所述舆情实体的关联风险值。
6.如权利要求1所述的方法,其中基于所述企业知识图谱和历史新闻文本集合确定所述新闻文本对所述企业的间接关系风险值包括:
从历史新闻文本集合中确定与所述新闻文本的舆情实体相似的多个历史舆情实体;以及
基于所述企业知识图谱确定所述多个历史舆情实体和所述新闻文本在所述企业知识图谱中的命中实体之间的间接关系风险值。
7.如权利要求6所述的方法,其中确定所述间接关系风险值包括:
基于所述舆情实体和所述命中实体之间的相似度确定所述间接关系风险值。
8.如权利要求1所述的方法,还包括:
利用实体模型识别所述新闻文本中的实体并且确定所识别的实体在所述企业的企业知识图谱中的命中实体;
基于所述企业知识图谱确定所述舆情实体和所述命中实体之间的直接关系风险值。
9.如权利要求1所述的方法,其中为所述新闻文本构建舆情实体包括:
利用情感分类模型确定所述新闻文本的情感极性,所述情感极性指示正面情感、负面情感还是中性情感。
10.如权利要求9所述的方法,还包括:
构建与所述企业相关联的情感训练文本集合,所述情感训练文本集合包含多个情感训练文本,每个情感训练文本包括与所述企业相关联的新闻文本;
对所述情感训练文本集合中的每个情感训练文本标注情感极性;
利用所述情感训练文本和所标注的情感极性对所述情感分类模型进行训练以产生经训练的情感分类模型;以及
将所述新闻文本输入经训练的情感分类模型以确定所述新闻文本的情感极性。
11.如权利要求10所述的方法,其中将所述新闻文本输入经训练的情感分类模型以确定所述新闻文本的情感极性包括:
对所述新闻文本所包含的文本数据进行过滤;
对经过滤的文本数据进行分词,并且将分词后的文本数据映射为文本标识序列,其中每个文本标识序列包括一个或多个离散编码向量;
将所生成的文本标识序列输入所述情感分类模型的嵌入层,以将所述文本标识序列转换成连续的嵌入向量;
在所述情感分类模型的编码层对所述嵌入层输出的嵌入向量进行编码以生成所述嵌入向量的上下文表示;
在所述情感分类模型的池化层利用注意力函数生成所述嵌入向量的句子级别特征向量;
产生所述句子级别特征向量的质量概率分布,所述质量概率分布指示所述新闻文本处于不同情感极性的概率;以及
选择所述质量概率分布中概率最高的情感极性作为所述新闻文本的情感极性。
12.如权利要求10所述的方法,其中对所述情感训练文本集合中的每个情感训练文本标注情感极性包括:
在所述情感训练文本中查找风险词词典中的风险词;
如果在所述情感训练文本中查找到风险词,基于依存句法规则确定所述风险词关联的语义;以及
基于所述风险词关联的语义对所述情感训练文本进行标注。
13.如权利要求1所述的方法,其中为所述新闻文本构建舆情实体包括:
利用主题分类模型确定所述新闻文本的主题类别。
14.如权利要求13所述的方法,其中所述主题分类模型包括主题抽取层、主题聚类层和主题描述层,并且其中为所述新闻文本构建舆情实体包括:
在所述主题抽取层,利用双词话题模型,确定所述新闻文本的标题在预定主题集合中的概率分布以及在所述预定主题集合中的每个主题中,所述标题中的各个单词的概率分布;
在所述主题聚类层,基于所述新闻文本的标题在预定主题集合中的概率分布,利用聚类算法确定所述新闻文本的主题类别;以及
在所述主题描述层,从所述新闻文本中选择中心关键词以构成所述新闻文本的主题描述。
15.如权利要求13所述的方法,其中在所述主题抽取层,利用双词话题模型,确定所述新闻文本的标题在预定主题集合中的概率分布以及在所述预定主题集合中的每个主题中,所述标题中的各个单词的概率分布包括:
对所述新闻文本的标题进行分词以得到所述标题的多个单词;
将所述多个单词中的两个单词组织为一个双词对并对该双词对赋予所述预定主题集合中的一个主题;
确定所述多个单词构成的所有双词对的主题的概率分布;
基于每个双词对的主题的概率分布确定所述双词对中的每个单词的概率分布。
16.如权利要求13所述的方法,其中在所述主题聚类层,基于所述新闻文本的标题在预定主题集合中的概率分布,利用聚类算法确定所述新闻文本的主题类别包括:
将新闻标题聚类为多个簇;
利用实体模型识别所述新闻文本中的提及实体;以及
基于所述新闻文本中的提及实体对所述多个簇进行相似聚类合并以确定所述新闻文本的主题类别。
17.如权利要求13所述的方法,其中在所述主题描述层,从所述新闻文本中选择中心关键词以构成所述新闻文本的主题描述包括:
对所述新闻文本进行摘要抽取;以及
基于所述新闻文本中的实体和所述新闻文本的字数,从所述摘要中选择中心关键词作为所述主题的描述。
18.如权利要求13所述的方法,还包括:
获取所述预定主题集合中的多个历史主题描述;
对所述多个历史主题描述进行文本相似度计算以确定所述多个历史主题描述彼此之间的文本相似度;以及
基于所述多个历史主题描述彼此之间的文本相似度,合并所述预定主题集合中的主题以更新所述预定主题集合。
19.一种计算设备,包括:
至少一个处理器;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理器并且存储用于由所述至少一个处理器执行的指令,所述指令当由所述至少一个处理器执行时,使得所述计算设备执行根据权利要求1至18中任一项所述的方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序代码,所述计算机程序代码在被运行时执行如权利要求1至18中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210344751.XA CN115017304A (zh) | 2022-03-31 | 2022-03-31 | 基于新闻文本进行企业风险评估的方法、计算设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210344751.XA CN115017304A (zh) | 2022-03-31 | 2022-03-31 | 基于新闻文本进行企业风险评估的方法、计算设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017304A true CN115017304A (zh) | 2022-09-06 |
Family
ID=83066951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210344751.XA Pending CN115017304A (zh) | 2022-03-31 | 2022-03-31 | 基于新闻文本进行企业风险评估的方法、计算设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017304A (zh) |
-
2022
- 2022-03-31 CN CN202210344751.XA patent/CN115017304A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Sentiment analysis of multimodal twitter data | |
Gokulakrishnan et al. | Opinion mining and sentiment analysis on a twitter data stream | |
Hammad et al. | An approach for detecting spam in Arabic opinion reviews | |
Shi et al. | Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’ | |
Bisandu et al. | Clustering news articles using efficient similarity measure and N-grams | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
CN106547875B (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
Lavanya et al. | Twitter sentiment analysis using multi-class SVM | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Raghuvanshi et al. | A brief review on sentiment analysis | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
Nahar et al. | Sentiment analysis and emotion extraction: A review of research paradigm | |
Tang et al. | Evaluation of Chinese sentiment analysis APIs based on online reviews | |
Trisal et al. | K-RCC: A novel approach to reduce the computational complexity of KNN algorithm for detecting human behavior on social networks | |
Santhosh Baboo et al. | Comparison of machine learning techniques on Twitter emotions classification | |
Dai et al. | Research on image of enterprise after-sales service based on text sentiment analysis | |
CN109871429B (zh) | 融合Wikipedia分类及显式语义特征的短文本检索方法 | |
Fergus et al. | Natural language processing | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
Bisio et al. | Sentic computing for social network analysis | |
Wang et al. | Natural language processing systems and Big Data analytics | |
Wadawadagi et al. | A multi-layer approach to opinion polarity classification using augmented semantic tree kernels | |
Saqib et al. | Grouping of aspects into relevant category based on wordnet definitions | |
CN115017304A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20220906 Assignee: Baisheng Consultation (Shanghai) Co.,Ltd. Assignor: Shengdoushi (Shanghai) Technology Development Co.,Ltd. Contract record no.: X2023310000138 Denomination of invention: Method, Computing Equipment, and Media for Enterprise Risk Assessment Based on News Text License type: Common License Record date: 20230714 |
|
EE01 | Entry into force of recordation of patent licensing contract |