CN112860852B - 信息分析方法及装置、电子设备和计算机可读存储介质 - Google Patents

信息分析方法及装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112860852B
CN112860852B CN202110104560.1A CN202110104560A CN112860852B CN 112860852 B CN112860852 B CN 112860852B CN 202110104560 A CN202110104560 A CN 202110104560A CN 112860852 B CN112860852 B CN 112860852B
Authority
CN
China
Prior art keywords
information
event
text
argument
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110104560.1A
Other languages
English (en)
Other versions
CN112860852A (zh
Inventor
刘文强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN202110104560.1A priority Critical patent/CN112860852B/zh
Publication of CN112860852A publication Critical patent/CN112860852A/zh
Application granted granted Critical
Publication of CN112860852B publication Critical patent/CN112860852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例提供了信息分析方法及装置、电子设备和计算机可读存储介质。该方法包括:获取信息文本;基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,得到待分析文本;利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果;其中,所述第一抽取模型预先基于多个第一训练语料训练得到,所述第一训练语料标注有事件标注信息和论元角色标注信息;基于所述预测结果,确定所述信息文本对应的事件信息和论元信息。本公开技术方案能够提高从舆情新闻中提取事件与论元值的准确性。

Description

信息分析方法及装置、电子设备和计算机可读存储介质
技术领域
本公开涉及数据处理技术领域,特别涉及信息分析方法及装置、电子设备和计算机可读存储介质。
背景技术
舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
随着互联网技术的快速发展,网络的开发性和灵活性让其成为反映社会舆情的主要载体之一。通过对企业的舆情新闻进行信息提取和结构化存储,可以让用户方便的获取到其关注企业的全面舆情信息,并且有利于对企业的舆情信息进行析,准确判断企业的发展趋势,还可以进一步生成舆情报告和各种统计报表,以便于决策。
现有技术对企业的舆情新闻进行信息提取时,采用基于事件与论元的流水线(pipeline)方式来提取舆情新闻中的事件与论元值,先识别事件(如收购),识别出事件则抽取相应事件的论元值(如时间、收购物)。在实现本公开的过程中,本发明人通过研究发现,上述基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法,存在误差传导问题,若前面的事件识别不准确,就会导致后续的论元值识别也不准确,从而导致从企业的舆情新闻中提取的信息存在错误。
发明内容
本公开的目的在于提供一种信息分析方法及装置、电子设备和计算机可读存储介质,进而至少在一定程度上提高从舆情新闻中提取事件与论元值的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种信息分析方法,包括:
获取信息文本;
基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,得到待分析文本;
利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果;其中,所述第一抽取模型预先基于多个第一训练语料训练得到,所述第一训练语料标注有事件标注信息和论元角色标注信息;
基于所述预测结果,确定所述信息文本对应的事件信息和论元信息。
可选地,在本公开的示例性实施例中,所述基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,包括:
检测所述信息文本中的触发词;
确定所述触发词对应的事件先验信息;
在所述信息文本前后分别添加所述事件先验信息,或者,在所述信息文本前添加所述事件先验信息,或者,在所述信息文本后添加所述事件先验信息。
可选地,在本公开的示例性实施例中,所述事件先验信息包括:事件类别的先验信息;
所述第一训练语料还标注有触发词标注信息;
所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,包括:
利用所述第一抽取模型,预测所述待分析文本中的事件信息、论元信息和触发词信息,得到预测结果,所述预测结果包括事件类别预测信息、论元角色预测信息和触发词预测信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于事件类别预测信息和所述触发词预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
可选地,在本公开的示例性实施例中,所述事件先验信息包括:事件类型和所述事件类型所属的事件类别的先验信息;
所述预测结果包括事件预测信息和论元角色预测信息;其中,所述事件预测信息包括事件类别预测信息和事件类型预测信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于所述事件类型预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
可选地,在本公开的示例性实施例中,所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,包括:
利用所述第一抽取模型,对所述待分析文本中的事件先验信息进行事件信息的BIO标注,对所述待分析文本中的论元值进行论元信息的BIO标注,得到预测结果,所述预测结果包括携带事件信息的BIO标注信息和论元信息的BIO标注信息的待分析文本;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述待分析文本和所述事件信息的BIO标注信息,确定所述信息文本对应的事件信息;基于所述待分析文本和所述论元信息的BIO标注信息,确定所述信息文本中包括的论元角色和所述论元角色的论元值。
可选地,在本公开的示例性实施例中,所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,还包括:
利用所述第一抽取模型,对所述待分析文本中的触发词进行标注,所述预测结果还包括触发词的BIO标注信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,还包括:
基于所述待分析文本和所述触发词的BIO标注信息,确定所述信息文本中的触发词。
可选地,在本公开的示例性实施例中,所述第一抽取模型包括:预训练语言模型。
可选地,在本公开的示例性实施例中,预先基于多个第一训练语料训练得到所述第一抽取模型,包括:
分别针对多个初始语料中的每个初始语料添加事件先验信息,并针对添加事件先验信息后的初始语料标注事件标注信息和论元角色标注信息,得到第一训练语料;
将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模型学习所述多个第一训练语料中事件信息和论元信息、以及所述事件标注信息与所述论元角色标注信息之间的规约关系。
可选地,在本公开的示例性实施例中,所述预先基于多个第一训练语料训练得到所述第一抽取模型,还包括:
针对添加事件先验信息后的初始语料标注触发词标注信息;
所述将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模型学习所述多个第一训练语料中事件信息和论元信息、以及所述事件标注信息与所述论元角色标注信息之间的规约关系,包括:
将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模型学习所述多个第一训练语料中事件信息、论元信息和触发词信息、以及所述事件标注信息与所述论元角色标注信息之间的规约关系。
可选地,在本公开的示例性实施例中,还包括:
利用第二抽取模型,对所述信息文本中的事件信息与论元信息、以及所述事件信息与所述论元信息之间的关系进行三元组信息抽取,得到第二抽取结果;其中,所述第二抽取模型预先基于多个第二训练语料训练得到,所述第二训练语料标注有主实体标注信息、客实体标注信息、主实体与客实体之间关系标注信息,所述主实体包括事件,所述客实体包括论元角色;
基于所述第二抽取结果,确定所述信息文本对应的事件信息和论元信息,得到第一确定结果;
根据预设规则,基于所述第一确定结果与第二确定结果,确定所述信息文本的分析结果;其中,所述第二确定结果为基于所述预测结果确定的所述信息文本对应的事件信息和论元信息。
可选地,在本公开的示例性实施例中,所述根据预设规则,基于所述第一确定结果与第二确定结果,确定所述信息文本的分析结果,包括:
若所述第一确定结果与所述第二确定结果一致,以所述第一确定结果和所述第二确定结果中的任一作为所述信息文本的分析结果,并输出所述信息文本的分析结果,或者以结构化信息存储方式将所述信息文本的分析结果存储在结构化数据库中;或者,
若所述第一确定结果与所述第二确定结果不一致,以根据所述预设规则确定的所述第一确定结果或所述第二确定结果作为所述信息文本的分析结果,并输出所述信息文本的分析结果,或者以结构化信息存储方式将所述信息文本的分析结果存储在结构化数据库中;或者,
若所述第一确定结果与所述第二确定结果不一致,确定未得到所述信息文本的分析结果。
可选地,在本公开的示例性实施例中,还包括:
利用识别模型,识别所述信息文本中是否存在否定词、以及所述否定词是否作用于所述信息文本中的触发词;其中,所述识别模型预先基于否定词与触发词联合训练得到;
若所述信息文本中存在否定词、且所述否定词作用于所述信息文本中的触发词,基于所述否定词对所述信息文本对应的事件信息和论元信息进行修正;或者,丢弃所述信息文本对应的事件信息和论元信息。
根据本公开的第二方面,提供一种信息分析装置,包括:
获取模块,用于获取信息文本;
添加模块,用于基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,得到待分析文本;
预测模块,用于利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果;其中,所述第一抽取模型预先基于多个第一训练语料训练得到,所述第一训练语料标注有事件标注信息和论元角色标注信息;
第一确定模块,用于基于所述预测结果,确定所述信息文本对应的事件信息和论元信息。
可选地,在本公开的示例性实施例中,所述添加模块包括:
检测单元,用于检测所述信息文本中的触发词;
确定单元,用于确定所述触发词对应的事件先验信息;
添加单元,用于在所述信息文本前后分别添加所述事件先验信息,或者,在所述信息文本前添加所述事件先验信息,或者,在所述信息文本后添加所述事件先验信息。
可选地,在本公开的示例性实施例中,所述事件先验信息包括:事件类别的先验信息;
所述第一训练语料还标注有触发词标注信息;
所述预测模块,具体用于利用所述第一抽取模型,预测所述待分析文本中的事件信息、论元信息和触发词信息,得到预测结果,所述预测结果包括事件类别预测信息、论元角色预测信息和触发词预测信息;
所述第一确定模块,具体用于基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于事件类别预测信息和所述触发词预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
可选地,在本公开的示例性实施例中,所述事件先验信息包括:事件类型和所述事件类型所属的事件类别的先验信息;
所述预测结果包括事件预测信息和论元角色预测信息;其中,所述事件预测信息包括事件类别预测信息和事件类型预测信息;
所述第一确定模块,具体用于基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于所述事件类型预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
可选地,在本公开的示例性实施例中,所述预测模块,具体用于利用所述第一抽取模型,对所述待分析文本中的事件先验信息进行事件信息的BIO标注,对所述待分析文本中的论元值进行论元信息的BIO标注,得到预测结果,所述预测结果包括携带事件信息的BIO标注信息和论元信息的BIO标注信息的待分析文本;
所述第一确定模块,具体用于基于所述待分析文本和所述事件信息的BIO标注信息,确定所述信息文本对应的事件信息;基于所述待分析文本和所述论元信息的BIO标注信息,确定所述信息文本中包括的论元角色和所述论元角色的论元值。
可选地,在本公开的示例性实施例中,所述预测模块,具体还用于利用所述第一抽取模型,对所述待分析文本中的触发词进行标注,所述预测结果还包括触发词的BIO标注信息;
所述第一确定模块,具体还用于基于所述待分析文本和所述触发词的BIO标注信息,确定所述信息文本中的触发词。
可选地,在本公开的示例性实施例中,所述第一抽取模型包括:预训练语言模型。
可选地,在本公开的示例性实施例中,还包括:
预处理模块,用于分别针对多个初始语料中的每个初始语料添加事件先验信息,并针对添加事件先验信息后的初始语料标注事件标注信息和论元角色标注信息,得到第一训练语料;
训练模块,用于将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模型学习所述多个第一训练语料中事件信息和论元信息、以及所述事件标注信息与所述论元角色标注信息之间的规约关系。
可选地,在本公开的示例性实施例中,所述预处理模块,还用于针对添加事件先验信息后的初始语料标注触发词标注信息;
所述训练模块,具体用于将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模型学习所述多个第一训练语料中事件信息、论元信息和触发词信息、以及所述事件标注信息与所述论元角色标注信息之间的规约关系。
可选地,在本公开的示例性实施例中,还包括:
抽取模块,用于利用第二抽取模型,对所述信息文本中的事件信息与论元信息、以及所述事件信息与所述论元信息之间的关系进行三元组信息抽取,得到第二抽取结果;其中,所述第二抽取模型预先基于多个第二训练语料训练得到,所述第二训练语料标注有主实体标注信息、客实体标注信息、主实体与客实体之间关系标注信息,所述主实体包括事件,所述客实体包括论元角色;
第二确定模块,用于基于所述第二抽取结果,确定所述信息文本对应的事件信息和论元信息,得到第一确定结果;
第三确定模块,用于根据预设规则,基于所述第一确定结果与第二确定结果,确定所述信息文本的分析结果;其中,所述第二确定结果为基于所述预测结果确定的所述信息文本对应的事件信息和论元信息。
可选地,在本公开的示例性实施例中,所述第三确定模块,具体用于:
若所述第一确定结果与所述第二确定结果一致,以所述第一确定结果和所述第二确定结果中的任一作为所述信息文本的分析结果,并输出所述信息文本的分析结果,或者以结构化信息存储方式将所述信息文本的分析结果存储在结构化数据库中;或者,
若所述第一确定结果与所述第二确定结果不一致,以根据所述预设规则确定的所述第一确定结果或所述第二确定结果作为所述信息文本的分析结果,并输出所述信息文本的分析结果,或者以结构化信息存储方式将所述信息文本的分析结果存储在结构化数据库中;或者,
若所述第一确定结果与所述第二确定结果不一致,确定未得到所述信息文本的分析结果。
可选地,在本公开的示例性实施例中,还包括:
识别模块,用于利用识别模型,识别所述信息文本中是否存在否定词、以及识别模块所述否定词是否作用于所述信息文本中的触发词;所述识别模型预先基于否定词与触发词联合训练得到;
结果处理模块,用于根据所述第二识别模块的识别结果,若所述信息文本中存在否定词、且所述否定词作用于所述信息文本中的触发词,基于所述否定词对所述信息文本对应的事件信息和论元信息进行修正;或者,丢弃所述信息文本对应的事件信息和论元信息。
根据本公开的第三方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述信息分析方法。
根据本公开的第四方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述信息分析方法。
根据本公开的第五方面,提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现上述信息分析方法。
由上述技术方案可知,本公开示例性实施例中的信息分析方法及装置、电子设备和计算机可读存储介质至少具备以下优点和积极效果:
本公开实施例中的信息分析方法及装置、电子设备和计算机可读存储介质,获取信息文本后,基于信息文本中的触发词对该信息文本添加所述触发词对应的事件先验信息,得到待分析文本,然后利用第一抽取模型,预测待分析文本中的事件信息和论元信息,得到预测结果,进而,基于该预测结果,确定信息文本对应的事件信息和论元信息。由于第一抽取模型预先基于多个第一训练语料训练得到,每个第一训练语料标注有事件标注信息和论元角色标注信息,第一抽取模型可以预先通过大量的训练语料学习到各种事件信息和论元信息、以及二者之间的规约关系,因此能够准确预测待分析文本中的事件信息和论元信息,进而基于该预测结果可以准确确定信息文本对应的事件信息和论元信息,提高了从信息文本中提取事件与论元值的准确性,相对于现有基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法,可以避免误差传导问题和由此导致的从企业的舆情新闻中提取的信息存在错误的问题。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一个***架构示意图;
图2示出本公开第一示例性实施例中信息分析方法的流程示意图;
图3示出本公开第二示例性实施例中信息分析方法的流程示意图;
图4示出本公开第三示例性实施例中信息分析方法的流程示意图;
图5示出本公开第四示例性实施例中信息分析方法的流程示意图;
图6示出本公开第五示例性实施例中信息分析方法的流程示意图;
图7示出本公开第六示例性实施例中信息分析方法的流程示意图;
图8示出本公开第七示例性实施例中信息分析方法的流程示意图;
图9示出本公开第一示例性实施例中信息分析装置的框图;
图10示出本公开第二示例性实施例中信息分析装置的框图;
图11示出本公开示例性实施例中电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
图1示出了可以应用本公开实施例的一个***架构示意图。如图1所示,***架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。
服务器105可以是提供各种信息文本的服务器,例如各种网站、自媒体平台、数据库等的服务器。例如用户利用终端设备103(也可以是终端设备101或102)实时或定期从服务器105获取信息文本,并执行本公开实施例的信息分析方法得到信息文本对应的事件信息和论元信息,并以结构化信息存储方式存储在结构化数据库中,以便后续分析使用。
图2示出本公开一示例性实施例中信息分析方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本实施例的信息分析方法包括如下步骤:
步骤201,获取信息文本。
本公开实施例中的信息文本中的字符可以为中文字符,也可以为英文字符,或者,还可以为数字等任意类型的字符,本公开实施例对信息文本中字符的类型不作具体限定。另外,本公开实施例中的信息文本可以是任意领域的文本,本公开实施例对信息文本的内容和所属领域不做限定。
在其中一些实施方式中,本公开实施例中的信息文本可以是企业的舆情新闻文本,该舆情新闻文本可以是原始的舆情新闻文本,也可以是对原始的舆情新闻文本进行预处理后的舆情新闻文本,其中的预处理例如可以是去除原始的舆情新闻文本中的表情符号、错误的标点符号等等,本公开实施例对舆情新闻文本的具体内容和表现形式、是否预处理以及预处理的具体方式不做限制。例如,企业的舆情新闻文本可以为“中储股份拟收购HB集团51%股权”。
本公开实施例中的信息文本,例如企业的舆情新闻文本,是非结构化信息。
本公开实施例中,可以实时或者按照一定周期从各网站、论坛、自媒体平台等获取信息文本,或者,也可以接收用户输入的信息文本,本公开实施例对获取信息文本的途径和方式不做限定。
步骤202,基于信息文本中的触发词对该信息文本添加触发词对应的事件先验信息,得到待分析文本。
其中,事件是涉及参与者的特定发生,可以经常被描述为状态的改变。事件由事件触发词(Event Trigger)和描述事件结构的事件论元(Event Argument)构成,二者结合完整的描述了事件本身。其中,事件触发词简称为触发词,是能够触动事件发生的词,是决定事件类别与事件类型的重要特征词,决定了事件类别和事件类型。事件论元简称为论元,是指事件描述中事件的各个组成要素(时间、地点、参与者、事件适配的相关内容等),要素即为论元,每个论元对应一种论元角色。
本公开实施例中,事件类别是指事件依据其内容所属的领域,例如划分为财经、交易、娱乐、科技、健康等领域,本公开实施例对具体划分的事件类别的数量和具体划分方式不做限定。
本公开实施例中,在每一个事件类别下,可以依据事件的内容进一步分为多个事件类型,例如可以在交易这一事件类别下具体包括收购、出售等事件类型,事件类型也即事件类别下的子类别,因此也可以称为事件子类别。本公开实施例对事件类别下具体划分的事件类型的数量和具体划分方式不做限定。
步骤203,利用第一抽取模型,预测待分析文本中的事件信息和论元信息,得到预测结果。
其中,第一抽取模型预先基于多个第一训练语料训练得到,第一训练语料标注有事件标注信息和论元角色标注信息。由于第一抽取模型用于联合预测事件信息和论元信息,也可以称为联合抽取模型。
其中的事件标注信息可以是事件类别标注信息,也可以同时包括事件类别和事件类型标注信息。各事件类别、事件类型具有对应的论元角色,例如交易这一事件类别下的出售/收购事件类型,对应的论元角色包括:时间,出售方,交易物,出售价格,收购方。
步骤204,基于预测结果,确定信息文本对应的事件信息和论元信息。
其中的事件信息可以包括具体的事件类别和该事件类别下的事件类型中的至少一项。论元信息可以包括论元角色和该论元角色的论元值,其中的论元值即论元角色在该信息文本中对应的具体内容,例如信息文本“中储股份拟收购HB集团51%股权”中,论元角色包括:出售方、交易物、收购方,对应的论元值分别为:HB集团、51%股权、中储股份。
基于本实施例,获取信息文本后,基于信息文本中的触发词对该信息文本添加所述触发词对应的事件先验信息,得到待分析文本,然后利用第一抽取模型,预测待分析文本中的事件信息和论元信息,得到预测结果,进而,基于该预测结果,确定信息文本对应的事件信息和论元信息。由于第一抽取模型预先基于多个第一训练语料训练得到,每个第一训练语料标注有事件标注信息和论元角色标注信息,第一抽取模型可以预先通过大量的训练语料学习到各种事件信息和论元信息、以及二者之间的规约关系,因此能够准确预测待分析文本中的事件信息和论元信息,进而基于该预测结果可以准确确定信息文本对应的事件信息和论元信息,提高了从信息文本中提取事件与论元值的准确性,可以避免现有基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法存在的误差传导问题和由此导致的从企业的舆情新闻中提取的信息存在错误的问题。
图3示出本公开另一示例性实施例中信息分析方法的流程示意图。如图3所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:
步骤2021,检测信息文本中的触发词。
可选地,在其中一些实施方式中,可以预先建立触发词库,通过正则匹配的方式检测信息文本存在的触发词库中的触发词。
或者,在另一些实施方式中,可以利用检测模型检测信息文本中的触发词,该检测模型预先基于触发词库中的触发词训练得到,从而可以检测文本中的触发词。
本公开实施例中,可以预先采集各事件类别或各事件类别下各事件类型涉及的触发词,构建触发词库,该触发词库中的触发词可以根据实际需求更新。
步骤2022,确定触发词对应的事件先验信息。
其中的事件先验信息可以是用于表示事件类别的先验信息,也可以是事件类型和该事件类型所属的事件类别的先验信息。
步骤2023,在信息文本前后分别添加对应的事件先验信息,或者,在信息文本前添加对应的事件先验信息,或者,在信息文本后添加对应的事件先验信息,得到待分析文本。
例如,针对上述信息文本“中储股份拟收购HB集团51%股权”,检测到信息文本中的触发词“收购”,通过事件触发词“收购”对应的事件类别为交易,在信息文本的前后分别添加事件类别的先验信息,得到:<交易>中储股份拟收购HB集团51%股权</交易>,通过添加触发词对应的事件先验信息,可以对事件信息和信息文本中的论元信息加以规约。
基于本实施例,检测到信息文本中的触发词后,可以在信息文本前、后添加对应的事件先验信息,有助于后续第一抽取模型结合该事件先验信息实现对待分析文本进行事件信息和论元信息的第一抽取,基于事件信息和论元信息之间的规约关系,可以提高提取事件与论元值的准确性。
图4示出本公开又一示例性实施例中信息分析方法的流程示意图。如图4所示,本实施例的信息分析方法包括如下步骤:
步骤301,获取信息文本。
步骤302,基于信息文本中的触发词对该信息文本添加触发词对应的事件类别的先验信息,得到待分析文本。
步骤303,利用第一抽取模型,预测待分析文本中的事件信息、论元信息和触发词信息,得到预测结果。
其中,预测结果包括事件类别预测信息、论元角色预测信息和触发词预测信息。
其中,第一抽取模型预先基于多个第一训练语料训练得到,第一训练语料标注有事件标注信息、触发词标注信息和论元角色标注信息,该事件标注信息具体为事件类别标注信息。
步骤304,基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于所述事件类别预测信息和所述触发词预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
在其中一些实施方式中,可以从所述事件类别预测信息中提取事件类别,从所述触发词预测信息中提取触发词,以提取的事件类别和触发词作为事件类型,从所述论元角色预测信息中提取论元角色和各论元角色的论元值。
在另一些实施方式中,可以直接以所述事件类别预测信息作为事件类别,以所述事件类别预测信息和所述触发词预测信息作为事件类型,以所述论元角色预测信息作为论元角色和各论元角色的论元值。
或者,也可以通过其他方式,基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于所述事件类别预测信息和所述触发词预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值,本公开实施例对此不做限制。
例如,针对上述信息文本“中储股份拟收购HB集团51%股权”,得到如下结果:
事件类别:交易;事件类型:收购;
论元角色和论元值:收购方:中储股份;出售方:HB集团;交易物:51%股权。
基于本实施例,检测到信息文本中的触发词后,信息文本添加触发词对应的事件类别的先验信息,得到待分析文本,利用第一抽取模型,对待分析文本联合预测得到事件类别预测信息、论元角色预测信息和触发词预测信息,基于事件类别预测信息可以确定信息文本对应的事件类别,基于事件类别预测信息和触发词预测信息可以确定信息文本对应的具体事件类型,基于论元角色预测信息可以确定信息文本中包括的论元角色和论元角色的论元值,由此实现了对信息文本对应的事件类别、事件类型和论元值的准确预测,可以提高提取事件与论元值的准确性。
图5示出本公开再一示例性实施例中信息分析方法的流程示意图。如图5所示,本实施例的信息分析方法包括如下步骤:
步骤401,获取信息文本。
步骤402,基于信息文本中的触发词对该信息文本添加触发词对应的事件类型和所述事件类型所属的事件类别的先验信息,得到待分析文本。
步骤403,利用第一抽取模型,预测待分析文本中的事件信息和论元信息,得到预测结果。
其中,预测结果包括事件预测信息和论元角色预测信息,其中的事件预测信息包括事件类别预测信息和事件类型预测信息。
其中,第一抽取模型预先基于多个第一训练语料训练得到,第一训练语料标注有事件标注信息和论元角色标注信息,该事件标注信息具体为事件类别和事件类型标注信息。
步骤404,基于上述事件类别预测信息确定信息文本对应的事件类别,基于上述事件类型预测信息确定信息文本对应的事件类型,基于上述论元角色预测信息确定信息文本中包括的论元角色和论元角色的论元值。
在其中一些实施方式中,可以从所述事件类别预测信息中提取事件类别,从所述事件类别预测信息中提取事件类型,从所述论元角色预测信息中提取论元角色和各论元角色的论元值。
在另一些实施方式中,可以直接以所述事件类别预测信息作为事件类别,以所述事件类型预测信息作为事件类型,以所述论元角色预测信息作为论元角色和各论元角色的论元值。
或者,也可以通过其他方式,基于上述事件类别预测信息确定信息文本对应的事件类别,基于上述事件类型预测信息确定信息文本对应的事件类型,基于上述论元角色预测信息确定信息文本中包括的论元角色和论元角色的论元值,本公开实施例对此不做限制。
例如,针对上述信息文本“中储股份拟收购HB集团51%股权”,得到如下结果:
事件类别:交易;事件类型:收购;
论元角色和论元值:收购方:中储股份;出售方:HB集团;交易物:51%股权。
基于本实施例,检测到信息文本中的触发词后,信息文本添加触发词对应的触发词对应的事件类型和事件类别的先验信息,得到待分析文本,利用第一抽取模型,对待分析文本联合预测得到事件类别预测信息、事件类型预测信息和论元角色预测信息,基于事件类别预测信息可以确定信息文本对应的事件类别,基于事件类型预测信息可以确定信息文本对应的具体事件类型,基于论元角色预测信息可以确定信息文本中包括的论元角色和论元角色的论元值,由此实现了对信息文本对应的事件类别、事件类型和论元值的准确预测,可以提高提取事件与论元值的准确性。
可选地,在其中一些实施方式中,本公开上述实施例的第一抽取模型可以选用预训练语言模型,例如BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型,本公开实施例对具体采用的语言模型不做限制。
预训练语言模型可以通过建模海量数据中的实体概念等先验语义知识,学习完整概念的语义表示,对语义知识单元的表示更贴近真实世界,在基于字特征输入建模的同时,直接对先验语义知识单元进行建模,具有较强的语义表示能力。
图6示出本公开第五示例性实施例中信息分析方法的流程示意图。如图6所示,可以采用如下方式,预先基于多个第一训练语料训练得到上述第一抽取模型:
步骤501,分别针对多个初始语料中的每个初始语料添加事件先验信息,并针对添加事件先验信息后的初始语料标注事件标注信息和论元角色标注信息,得到第一训练语料。
步骤502,将多个第一训练语料分别输入第一抽取模型,以使第一抽取模型学习多个第一训练语料中事件信息和论元信息、以及事件标注信息与论元角色标注信息之间的规约关系。
可选地,在其中一些实施方式中,可以采用无监督的训练方式训练第一抽取模型,即让第一抽取模型学习预设数量的第一训练语料中事件信息和论元信息、以及事件标注信息与论元角色标注信息之间的规约关系,或者对第一抽取模型的训练次数达到预设次数,本公开实施例对第一抽取模型的具体训练方式不做限定。
或者,在另一些实施方式中,也可以采用有监督的训练方式训练第一抽取模型,使得第一抽取模型的预测结果与第一训练语料的标注信息之间的差异小于预设阈值。
基于本实施例,可以利用大量的第一训练语料训练第一抽取模型,使第一抽取模型可以充分学习到各第一训练语料中事件信息和论元信息、以及事件标注信息与论元角色标注信息之间的规约关系,这样,在第一抽取模型训练完成后,可以基于事件信息与论元信息之间的规约关系,联合预测事件信息与论元信息,从而实现事件信息与论元信息的准确预测。
可选地,在其中一些实施方式中,在上述步骤501中,还可以针对添加事件先验信息后的初始语料标注触发词标注信息。相应地,在上述步骤502中,将多个第一训练语料分别输入第一抽取模型,以使第一抽取模型学习所述多个第一训练语料中事件信息、论元信息和触发词信息、以及事件标注信息与论元角色标注信息之间的规约关系。
基于本实施例,可以利用大量的第一训练语料训练第一抽取模型,使第一抽取模型可以充分学习到各第一训练语料中事件信息和论元信息、触发词标注信息,以及触发词标注信息、事件标注信息与论元角色标注信息之间的规约关系,这样,在第一抽取模型训练完成后,可以基于触发词、事件信息与论元信息之间的规约关系,联合预测触发词、事件信息与论元信息,从而实现事件信息与论元信息的准确预测。
本公开实施例中,可以设计事件体系,包括事件类别对应的论元角色。例如财经、交易事件类别,触发词为收购,论元角色包括:时间、出售方、交易物、出售价格、收购方。
可选地,在其中一些实施方式中,使用BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型,作为第一抽取模型,使用大量第一训练语料对预训练语言模型进行精调(fine-tuning),来实现对进行预训练语言模型的训练。
可选地,在其中一些实施方式中,上述实施例中事件标注信息、触发词标注信息和论元角色标注信息可以是BIO标注信息,例如,事件类别的BIO标注信息,事件类型的BIO标注信息,触发词的BIO标注信息,论元角色的BIO标注信息。
其中,BIO标注,即将每个元素标注为B-X、I-X或者O。其中,B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头,I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,O表示不属于任何类型。例如,我们将X表示为名词短语(NounPhrase,NP),则BIO的三个标记为:B-NP:名词短语的开头;I-NP:名词短语的中间;O:不是名词短语。
例如,针对初始语料“大连楼市7月月报之土地市场:两宗居住地块成功出让”,触发词为“出让”,触发词对应的事件类别为“财经”,添加事件先验信息后得到的第一训练语料为:<财经>大连楼市7月月报:两宗居住地块成功出让</财经>,添加事件类别的BIO标注信息和论元角色的BIO标注信息,得到如下第一训练语料:<B-财经、财I-财经、经I-财经、>I-财经、大O、连O、楼O、市O、7B-时间、月I-时间、月O、报O、:O、两B-交易物、宗I-交易物、居I-交易物、住I-交易物、地I-交易物、块I-交易物、成O、功O、出B-Trigger、让I-Trigger、<B-财经、/I-财经、财I-财经、经I-财经、>I-财经。
可选地,在其中一些实施方式中,在上述步骤203、303或403中,可以利用第一抽取模型,对待分析文本中的事件先验信息进行事件信息的BIO标注,对待分析文本中的论元值进行论元信息的BIO标注,得到预测结果,该预测结果包括携带事件信息的BIO标注信息和论元信息的BIO标注信息的待分析文本。相应地,在上述步骤204、304或404中,可以基于待分析文本和事件信息的BIO标注信息,确定信息文本对应的事件信息;基于待分析文本和所述论元信息的BIO标注信息,确定信息文本中包括的论元角色和论元角色的论元值。
例如,针对上述信息文本“中储股份拟收购HB集团51%股权”的待分析文本<交易>中储股份拟收购HB集团51%股权</交易>,触发词为“收购”,利用第一抽取模型得到的预测结果为:<B-交易、交I-交易、易I-交易、>I-交易、中B-收购方、储I-收购方、股I-收购方、份I-收购方、拟、收B-Trigger、购I-Trigger、H B-出售方、B I-出售方、集I-出售方、团I-出售方、5B-交易物、1I-交易物、%I-交易物、股I-交易物、权I-交易物、<B-交易、/I-交易、交I-交易、易I-交易、>I-交易。则可以基于事件信息的BIO标注信息“<B-交易、交I-交易、易I-交易、>I-交易”和“<B-交易、/I-交易、交I-交易、易I-交易、>I-交易”确定信息文本对应的事件类别为“交易”;基于“中B-收购方、储I-收购方、股I-收购方、份I-收购方”、“H B-出售方、B I-出售方、集I-出售方、团I-出售方”和“5B-交易物、1I-交易物、%I-交易物、股I-交易物、权I-交易物”确定论元角色和对应的论元值如下:收购方:中储股份;出售方:HB集团;交易物:51%股权。最终得到如下结果:
事件类别:交易;触发词:收购;
论元角色和论元值:收购方:中储股份;出售方:HB集团;交易物:51%股权。
可选地,在另一些实施方式中,在上述步骤203、303或403中,可以利用第一抽取模型,对待分析文本中的事件先验信息进行事件信息的BIO标注,对待分析文本中的论元值进行论元信息的BIO标注,对待分析文本中的触发词进行标注,得到预测结果,该预测结果包括携带事件信息的BIO标注信息、触发词的BIO标注信息和论元信息的BIO标注信息的待分析文本。相应地,在上述步骤204、304或404中,可以基于待分析文本和事件信息的BIO标注信息,确定信息文本对应的事件信息;基于待分析文本和所述论元信息的BIO标注信息,确定信息文本中包括的论元角色和论元角色的论元值;基于待分析文本和触发词的BIO标注信息,确定信息文本中的触发词。
例如,针对上述信息文本“中储股份拟收购HB集团51%股权”的待分析文本<交易>中储股份拟收购HB集团51%股权</交易>,触发词为“收购”,利用第一抽取模型得到的预测结果为:<B-交易、交I-交易、易I-交易、>I-交易、中B-收购方、储I-收购方、股I-收购方、份I-收购方、拟、收B-Trigger、购I-Trigger、H B-出售方、B I-出售方、集I-出售方、团I-出售方、5B-交易物、1I-交易物、%I-交易物、股I-交易物、权I-交易物、<B-交易、/I-交易、交I-交易、易I-交易、>I-交易。则可以基于事件信息的BIO标注信息“<B-交易、交I-交易、易I-交易、>I-交易”和“<B-交易、/I-交易、交I-交易、易I-交易、>I-交易”确定信息文本对应的事件类别为“交易”;基于“收B-Trigger、购I-Trigger”确定触发词“收购”;基于“中B-收购方、储I-收购方、股I-收购方、份I-收购方”、“H B-出售方、B I-出售方、集I-出售方、团I-出售方”和“5B-交易物、1I-交易物、%I-交易物、股I-交易物、权I-交易物”确定论元角色和对应的论元值如下:收购方:中储股份;出售方:HB集团;交易物:51%股权。
例如,针对上述信息文本“中储股份拟收购HB集团51%股权”,得到如下结果:
事件类别:交易;触发词:收购;
论元角色和论元值:收购方:中储股份;出售方:HB集团;交易物:51%股权。
图7示出本公开第六示例性实施例中信息分析方法的流程示意图。如图7所示,在上述实施例的基础上,该实施例的信息分析方法获取信息文本之后,还可以包括:
步骤601,利用第二抽取模型,对信息文本中的事件信息与论元信息、以及事件信息与论元信息之间的关系进行三元组信息抽取,得到第二抽取结果。
其中,上述第二抽取模型预先基于多个第二训练语料训练得到,第二训练语料标注有主实体标注信息、客实体标注信息、主实体与客实体之间关系标注信息,其中的主实体包括事件,客实体包括论元角色。由于第二抽取模型用于对事件信息与论元信息、以及事件信息与论元信息之间的关系进行三元组信息抽取,也可以称为关系抽取模型。
步骤602,基于上述第二抽取结果,确定信息文本对应的事件信息和论元信息,得到第一确定结果。
步骤603,根据预设规则,基于上述第一确定结果与第二确定结果,确定信息文本的分析结果。
其中,第二确定结果为上述实施例中基于预测结果确定的信息文本对应的事件信息和论元信息。
基于本实施例,利用第二抽取模型对信息文本中的事件信息与论元信息、以及事件信息与论元信息之间的关系进行三元组信息抽取,得到第二抽取结果,由此确定信息文本对应的事件信息和论元信息,同时结合基于预测结果确定的信息文本对应的事件信息和论元信息来确定信息文本的分析结果,从多维度、多角度能够识别到更多的事件信息和论元信息,使事件信息和论元信息的抽取召回提升,有助于提升信息抽取的全面性与准确度。
本公开实施例中,设计转换事件与论元体系为三元组形式,例如,事件类别:交易;事件类型:收购;论元角色列表:时间,出售方,交易物,出售价格,收购方,可以转化为如下三元组形式:
客体类别:时间_is;关系:时间;主体类别:交易;
客体类别:出售方_is;关系:出售方;主体类别:交易;
客体类别:收购方_is;关系:收购方;主体类别:交易;
客体类别:交易物_is;关系:交易物;主体类别:交易;
客体类别:出售价格_is;关系:出售价格;主体类别:交易;
利用第二抽取模型,对信息文本中“中储股份拟收购HB集团51%股权”的事件信息与论元信息、以及事件信息与论元信息之间的关系进行三元组信息抽取,得到第二抽取结果如下:
主体:收购;主体类别:交易;关系:收购方;客体:中储股份;客体类别:收购方_is;
主体:收购;主体类别:交易;关系:出售方;客体:HB集团;客体类别:出售方_is;
主体:收购;主体类别:交易;关系:交易物;客体:51%股权;客体类别:交易物_is;
基于上述第二抽取结果,确定信息文本对应的事件信息和论元信息,得到第一确定结果如下:
事件类型:收购;事件类别:交易;
论元角色和论元值:收购方:中储股份;出售方:HB集团;交易物:51%股权。
本公开实施例中,设计转换事件与论元体系为三元组形式,使用第二抽取模型抽取事件,可以使事件触发词更具有泛化特性,能够收益更多样的事件表述形式和更多样的触发词表达形式,从而可以识别到更多的结果,提高召回率。
可选地,在其中一些实施方式中,本公开上述实施例的第二抽取模型可以选用预训练语言模型,例如BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型,本公开实施例对具体采用的语言模型不做限制。
可选地,在其中一些实施方式中,在上述步骤603中,若第一确定结果与第二确定结果一致,可以以第一确定结果和第二确定结果中的任一作为信息文本的分析结果,并输出信息文本的分析结果,或者以结构化信息存储方式将信息文本的分析结果存储在结构化数据库中;或者,若第一确定结果与第二确定结果不一致,可以以根据预设规则确定的第一确定结果或第二确定结果作为信息文本的分析结果,并输出信息文本的分析结果,或者以结构化信息存储方式将信息文本的分析结果存储在结构化数据库中;或者,若所述第一确定结果与所述第二确定结果不一致,确定未得到信息文本的分析结果,不输出信息文本的分析结果。
基于本实施例,在第一确定结果与第二确定结果一致时,直接以一致的确定结果作为信息文本的分析结果,在二者不一致时,可以根据预设规则确定第一确定结果或第二确定结果作为信息文本的分析结果,存储或输出该信息文本的分析结果,以便基于该信息文本的分析结果进行舆情分析;在二者不一致时,也可以不输出信息文本的分析结果,从而避免错误的舆情分析错误。
图8示出本公开第七示例性实施例中信息分析方法的流程示意图。如图8所示,在上述实施例的基础上,该实施例的信息分析方法还可以包括:
步骤701,利用识别模型,识别信息文本中是否存在否定词、以及该否定词是否作用于信息文本中的触发词。
其中的否定词即否定含义的词语(NEGATION)。
若信息文本中存在否定词、其该否定词作用于信息文本中的触发词,执行步骤702;否则,若信息文本中不存在否定词、和/或存在否定词但未作用于信息文本中的触发词,不执行本实施例的后续流程。
其中,所述识别模型预先基于否定词与触发词联合训练得到。
步骤702,基于该否定词对基于上述实施例得到的信息文本对应的事件信息和论元信息进行修正,例如在触发词前加入否定词;或者,丢弃信息文本对应的事件信息和论元信息。
其中,基于上述实施例得到的信息文本对应的事件信息和论元信息,可以是基于所述预测结果确定的信息文本对应的事件信息和论元信息(即第二确定结果),也可以是基于上述第二抽取结果,确定信息文本对应的事件信息和论元信息(即第一确定结果),还可以是根据预设规则,基于上述第一确定结果与第二确定结果,确定的信息文本的分析结果。可选地,在其中一些实施方式中,可以利用识别模型,识别信息文本中是否同时存在的否定词以及触发词,若同时识别出否定词和触发词,则认为该信息文本中的事件为否定事件。否则,若未识别出否定词和触发词中的任一、或者否定词和触发词均未识别出来,则认为该信息文本中的事件不是否定事件。
由于识别模型用于信息文本中的事件为否定事件,也可以称为否定事件识别模型。
具体地,可以通过对多个初始语料中的否定词与触发词进行BIO标注,得到第三训练语料,基于该第三训练语料训练事件识别模型,事件识别模型训练完成后便可以识别文本中的否定词及触发词。
例如,对初始语料“三维丝回复问询函:祥盛环保无业绩下滑风险”,进行否定词与否定词的触发词进行BIO标注得到的第三训练语料如下:三O、维O、丝O、回
O、复O、问O、询O、函O、:O、祥O、盛O、环O、保O、无B-NEGATION、业B-TRIGGER、绩I-TRIGGER、下I-TRIGGER、滑I-TRIGGER、风O、险O。其中,否定词为“无”,触发词为“业绩下滑”,从而实现基于否定词与触发词对识别模型的进行联合训练。
在利用识别模型预测时,例如向识别模型输入信息文本“中兴否认一季度裁员4000人并无任何裁员计划”,识别模型输出的输出结果为:中O、兴O、否B-NEGATION、认I-NEGATION、一O、季O、度O、裁B-TRIGGER、员I-TRIGGER、4O、0O、0O、0O、人O、并B-NEGATION、无I-NEGATION、任O、何O、裁B-TRIGGER、员I-TRIGGER、计O、划O。基于该输出结果,其中第一个否定词及作用的触发词为“否认”、“裁员”,第一个否定词及作用的触发词为“并无”、“裁员”。
基于本实施例,利用识别模型,可以识别出否定事件,防止错误地将否定事件当作事件识别出来,如某企业未破产与某企业破产,在语义上是天差地别,将非事件的错误消除,可以进一步提升事件信息抽取的准确率和事件识别的精准度;另外,将未发生的否定事件予以剔除,可以防止识别出错误的舆情信息。
可选地,在其中一些实施方式中,本公开上述实施例的识别模型可以选用预训练语言模型,例如BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型,本公开实施例对具体采用的语言模型不做限制。
基于本公开实施例,可以从松散、无结构的非结构化自然语言文本中抽取出事件和论元的基本信息,例如事件的类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来,以便于后续进行各项应用。
基于本公开实施例,得到信息文本的分析结果后,可以进行各项应用,例如可以以结构化的形式展现和表示信息文本的分析结果,在方便用户用快速理解事件;又例如,在金融领域场景中,通过公司信息文本的分析结果,可以进行有效地风险控制,本实施例对信息文本的分析结果的应用场景不作限定。
图9示出本公开第一示例性实施例中信息分析装置的框图。本公开任一实施例提供的信息分析装置可用于实现本公开上述实施例中信息分析方法。本公开任一实施例提供的信息分析装置可以设置在终端设备上,也可以设置在服务端上,或者部分设置在终端设备上,部分设置在服务端上,例如,可以设置在图1中的服务器105上,但本公开并不限定于此。
如图9所示,该实施例的信息分析装置包括:获取模块801,添加模块802,预测模块803和第一确定模块804。其中:
获取模块801,用于获取信息文本。
添加模块802,用于基于信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,得到待分析文本。
预测模块803,用于利用第一抽取模型,预测待分析文本中的事件信息和论元信息,得到预测结果。其中,所述第一抽取模型预先基于多个第一训练语料训练得到,第一训练语料标注有事件标注信息和论元角色标注信息。
第一确定模块804,用于基于所述预测结果,确定信息文本对应的事件信息和论元信息。
基于本公开实施例,获取信息文本后,基于信息文本中的触发词对该信息文本添加所述触发词对应的事件先验信息,得到待分析文本,然后利用第一抽取模型,预测待分析文本中的事件信息和论元信息,得到预测结果,进而,基于该预测结果,确定信息文本对应的事件信息和论元信息。由于第一抽取模型预先基于多个第一训练语料训练得到,每个第一训练语料标注有事件标注信息和论元角色标注信息,第一抽取模型可以预先通过大量的训练语料学习到各种事件信息和论元信息、以及二者之间的规约关系,因此能够准确预测待分析文本中的事件信息和论元信息,进而基于该预测结果可以准确确定信息文本对应的事件信息和论元信息,提高了从信息文本中提取事件与论元值的准确性,可以避免现有基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法存在的误差传导问题和由此导致的从企业的舆情新闻中提取的信息存在错误的问题。
可选地,在其中一些实施方式中,添加模块802可以包括:检测单元,用于检测所述信息文本中的触发词;确定单元,用于确定所述触发词对应的事件先验信息;添加单元,用于在所述信息文本前后分别添加所述事件先验信息,或者,在所述信息文本前添加所述事件先验信息,或者,在所述信息文本后添加所述事件先验信息。
可选地,在其中一些实施方式中,所述事件先验信息包括:事件类别的先验信息;所述第一训练语料还标注有触发词标注信息。相应地,预测模块803,具体用于利用第一抽取模型,预测待分析文本中的事件信息、论元信息和触发词信息,得到预测结果,所述预测结果包括事件类别预测信息、论元角色预测信息和触发词预测信息。第一确定模块804,具体用于基于所述事件类别预测信息确定信息文本对应的事件类别,基于所述事件类别预测信息和所述触发词预测信息确定信息文本对应的事件类型,基于所述论元角色预测信息确定信息文本中包括的论元角色和所述论元角色的论元值。
可选地,在另一些实施方式中,所述事件先验信息包括:事件类型和该事件类型所属的事件类别的先验信息;所述预测结果包括事件预测信息和论元角色预测信息,其中,事件预测信息包括事件类别预测信息和事件类型预测信息。相应地,第一确定模块804,具体用于基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于所述事件类型预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
可选地,在其中一些实施方式中,预测模块803,具体用于利用第一抽取模型,对待分析文本中的事件先验信息进行事件信息的BIO标注,对所述待分析文本中的论元值进行论元信息的BIO标注,得到预测结果,所述预测结果包括携带事件信息的BIO标注信息和论元信息的BIO标注信息的待分析文本。相应地,第一确定模块804,具体用于基于待分析文本和事件信息的BIO标注信息,确定信息文本对应的事件信息;基于待分析文本和论元信息的BIO标注信息,确定信息文本中包括的论元角色和该论元角色的论元值。
可选地,在上述一些实施方式中,预测模块803,具体还用于利用第一抽取模型,对待分析文本中的触发词进行标注,所述预测结果还包括触发词的BIO标注信息。相应地,第一确定模块804,具体还用于基于所述待分析文本和所述触发词的BIO标注信息,确定所述信息文本中的触发词。
可选地,在其中一些实施方式中,所述第一抽取模型包括:预训练语言模型,例如BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型,本公开实施例对具体采用的语言模型不做限制。
图10示出本公开第二示例性实施例中信息分析装置的框图。如图10所示,在图9所示实施例的基础上,该实施例的信息分析装置还可以包括:预处理模块805和训练模块806。其中:
预处理模块805,用于分别针对多个初始语料中的每个初始语料添加事件先验信息,并针对添加事件先验信息后的初始语料标注事件标注信息和论元角色标注信息,得到第一训练语料。
训练模块806,用于将多个第一训练语料分别输入所述第一抽取模型,以使第一抽取模型学习所述多个第一训练语料中事件信息和论元信息、以及事件标注信息与论元角色标注信息之间的规约关系。
可选地,在其中一些实施方式中,预处理模块805,还用于针对添加事件先验信息后的初始语料标注触发词标注信息。相应地,训练模块806,具体用于将所述多个第一训练语料分别输入第一抽取模型,以使第一抽取模型学习所述多个第一训练语料中事件信息、论元信息和触发词信息、以及事件标注信息与论元角色标注信息之间的规约关系。
可选地,再参见图10,在上述各实施例的基础上,信息分析装置还可以包括:抽取模块807、第二确定模808和第三确定模块809。其中:
抽取模块807,用于利用第二抽取模型,对获取模块801获取的信息文本中的事件信息与论元信息、以及事件信息与论元信息之间的关系进行三元组信息抽取,得到第二抽取结果。其中,所述第二抽取模型预先基于多个第二训练语料训练得到,第二训练语料标注有主实体标注信息、客实体标注信息、主实体与客实体之间关系标注信息,其中的主实体包括事件,其中的客实体包括论元角色。
第二确定模块808,用于基于所述第二抽取结果,确定信息文本对应的事件信息和论元信息,得到第一确定结果。
第三确定模块809,用于根据预设规则,基于第一确定结果与第二确定结果,确定信息文本的分析结果。其中,所述第二确定结果为第一确定模块804基于预测结果确定的信息文本对应的事件信息和论元信息。
可选地,在其中一些实施方式中,第三确定模块809,具体用于:若第一确定结果与第二确定结果一致,以第一确定结果和第二确定结果中的任一作为信息文本的分析结果,并输出信息文本的分析结果,或者以结构化信息存储方式将信息文本的分析结果存储在结构化数据库中;或者,若第一确定结果与第二确定结果不一致,以根据预设规则确定的第一确定结果或第二确定结果作为信息文本的分析结果,并输出信息文本的分析结果,或者以结构化信息存储方式将信息文本的分析结果存储在结构化数据库中;或者,若第一确定结果与第二确定结果不一致,确定未得到信息文本的分析结果。
可选地,再参见图10,在上述各实施例的基础上,信息分析装置还可以包括:识别模块810,第二识别模块811和结果处理模块811。其中:
识别模块810,用于利用识别模型,识别信息文本中是否存在否定词、以及该否定词是否作用于信息文本中的触发词。其中,所述识别模型预先基于否定词与触发词联合训练得到。
结果处理模块811,用于根据识别模块810的识别结果,若所述信息文本中存在否定词、且所述否定词作用于信息文本中的触发词,基于所述否定词对信息文本对应的事件信息和论元信息进行修正;或者,丢弃信息文本对应的事件信息和论元信息。
本公开实施例提供的信息分析装置中的各个模块、单元和子单元的具体实现可以参照上述信息分析方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之,上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。
本公开实施例还提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例所述的信息分析方法。
图11示出本公开示例性实施例中电子设备的框图。
如图11所示,示例电子设备90包括用于执行软件例程的处理器901尽管为了清楚起见示出了单个处理器,但是电子设备90也可以包括多处理器***。处理器901连接到通信基础设施902,用于与电子设备90的其他组件进行通信。通信基础设施902可以包括例如通信总线、交叉开关或网络。
电子设备90还包括诸如随机存取存储器(Random Access Memory,RAM)之类的存储器,所述存储器可包括主存储器903和辅助存储器910。辅助存储器910可以包括,例如硬盘驱动器911和/或可移动存储驱动器912,可移动存储驱动器912可以包括软盘驱动器,磁带驱动器,光盘驱动器等。可移动存储驱动器912以常规方式对可移动存储单元913进行读取和/或写入。可移动存储单元913可以包括由可移动存储驱动器912读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解,可移动存储单元913包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。
在一种可选实施方式中,辅助存储器910可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备90中的其他类似装置。这样的装置可以包括例如可移动存储单元921和接口920。可移动存储单元921和接口920的示例包括:程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如EPROM或PROM)和相关联的插槽、以及其他可移动存储单元921和允许软件和数据从可移动存储单元921传输到电子设备90的接口920。
电子设备90还包括至少一个通信接口940。通信接口940允许软件和数据经由通信路径941在电子设备90和外部设备之间传输。在本发明的各种实施例中,通信接口940允许数据在电子设备90和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口940可用于在不同的电子设备90之间交换数据,这些电子设备90形成互连的计算机网络的一部分。通信接口940的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口940可以是有线的或者可以是无线的。经由通信接口940传输的软件和数据为信号形式,该信号可以是能够被通信接口940接收的电、磁、光或其他信号。这些信号经由通信路径941被提供给通信接口。
如图11所示,电子设备90还包括显示器接口931和音频接口932,显示器接口931执行用于将图像渲染到关联的显示器930的操作,音频接口932用于执行通过关联的扬声器933播放音频内容的操作。
在本公开文件中,术语“计算机程序产品”部分程度上可以指代:可移动存储单元913、可移动存储单元921、安装在硬盘驱动器911中的硬盘、或承载着软件通过通信路径941(无线链路或电缆)到通信接口940的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备90以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光TM光盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘、或诸如PCMCIA卡之类的计算机可读卡等等,这些部件无论是在电子设备90的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备90提供软件、应用程序、指令和/或数据,这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。
计算机程序(也被称为计算机程序代码)存储在主存储器903和/或辅助存储器910中。也可以经由通信接口940来接收计算机程序。此类计算机程序在被执行时使电子设备90能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中,计算机程序在被执行时,使处理器901能够执行上述实施例的特征。因此,此类计算机程序代表计算机***90的控制器。
软件可以存储在计算机程序产品中,并使用可移动存储驱动器912、硬盘驱动器911或接口920加载到电子设备90中。替代地,可以通过通信路径941将计算机程序产品下载到计算机***90。该软件在由处理器901执行时促使电子设备90执行本文描述的实施例的功能。
应该理解,图11的实施例仅以示例的方式给出。因此,在一些实施例中,可以省略电子设备90的一个或多个特征。而且,在一些实施例中,电子设备90的一个或多个特征可以被组合在一起。另外,在一些实施例中,电子设备90的一个或多个特征可以被分成一个或多个组成部分。
可以理解的是,图11所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。
在一种实施方式中,服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起促使所述物理设备执行必要的操作。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图2-8所示信息分析方法的功能。
本公开实施例还提供了一种计算机程序,包括计算机可读代码,当该计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现图2-8所示信息分析方法的功能。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被电子设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (14)

1.一种信息分析方法,其特征在于,包括:
获取信息文本;
基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,得到待分析文本;
利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果;其中,所述第一抽取模型预先基于多个第一训练语料训练得到,所述第一训练语料标注有事件标注信息和论元角色标注信息;
基于所述预测结果,确定所述信息文本对应的事件信息和论元信息;
其中,利用第二抽取模型,对所述信息文本中的事件信息与论元信息、以及所述事件信息与所述论元信息之间的关系进行三元组信息抽取,得到第二抽取结果;其中,所述第二抽取模型预先基于多个第二训练语料训练得到,所述第二训练语料标注有主实体标注信息、客实体标注信息、主实体与客实体之间关系标注信息,所述主实体包括事件,所述客实体包括论元角色;
基于所述第二抽取结果,确定所述信息文本对应的事件信息和论元信息,得到第一确定结果;
根据预设规则,基于所述第一确定结果与第二确定结果,确定所述信息文本的分析结果;其中,所述第二确定结果为基于所述预测结果确定的所述信息文本对应的事件信息和论元信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,包括:
检测所述信息文本中的触发词;
确定所述触发词对应的事件先验信息;
在所述信息文本前后分别添加所述事件先验信息,或者,在所述信息文本前添加所述事件先验信息,或者,在所述信息文本后添加所述事件先验信息。
3.根据权利要求1或2所述的方法,其特征在于,所述事件先验信息包括:事件类别的先验信息;
所述第一训练语料还标注有触发词标注信息;
所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,包括:
利用所述第一抽取模型,预测所述待分析文本中的事件信息、论元信息和触发词信息,得到预测结果,所述预测结果包括事件类别预测信息、论元角色预测信息和触发词预测信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于事件类别预测信息和所述触发词预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
4.根据权利要求1或2所述的方法,其特征在于,所述事件先验信息包括:事件类型和所述事件类型所属的事件类别的先验信息;
所述预测结果包括事件预测信息和论元角色预测信息;其中,所述事件预测信息包括事件类别预测信息和事件类型预测信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于事件类型预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
5.根据权利要求1所述的方法,其特征在于,所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,包括:
利用所述第一抽取模型,对所述待分析文本中的事件先验信息进行事件信息的BIO标注,对所述待分析文本中的论元值进行论元信息的BIO标注,得到预测结果,所述预测结果包括携带事件信息的BIO标注信息和论元信息的BIO标注信息的待分析文本;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述待分析文本和所述事件信息的BIO标注信息,确定所述信息文本对应的事件信息;基于所述待分析文本和所述论元信息的BIO标注信息,确定所述信息文本中包括的论元角色和所述论元角色的论元值。
6.根据权利要求5所述的方法,其特征在于,所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,还包括:
利用所述第一抽取模型,对所述待分析文本中的触发词进行标注,所述预测结果还包括触发词的BIO标注信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,还包括:
基于所述待分析文本和所述触发词的BIO标注信息,确定所述信息文本中的触发词。
7.根据权利要求1所述的方法,其特征在于,所述第一抽取模型包括:预训练语言模型。
8.根据权利要求1所述的方法,其特征在于,预先基于多个第一训练语料训练得到所述第一抽取模型,包括:
分别针对多个初始语料中的每个初始语料添加事件先验信息,并针对添加事件先验信息后的初始语料标注事件标注信息和论元角色标注信息,得到第一训练语料;
将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模型学习所述多个第一训练语料中事件信息和论元信息、以及所述事件标注信息与所述论元角色标注信息之间的规约关系。
9.根据权利要求8所述的方法,其特征在于,所述预先基于多个第一训练语料训练得到所述第一抽取模型,还包括:
针对添加事件先验信息后的初始语料标注触发词标注信息;
所述将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模型学习所述多个第一训练语料中事件信息和论元信息、以及所述事件标注信息与所述论元角色标注信息之间的规约关系,包括:
将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模型学习所述多个第一训练语料中事件信息、论元信息和触发词信息、以及所述事件标注信息与所述论元角色标注信息之间的规约关系。
10.根据权利要求1所述的方法,其特征在于,所述根据预设规则,基于所述第一确定结果与第二确定结果,确定所述信息文本的分析结果,包括:
若所述第一确定结果与所述第二确定结果一致,以所述第一确定结果和所述第二确定结果中的任一作为所述信息文本的分析结果,并输出所述信息文本的分析结果,或者以结构化信息存储方式将所述信息文本的分析结果存储在结构化数据库中;或者,
若所述第一确定结果与所述第二确定结果不一致,以根据所述预设规则确定的所述第一确定结果或所述第二确定结果作为所述信息文本的分析结果,并输出所述信息文本的分析结果,或者以结构化信息存储方式将所述信息文本的分析结果存储在结构化数据库中;或者,
若所述第一确定结果与所述第二确定结果不一致,确定未得到所述信息文本的分析结果。
11.根据权利要求1所述的方法,其特征在于,还包括:
利用识别模型,识别所述信息文本中是否存在否定词、以及所述否定词是否作用于所述信息文本中的触发词;其中,所述识别模型预先基于否定词与触发词联合训练得到;
若所述信息文本中存在否定词、且所述否定词作用于所述信息文本中的触发词,基于所述否定词对所述信息文本对应的事件信息和论元信息进行修正;或者,丢弃所述信息文本对应的事件信息和论元信息。
12.一种信息分析装置,其特征在于,包括:
获取模块,用于获取信息文本;
添加模块,用于基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,得到待分析文本;
预测模块,用于利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果;其中,所述第一抽取模型预先基于多个第一训练语料训练得到,所述第一训练语料标注有事件标注信息和论元角色标注信息;
第一确定模块,用于基于所述预测结果,确定所述信息文本对应的事件信息和论元信息;
抽取模块,用于利用第二抽取模型,对所述信息文本中的事件信息与论元信息、以及所述事件信息与所述论元信息之间的关系进行三元组信息抽取,得到第二抽取结果;其中,所述第二抽取模型预先基于多个第二训练语料训练得到,所述第二训练语料标注有主实体标注信息、客实体标注信息、主实体与客实体之间关系标注信息,所述主实体包括事件,所述客实体包括论元角色;
第二确定模块,用于基于所述第二抽取结果,确定所述信息文本对应的事件信息和论元信息,得到第一确定结果;
第三确定模块,用于根据预设规则,基于所述第一确定结果与第二确定结果,确定所述信息文本的分析结果;其中,所述第二确定结果为基于所述预测结果确定的所述信息文本对应的事件信息和论元信息。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-11中任意一项所述的信息分析方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-11中任意一项所述的信息分析方法。
CN202110104560.1A 2021-01-26 2021-01-26 信息分析方法及装置、电子设备和计算机可读存储介质 Active CN112860852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110104560.1A CN112860852B (zh) 2021-01-26 2021-01-26 信息分析方法及装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110104560.1A CN112860852B (zh) 2021-01-26 2021-01-26 信息分析方法及装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112860852A CN112860852A (zh) 2021-05-28
CN112860852B true CN112860852B (zh) 2024-03-08

Family

ID=76009273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110104560.1A Active CN112860852B (zh) 2021-01-26 2021-01-26 信息分析方法及装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112860852B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676705A (zh) * 2021-06-17 2022-06-28 腾讯云计算(北京)有限责任公司 一种对话关系处理方法、计算机及可读存储介质
CN113434631B (zh) * 2021-06-25 2023-10-13 平安科技(深圳)有限公司 基于事件的情感分析方法、装置、计算机设备及存储介质
CN113761875B (zh) * 2021-07-21 2022-12-06 中国科学院自动化研究所 事件抽取方法、装置、电子设备及存储介质
CN113609391B (zh) * 2021-08-06 2024-04-19 北京金堤征信服务有限公司 事件识别方法及装置、电子设备、介质和程序
CN113761936B (zh) * 2021-08-19 2023-04-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN113779159A (zh) * 2021-08-19 2021-12-10 北京三快在线科技有限公司 模型训练、论元检测方法、装置、电子设备及存储介质
CN114065763A (zh) * 2021-11-24 2022-02-18 深圳前海环融联易信息科技服务有限公司 一种基于事件抽取的舆情分析方法、装置及相关组件

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN110704598A (zh) * 2019-09-29 2020-01-17 北京明略软件***有限公司 一种语句信息的抽取方法、抽取装置及可读存储介质
CN111222305A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种信息结构化方法和装置
CN111597817A (zh) * 2020-05-27 2020-08-28 北京明略软件***有限公司 一种事件信息抽取方法及装置
CN111967268A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
WO2020247616A1 (en) * 2019-06-07 2020-12-10 Raytheon Bbn Technologies Corp. Linguistically rich cross-lingual text event embeddings
CN112116075A (zh) * 2020-09-18 2020-12-22 厦门安胜网络科技有限公司 事件提取模型生成方法和装置、文本事件提取方法和装置
CN112149386A (zh) * 2020-09-25 2020-12-29 杭州中软安人网络通信股份有限公司 一种事件抽取方法、存储介质及服务器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
WO2020247616A1 (en) * 2019-06-07 2020-12-10 Raytheon Bbn Technologies Corp. Linguistically rich cross-lingual text event embeddings
CN110704598A (zh) * 2019-09-29 2020-01-17 北京明略软件***有限公司 一种语句信息的抽取方法、抽取装置及可读存储介质
CN111222305A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种信息结构化方法和装置
CN111597817A (zh) * 2020-05-27 2020-08-28 北京明略软件***有限公司 一种事件信息抽取方法及装置
CN111967268A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112116075A (zh) * 2020-09-18 2020-12-22 厦门安胜网络科技有限公司 事件提取模型生成方法和装置、文本事件提取方法和装置
CN112149386A (zh) * 2020-09-25 2020-12-29 杭州中软安人网络通信股份有限公司 一种事件抽取方法、存储介质及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于网络科技信息的事件抽取研究;刘振;;情报科学(第09期);117-119+124 *
基于语义的中文事件触发词抽取联合模型;李培峰;周国栋;朱巧明;;软件学报(第02期);90-104 *

Also Published As

Publication number Publication date
CN112860852A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112860852B (zh) 信息分析方法及装置、电子设备和计算机可读存储介质
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
JP6901816B2 (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
US10891322B2 (en) Automatic conversation creator for news
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN110287405B (zh) 情感分析的方法、装置和存储介质
US20210042391A1 (en) Generating summary content using supervised sentential extractive summarization
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN113032520A (zh) 信息分析方法及装置、电子设备和计算机可读存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
JP2019091450A (ja) ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
US9830533B2 (en) Analyzing and exploring images posted on social media
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及***
US10614100B2 (en) Semantic merge of arguments
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
CN112307738A (zh) 用于处理文本的方法和装置
CN116756281A (zh) 知识问答方法、装置、设备和介质
KR20210009885A (ko) 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체
CN112784015B (zh) 信息识别方法和装置、设备、介质和程序
CN113378983A (zh) 虚假评论检测方法、装置、存储介质与电子设备
CN113591467B (zh) 事件主体识别方法及装置、电子设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant