CN110633409B - 一种融合规则与深度学习的汽车新闻事件抽取方法 - Google Patents
一种融合规则与深度学习的汽车新闻事件抽取方法 Download PDFInfo
- Publication number
- CN110633409B CN110633409B CN201810638065.7A CN201810638065A CN110633409B CN 110633409 B CN110633409 B CN 110633409B CN 201810638065 A CN201810638065 A CN 201810638065A CN 110633409 B CN110633409 B CN 110633409B
- Authority
- CN
- China
- Prior art keywords
- news
- word
- event
- training
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种融合规则与深度学习的汽车新闻事件抽取方法,包括:文本预处理步骤,获取网络新闻文本数据,包括新闻语料和百科数据,对所述网络新闻文本数据进行文本预处理,基于预处理后的新闻语料和百科数据形成训练集,对词向量和字向量进行训练;基于规则的基模型构建步骤,提取汽车行业新闻事件所需抽取的关键属性,建立适用于汽车领域的本体知识库,构建基于规则的基模型;深度学习神经网络训练步骤,搭建并训练用于判断事件类别的BiLSTM+CRF网络;事件抽取步骤,基于所述BiLSTM+CRF网络对未标注新闻语料进行识别,获取对应的事件类别。与现有技术相比,本发明具有高效、精度高、适用于汽车行业领域等优点。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及信息抽取技术领域,尤其是涉及一种融合规则与深度学习的汽车新闻事件抽取方法。
背景技术
信息抽取(Information Extraction)是指从自然语言形式的文档中抽取人们所感兴趣的信息,并将其转变为结构化信息的过程,包括命名实体识别、关系抽取、事件抽取。事件抽取是从非结构化的文本中抽取出用户感兴趣的事件信息,并以结构化的形式保存起来以供后续的分析应用,其在自动摘要、自动问答、信息检索等领域有着广泛的应用。尤其是在“互联网+”为主导思想的新媒体强烈冲击下,信息量呈现指数级的增长,除了易于获得和处理数值型数据外,文本型数据中蕴藏的数量巨大、形式多样、内容丰富的信息更值得探索。
在行业领域,尤其是汽车行业,无时无刻都在产生着海量文本型数据,主要有新闻报道和网络舆情等,但难以获得和处理,信息不对称性在汽车行业文本中表现尤其显著。然而汽车行业不断竞争与发展,对汽车新闻事件越来越敏感。研究面向汽车领域的事件抽取对于深入分析汽车领域的文本信息、为汽车广告投放以及制定营销策略等具有重要意义。
由于中文表达方式多样、语义复杂,所以目前针对于这种非结构化的中文文本信息抽取的相关研究较少。同时事件句中的事件元素往往存在不同的特征和模式,不同主题事件所包含的事件元素不同,其识别难度也不同,因此现有的研究一般针对具体的文本或事件主题设计识别任务,集中在基于规则模式或者基于机器学习的方法。基于规则模式的方法的优点是所需要的标注语料较少,甚至可以不需要标注语料,规则可解释性强,易于调整,但该方法灵活性差,查全率较低,可移植性低。基于机器学习的方法一定程度上解决了上述问题,但学习模型效果的好坏在很大程度上依赖于训练语料的规模和标注质量,并且运行时间和效率均会随着语料中符号类别的多少呈线性增长。尽管这些研究取得了一定的成果,但它们与实际应用还存在较大差距。造成这一问题的根本原因是传统方法无法找到通用的模板或机器学习模型实现各语料通用的自动抽取。其主要问题具体体现在以下方面:
1)语料标注问题。传统的事件模板获取方法需要人工对训练语料进行标注,这种方法依赖于大量标注好的语料,不仅费时费力而且当训练语料发生变化时,事件模板还需要重新提取,代价过高。
2)***的移植性问题。为进一步减少人工标注,提高***的移植性,学者们已经开始探索使用半监督的方法来获取事件模板。国外学者英文语料中基于预定义种子模板应用文档相关度方法,但是中文特点不同,词汇表达更灵活,事件触发词个数更远大于英文触发词。即使用从语义相似度的方法与种子模板匹配,也会存在大量的无效模板,会迅速恶化抽取结果的准确率。
上述所存在的问题,严重制约了事件抽取在汽车行业中的研究和应用。传统的基于模式匹配的方法和基于机器学习的方法无法直接应用于汽车行业广告投放以及制定营销策略等,必须建立适应汽车行业的新型事件抽取方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种融合规则与深度学习的汽车新闻事件抽取方法。
本发明的目的可以通过以下技术方案来实现:
一种融合规则与深度学习的汽车新闻事件抽取方法,包括:
文本预处理步骤,获取网络新闻文本数据,包括新闻语料和百科数据,对所述网络新闻文本数据进行文本预处理,基于预处理后的新闻语料和百科数据形成训练集,对词向量和字向量进行训练;
基于规则的基模型构建步骤,提取汽车行业新闻事件所需抽取的关键属性,建立适用于汽车领域的本体知识库,构建基于规则的基模型;
深度学习神经网络训练步骤,搭建并训练用于判断事件类别的BiLSTM+CRF网络;
事件抽取步骤,基于所述BiLSTM+CRF网络对未标注新闻语料进行识别,获取对应的事件类别。
进一步地,所述获取网络新闻文本数据的具体过程包括:
步骤101:获取一段历史时间内的所有新闻信息的网址;
步骤102:提取需要的新闻信息及整个页面信息,并将每个新闻存储为一个文件,形成新闻语料;
步骤103:使用爬虫技术获取百科数据。
进一步地,对所述新闻语料的文本预处理具体为:
步骤201:将原有的新闻用空格作为每条新闻结束的标志将新闻重新进行划分,数据集的存储格式为:
News=[{original_news1,segmentation1,time1},{original_news2,segmentation2,time2,{},…}
其中,original_news为原始新闻标题,segmentation为用结巴分词对原始新闻标题进行分词后的结果,time为爬取到的新闻发布时间;
步骤202:剔除编码错误的数据。
进一步地,对词向量和字向量的训练过程中,
训练字向量时,对每个字之间用空格作为分隔符来训练;训练词向量时,用结巴分词对词语进行初步分词,然后输入Word2Vec进行词向量的训练。
进一步地,所述提取汽车行业新闻事件所需抽取的关键属性包括:
采用半监督机器学习算法从新闻文本中挖掘关键属性,构成新闻事件抽取的关键属性体系。
进一步地,所述本体知识库包括公司词库、高管职位词库、触发词库、事件结果词库、被动词否定词词库和新闻发生时态词库。
进一步地,所述基模型用于与本体知识库中的词库进行词语匹配,找到新闻事件中的触发词,再根据触发词所对应的不同模式来抽取其它相应的事件元素,
进一步地,所述规则模式包括:
1)主被动公司关系模式
[主动公司,新闻发生时态,(被动词),触发词,被动公司,事件结果]
2)单个公司事件模式
[主动/被动公司,新闻发生时态,(被动词),触发词,事件结果]
3)合作重组事件模式
[主动公司,主动公司,新闻发生时态,(否定词),触发词,事件结果]
4)倒装事件模式
[主动公司,新闻发生时态,股票机构,(被动词),触发词,事件结果]。
进一步地,所述BiLSTM+CRF网络训练时,以所述基模型的抽取结果和标注样本作为训练集。
进一步地,所述事件抽取步骤具体包括:
步骤701:读取待抽取的文本语料,对语料进行预处理;
步骤702:对于每一个句子进行分词处理,判断词语中是否包含触发词;
步骤703:判断分词后的每一个词语是否出现在事件角色词典中,标注事件角色特征,所述事件角色词典包括公司词库和高管职位词库;
步骤704:提取事件句中词语的特征,包括词语基本特征以及词语的上下文环境特征,生成统一格式文件,采用训练好的所述BiLSTM+CRF网络进行预测;
步骤705:循环处理事件句,完成事件抽取任务。
进一步地,所述步骤704中,对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。
与现有技术相比,本发明具有以下有益效果:
1、本发明改进了基于规则的新闻事件抽取方法。在总结传统模型的基础上,通过词向量的方法对其词库进行扩充,通过句法分析对其模式也进行扩充,使其可以覆盖更多的信息,更适合于汽车行业领域,得到了效果极大提升的改进的基于模式匹配的模型。
2、本发明提出了基于深度学习的新闻事件抽取方法。搭建BiLSTM+CRF深度学习神经网络用来更深层次的挖掘句子中词语之间的关系,针对于深度学习模型训练集过大无法获取的问题,创新性地提出了一种基于基模型的深度学习模型的半自动训练方法。将上述基于规则的方法作为深度学习模型训练的基模型,利用基模型以及少量的人工标注样本来半自动化的获得有标签的语料作为深度学习模型的训练集,通过训练获得了有较好事件抽取效果的深度学习模型。
附图说明
图1为本发明新闻事件抽取的整体流程图;
图2为文本预处理流程图;
图3为汽车相关事件的关键属性分类示意图;
图4为深度学习模型(BiLSTM+CRF网络)架构图;
图5为LSTM单元格基础结构。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本发明提供一种融合规则与深度学习的汽车新闻事件抽取方法,主要包括四大步骤:文本预处理步骤、基于规则的基模型构建步骤、深度学习神经网络训练步骤和事件抽取步骤。其中,文本预处理步骤包括文本获取和预处理,基于规则的基模型构建步骤包括新闻事件元素确定、领域本体知识库构建和基模型构建。本发明具体步骤描述如下:
步骤1,文本获取。
该步骤核心是网络爬虫技术,本发明通过分布式网络爬虫***进行文本爬取,解决爬虫在抓取网页过程中智能选择问题。
本发明建立有超大规模的、覆盖广的语料,用来训练词向量与字向量,作为深度学习模型的输入以及规则词库扩充的依据。
本实施例中,新闻语料来源于腾讯与新浪上的汽车新闻数据以及国内最大的汽车专业论坛“汽车之家”网爬取数据。文本的具体获取过程包括:
步骤101:获取到历史上一段时间内的所有新闻信息的网址;
步骤102:在html内容中提取需要的新闻信息,用urllib2对获取到的url地址进行解析,获取整个页面的信息,为了去除整个页面中包含的大量广告图片等冗余信息的干扰,用BeautifulSoup查找到新闻标题,新闻发布时间,新闻正文等信息,并将每个新闻存储为一个文件;
步骤103:使用爬虫技术获取3.76G的百度百科数据作为训练集来训练字向量与词向量;
步骤104:为了增加样本的多样性与领域相关性,又获取1.1G的***数据,将百度百科、***以及爬取到的新闻语料共同作为词向量与字向量的训练集。
步骤2,文本预处理。
该步骤包括对新闻语料的预处理以及对词向量语料的预处理两部分,以便后续模型高效地处理。文本预处理的具体流程如图2所示。
从互联网上抓取的数据常夹杂一些无用信息(噪声),如页面广告、页眉、页脚、灌水贴等,需要采取数据清洗机制,从源文本中抽取真正需要的文本。同时,网络中常发布一些虚假信息或软文,这类信息对后期结果往往影响很大,需采用虚假信息识别技术剔除此类噪声。在此基础上,利用中文分词处理软件,将句子划分为有意义的词语,在此过程中要借助汽车领域中的专业词库。
文本预处理中的新闻经常包含有多家汽车行业上市公司的相应新闻信息,而不同公司对应的信息之间通常在句内以空格作为分隔符,文本预处理具体过程包括:
步骤201:将原有的新闻用空格作为每条新闻结束的标志将新闻重新进行划分,按照json的格式进行存储,以更好的区分不同新闻的边界。数据集存储格式为:
News=[{original_news1,segmentation1,time1},{original_news2,segmentation2,time2,{},…}
其中original_news为原始新闻标题,segmentation为用结巴分词对原始新闻标题进行分词后的结果,time为爬取到的新闻发布时间;
步骤202:剔除编码错误的数据;
步骤203:训练字向量时,对每个字之间用空格作为分隔符来训练;
步骤204:训练词向量时,用结巴分词对词语进行初步分词,然后输入Word2Vec进行词向量的训练。
步骤3,新闻事件元素确定。
该步骤核心工作是确定汽车行业新闻事件所需抽取的因素,从代表性的文本中,抽取出描述汽车事件的关键属性。确定汽车行业新闻事件所需抽取的因素为了完整详尽的反映出每条新闻中蕴含的信息,以实现自动化的抽取与识别。该问题的难点在于文本包括非结构化数据、文章类型不一、各种属性散落在文章中不同位置、有的属性多次出现、有些属性缺失、事件类型一般无法从文章中直接得到等。本发明采用半监督机器学习算法,对一部分新闻进行人工标注,通过监督学习算法从文中挖掘关键属性,之后对大量未标注文章进行自动学习,提取事件关键属性。本发明构建了新的新闻事件抽取的关键属性体系,对于每条新闻关键属性衡量其所包含的信息,抽取相应的属性值。抽取的汽车事件的主要属性如图3所示。
步骤4,领域本体知识库构建。
要识别事件仅知道词性远远不够,需要有语义的标识。为此,本发明建立适用于汽车领域的本体知识库,根据知识库进行词语的自动化语义标注。
自动化语义标注的时候,为了提高标注效率,本发明采用了brat进行文本语料的快速标注,通过配置相应服务器环境,上传标注规则与待标注文档,可以在网页上实现新闻语料的快速标注。
表1本体词库及含义
领域本体知识库构建涉及到如表1所示的3大类7种词库的构建与扩充,具体获取过程包括:
步骤401:针对公司词库,原始公司词库中只包含A股上市公司的简称,因此通过Wind数据终端获取到了所有上市公司的简称,全称以及曾用名信息,扩充了公司词库中的词语数量;
步骤402:针对高管职位词库,原始高管词库局限于董事长、总经理级别,不够精细,因此将公司高管的范围向下扩充一级到各个部门的总监与代表,扩充了高管职位词库;
步骤403:针对触发词库,将每一类事件的名称作为中心词,计算词向量模型中所有其它词语与它们的距离,对每类事件找出与其距离最近的50个词语,再通过人工筛选选出能反映该类事件的词语,添加到该类触发词词库中,扩充了触发词词库;
步骤404:针对事件结果词库,定义为反应事件成功或者失败的结果和反应公司盈利水平或者相应数据增加或减少的结果。因此,将成功以及增加作为第一类事件结果的中心词,将失败以及减少作为第二类事件结果的中心词,计算其余词语距它们的距离,选出距离最近的50个词语进行人工筛选,删除其中语义不符的词语,扩充了事件结果词库;
步骤405:针对被动词和否定词,二者出现位置比较灵活,且词汇很少,多以单字词语为主,现有模式匹配中只在固定的位置上才能找到相应的被动与否定词,因此加入了后处理机制,将与词库匹配且分词分开的新闻中的词语均标为被动词或否定词,扩充了被动词和否定词词库;
步骤406:针对新闻发生时态词库,一旦词语中含有月、日、年、周等字就将其提取为新闻发生时态,扩充了新闻发生时态词库。
步骤5,基于规则的基模型构建。
通过设置词库进行词语匹配,先找到新闻事件中的触发词,再根据触发词所对应的不同模式来抽取其它相应的事件元素。基模型构建的核心工作是针对不同触发词及事件类型定义四种不同的模式规则:
1)主被动公司关系模式
[主动公司,新闻发生时态,(被动词),触发词,被动公司,事件结果]
该种模式主要用于抽取涉及到主动以及被动公司的事件,确定公司的主被动关系,比如:增减持,兼并收购,控股,借壳以及诉讼类事件。
2)单个公司事件模式
[主动(被动)公司,新闻发生时态,(被动词),触发词,事件结果]
该模式主要用于抽取一个公司单独发生的事件,比如盈利增长,发行新股,股份冻结等事件。
3)合作重组事件模式
[主动公司,主动公司,新闻发生时态,(否定词),触发词,事件结果]
该模式主要用于抽取重组,合作等涉及到两个以及更多主动公司的事件。
4)倒装事件模式
[主动公司,新闻发生时态,股票机构,(被动词),触发词,事件结果]
该模式主要用于违法、违纪、整改等倒装类句式的事件抽取。
在某些实施例中,除了上述四种不同的模式规则外,还可采用以下4种改进方案:
①事件结果的规则改进
在事件结果的触发词库中删除了成功以及增长类的词语,只保留失败以及减少类词语。这样针对每条新闻的事件抽取结果,如果其中没有抽取到相应的事件结果词语,本发明均默认该事件是成功或业绩是增长的。如果匹配到了词库中的失败或减少类的事件结果词语,本发明就将该事件标注为失败类或业绩减少类事件。
②新闻发生时态的规则改进
本发明在提取新闻发生时态时除了词库比对以外还加入了模式匹配,一旦词语中含有月、日、年、周等字本发明就将其提取为新闻发生时态。
③高管职位的规则改进
在本发明的规则抽取模型中采用了部分匹配的方法,一旦高管词库中的词语包含于新闻中的相应词汇,则将该词提取为高管职位。
④被动词和否定词的规则改进
本发明的规则匹配模型在原有模型的基础上加入了后处理机制,将与词库匹配且分词分开的新闻中的词语均标为被动词或否定词。
步骤6,深度学习神经网络训练。
本发明搭建BiLSTM(Bi-directional LSTM,双向长短时记忆循环)+CRF(Conditional Random Field,条件随机场)网络来更深层次地挖掘句子中词语之间的关系,利用BiLSTM+CRF网络对文本的字序列进行标注,经过大量的参数调整并加入Dropout机制,得到判断事件类别的模型。
BiLSTM+CRF网络构建的基本思路是通过基模型的抽取结果结合少量标注样本作为BiLSTM+CRF模型的训练集,将训练的模型用于汽车行业文本的抽取。
如图4所示,模型底层为输入文本每个词语所对应的字向量,字向量连接的是双层LSTM网络,其中前向网络用于抽取每个字与前文之间的模式关联,反向网络用于抽取每个字与后文之间的模式关联。在双向LSTM上部连接了CRF层,利用BiLSTM网络的输出作为输入,进一步抽取其中的模式关联。整个网络通过训练集误差的反向传播算法进行矩阵参数的更新。
由图4可知,在BiLSTM+CRF模型中需要将每个中文汉字转换为向量表示才能完成模型的训练,好的字向量模型可以作为先验知识辅助深度学习模型进行文本中模式的识别与事件的抽取,从而极大地提升深度学习模型的准确率。因此,在4.8G的百度百科与***(中文)的基础上进一步加入了300M的各类新闻文本的语料,以期涵盖中文文本的各种表达方式。使用Word2Vec中的CBOW模型训练得到字向量模型作为BiLSTM+CRF模型的输入,使得模型能提前获取到部分汉字中字与字间的搭配关系。同时为了防止模型的过拟合加入Dropout机制,即模型在训练时会随机将一部分模型中矩阵的参数设置为0,使得模型重新进行相应参数的优化,从而跳出局部最优解。
本发明的BiLSTM+CRF模型中,BiLSTM是由两层方向相反的LSTM构成,如图5所示为每一层LSTM单元格基础结构,该结构加入了细胞单元和门控制机制用来解决长距离依赖问题与梯度消失问题,其中的三个用来识别并筛选信息的门结构功能如下:
输入门:用当前的信息以及上一个隐藏层传过来的信息作为输入,用来决定流向当前区块的信息,只保留其中有用的信息。
遗忘门:用来对上一个隐藏层传过来的信息进行过滤,保留其中有用的信息。
输出门:对上一个隐层的信息做进一步筛选,将有用的信息融合到最终的输出中。
在t时刻每个门的表达形式如公式(1)-(5)所示:
it=σ(Wt·[ht-1,xt]+bi) (1)
ft=σ(Wf·[ht-1,xt]+bf) (2)
ot=σ(Wo·[ht-1,xt]+bo) (3)
Ct=ft·Ct-1+it·tanh(Wc*[ht-1,xt]+bc) (4)
ht=ot·tanh(Ci) (5)
其中it,ft,ot,Ct分别代表t时刻输入门,遗忘门,输出门和细胞状态的输出,xt表示t时刻输入模型的向量,ht表示t时刻区块中隐藏层中的向量,σ表示sigmoid激活函数,W和b分别表示不同门内待训练的权重矩阵和偏置向量。
本发明将BiLSTM网络中上层的激活函数替换为了条件随机场CRF层,以抽取更深层次的文本上下文之间的联系,其简要工作原理如下:
对于一个特定的句子的输入X:
X=(x1,x2,…,xn) (6)
以及其对应的预测序列Y:
Y=(y1,y2,…,yn) (7)
定义该组预测序列的得分如公式(8)所示:
其中P为BiLSTM网络输出的输入句子X在每一个标签上的得分矩阵,A为不同标签之间的转移概率矩阵。对于所有可能的标签序列y应用softmax函数可以得到正确结果为序列y的概率如公式(9)所示:
其中YX表示输入句子X的所有可能的标签序列。所以在训练网络的时候,本发明最大化正确句子标签的对数概率,并通过训练集中误差的反向传播训练模型中的矩阵参数,对数概率如公式(10)所示:
在预测的时候本发明将获得最大分数的输出序列y作为预测结果,如公式(11)所示:
步骤7,事件抽取。
对于需要抽取事件的未标注语料,通过应用融合规则与深度学习的汽车新闻事件抽取模型抽取事件的各个元素词语,获取事件所属的事件类别。该部分的核心工作包括读取待抽取的文本语料,对语料进行预处理、判断是否归为候选事件、应用融合规则与深度学习的汽车新闻事件抽取模型获取最终的事件元素,直到完成全部事件抽取任务。其中,事件元素种类及具体含义见表2。
表2事件元素种类及含义
事件抽取具体过程包括:
步骤701:读取待抽取的文本语料,对语料进行预处理。
步骤702:对于每一个句子进行分词处理,判断词语中是否包含触发词。
步骤703:判断分词后的每一个词语是否出现在事件角色词典中,标注事件角色特征。
步骤704:提取事件句中词语的特征,包括词语基本特征以及词语的上下文环境特征。生成统一格式的文件进行处理,采用融合规则与深度学习的汽车新闻事件抽取模型进行预测,对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。
步骤705:循环处理事件句,最终完成事件抽取任务。
下面结合具体实例对本发明做进一步说明:
一条新闻中经常包含有多家上市公司的相应新闻信息,而不同公司对应的信息之间通常在句内以空格作为分隔符。比如有如下新闻:
国内新车:普桑竟能这样拉货五菱宏光这次遇到对手了
对上述新闻空格前表示普桑事件,而空格后则代表了五菱宏光事件。因此,对抽取到的新闻语料,本发明将将原有的新闻用空格作为每条新闻结束的标志将新闻重新进行划分,并按照json的格式进行存储,以更好的区分不同新闻的边界。其中数据集存储格式为:
News=[{original_news1,segmentation1,time1},{original_news2,segmentation2,time2,{},…}
其中original_news为原始新闻标题,segmentation为用结巴分词对原始新闻标题进行分词后的结果,time为爬取到的新闻发布时间。
基于规则的基模型构建中的半自动化语义标注为:通过选择相应的标签,实现文本的标注记录。为了方便数据处理,本发明加入了文本转换机制,将标注样本全部转换为json格式进行存储,以一条新闻为例数据存储格式如下:
{news}={"id":"100235835-185763975",
"original_news":"晚间利好:宝马净利润增长27倍本田增近3倍",
"url":"http://stock.hexun.com/2016-08-29/185763975.html",
"time":"2016-08-29 17:27:20",
"segmentation":["晚","间","利","好",":","宝马","净利润","增长","2","7","倍","","本田","增","近","3","倍"],
"news_tags":["O","O","O","O","O","主动公司","公司盈利","事件结果","O","O","O","O","主动公司","公司盈利","O","O","O"]}
其中,对于事件属性,以影响汽车销售的事件为例为说明,具体见图3,本实施例总结了以下事件:国家或地区政策类事件(如国V排放标准、上海新能源汽车发展规划)、汽车领域类事件(如车展、汽车新技术发展、自动驾驶、电动汽车)、本企业及相关企业事件(如汽车质量安全、汽车召回、营销事件)、竞争对手事件(如竞争对手广告、汽车质量安全、召回)。这些事件一般深藏于文本之中,传统方式只能是人工阅读并整理,存储于数据库,这种方式费时费力、及时性差,一般企业难以实施。本发明识别出与汽车营销相关的各类事件,利用本体技术(Ontology)进行语义表示,建立事件的本体知识库,存储于事件库中。
深度学习网络是针对于字级别来进行标签的自动学习。因此本发明引入了分词领域内的“BEIO”的字级别标注方法并与传统标签相结合,重新架构了模型的标签输出体系,将模型的输出标签分为两个维用‘-’分隔,第一个维度表示这个字在词语中的位置(B:词语开头,I词语中间,E:词语结尾,O-单字词语),第二个维度表示这个字所在的词语所对应的事件类别标签。
基于规则的基模型的训练时,将上条新闻中的每个字所对应的字向量(50维)作为深度学***行映射到了自然数集上,供模型学习。
在测试时,本实施例将新闻中每个字对应的字向量输入到模型中,通过CRF层的输出就可以得到每个字对应的标签,反向映射并组合后,就可以得到新闻对应的事件元素的分词及标签信息。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (8)
1.一种融合规则与深度学习的汽车新闻事件抽取方法,其特征在于,包括:
文本预处理步骤,获取网络新闻文本数据,包括新闻语料和百科数据,对所述网络新闻文本数据进行文本预处理,基于预处理后的新闻语料和百科数据形成训练集,对词向量和字向量进行训练;
基于规则的基模型构建步骤,提取汽车行业新闻事件所需抽取的关键属性,建立适用于汽车领域的本体知识库,构建基于规则的基模型;
深度学习神经网络训练步骤,搭建并训练用于判断事件类别的BiLSTM+CRF网络;
事件抽取步骤,基于所述BiLSTM+CRF网络对未标注新闻语料进行识别,获取对应的事件类别;
所述本体知识库包括公司词库、高管职位词库、触发词库、事件结果词库、被动词否定词词库和新闻发生时态词库;
所述基模型用于与本体知识库中的词库进行词语匹配,找到新闻事件中的触发词,再根据触发词所对应的不同规则模式来抽取其它相应的事件元素,
所述规则模式包括:
1)主被动公司关系模式
[主动公司,新闻发生时态,触发词,被动公司,事件结果]
2)单个公司事件模式
[主动/被动公司,新闻发生时态,触发词,事件结果]
3)合作重组事件模式
[主动公司,主动公司,新闻发生时态,触发词,事件结果]
4)倒装事件模式
[主动公司,新闻发生时态,股票机构,触发词,事件结果]。
2.根据权利要求1所述的融合规则与深度学习的汽车新闻事件抽取方法,其特征在于,所述获取网络新闻文本数据的具体过程包括:
步骤101:获取一段历史时间内的所有新闻信息的网址;
步骤102:提取需要的新闻信息及整个页面信息,并将每个新闻存储为一个文件,形成新闻语料;
步骤103:使用爬虫技术获取百科数据。
3.根据权利要求1所述的融合规则与深度学习的汽车新闻事件抽取方法,其特征在于,对所述新闻语料的文本预处理具体为:
步骤201:将原有的新闻用空格作为每条新闻结束的标志将新闻重新进行划分,数据集的存储格式为:
News=[{original_news1,segmentation1,time1},{original_news2,segmentation2,time2,{},…}
其中,original_news为原始新闻标题,segmentation为用结巴分词对原始新闻标题进行分词后的结果,time为爬取到的新闻发布时间;
步骤202:剔除编码错误的数据。
4.根据权利要求3所述的融合规则与深度学习的汽车新闻事件抽取方法,其特征在于,对词向量和字向量的训练过程中,
训练字向量时,对每个字之间用空格作为分隔符来训练;训练词向量时,用结巴分词对词语进行初步分词,然后输入Word2Vec进行词向量的训练。
5.根据权利要求1所述的融合规则与深度学习的汽车新闻事件抽取方法,其特征在于,所述提取汽车行业新闻事件所需抽取的关键属性包括:
采用半监督机器学习算法从新闻文本中挖掘关键属性,构成新闻事件抽取的关键属性体系。
6.根据权利要求1所述的融合规则与深度学习的汽车新闻事件抽取方法,其特征在于,所述BiLSTM+CRF网络训练时,以所述基模型的抽取结果和标注样本作为训练集。
7.根据权利要求1所述的融合规则与深度学习的汽车新闻事件抽取方法,其特征在于,所述事件抽取步骤具体包括:
步骤701:读取待抽取的文本语料,对语料进行预处理;
步骤702:对于每一个句子进行分词处理,判断词语中是否包含触发词;
步骤703:判断分词后的每一个词语是否出现在事件角色词典中,标注事件角色特征,所述事件角色词典包括公司词库和高管职位词库;
步骤704:提取事件句中词语的特征,包括词语基本特征以及词语的上下文环境特征,生成统一格式文件,采用训练好的所述BiLSTM+CRF网络进行预测;
步骤705:循环处理事件句,完成事件抽取任务。
8.根据权利要求7所述的融合规则与深度学习的汽车新闻事件抽取方法,其特征在于,所述步骤704中,对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810638065.7A CN110633409B (zh) | 2018-06-20 | 2018-06-20 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810638065.7A CN110633409B (zh) | 2018-06-20 | 2018-06-20 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633409A CN110633409A (zh) | 2019-12-31 |
CN110633409B true CN110633409B (zh) | 2023-06-09 |
Family
ID=68967554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810638065.7A Active CN110633409B (zh) | 2018-06-20 | 2018-06-20 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633409B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348018A (zh) * | 2019-07-16 | 2019-10-18 | 苏州大学 | 使用局部学习完成简易事件抽取的方法 |
CN111310461B (zh) * | 2020-01-15 | 2023-03-21 | 腾讯云计算(北京)有限责任公司 | 事件元素提取方法、装置、设备及存储介质 |
CN110968661A (zh) * | 2020-03-04 | 2020-04-07 | 成都数联铭品科技有限公司 | 事件抽取方法及***、计算机可读存储介质及电子设备 |
CN111325020B (zh) * | 2020-03-20 | 2023-03-31 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN113496118B (zh) * | 2020-04-07 | 2024-05-31 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN111597350B (zh) * | 2020-04-30 | 2023-06-02 | 西安理工大学 | 基于深度学习的轨道交通事件知识图谱构建方法 |
CN111625584A (zh) * | 2020-05-22 | 2020-09-04 | 中国航天科工集团第二研究院 | 一种基于事件抽取与规则引擎的盗窃事件赃物归属方法 |
CN111767408B (zh) * | 2020-05-27 | 2023-06-09 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
CN111597328B (zh) * | 2020-05-27 | 2022-10-18 | 青岛大学 | 一种新事件主题提取方法 |
CN111859887A (zh) * | 2020-07-21 | 2020-10-30 | 北京北斗天巡科技有限公司 | 一种基于深度学习的科技新闻自动写作*** |
CN111950199A (zh) * | 2020-08-11 | 2020-11-17 | 杭州叙简科技股份有限公司 | 一种基于地震新闻事件的地震数据结构化自动方法 |
CN112000792A (zh) * | 2020-08-26 | 2020-11-27 | 北京百度网讯科技有限公司 | 自然灾害事件的抽取方法、装置、设备以及存储介质 |
CN112163137A (zh) * | 2020-09-02 | 2021-01-01 | 北京神鹰城讯科技股份有限公司 | 一种基于数据采集和信息抽取的房屋租赁信息搜索方法 |
CN112580330B (zh) * | 2020-10-16 | 2023-09-12 | 昆明理工大学 | 基于中文触发词指导的越南语新闻事件检测方法 |
CN112269949B (zh) * | 2020-10-19 | 2023-09-22 | 杭州叙简科技股份有限公司 | 一种基于事故灾害新闻的信息结构化方法 |
CN112307364B (zh) * | 2020-11-25 | 2021-10-29 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN112800764B (zh) * | 2020-12-31 | 2023-07-04 | 江苏网进科技股份有限公司 | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 |
CN113157873B (zh) * | 2021-01-25 | 2024-05-28 | 北京海致星图科技有限公司 | 一种基于模板匹配和深度学习的知识库问答***构建方法 |
CN112967144B (zh) * | 2021-03-09 | 2024-01-23 | 华泰证券股份有限公司 | 一种金融信用风险事件抽取方法、可读存储介质及设备 |
CN112966525B (zh) * | 2021-03-31 | 2023-02-10 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
CN113010593B (zh) * | 2021-04-02 | 2024-02-13 | 北京智通云联科技有限公司 | 非结构化文本的事件抽取方法、***及装置 |
CN113076468B (zh) * | 2021-04-27 | 2024-03-15 | 华东理工大学 | 一种基于领域预训练的嵌套事件抽取方法 |
CN112989031B (zh) * | 2021-04-28 | 2021-08-03 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻事件要素抽取方法 |
CN113570747B (zh) * | 2021-06-29 | 2023-05-23 | 东风汽车集团股份有限公司 | 一种基于大数据分析的行驶安全监测***和方法 |
CN113722478B (zh) * | 2021-08-09 | 2023-09-19 | 北京智慧星光信息技术有限公司 | 多维度特征融合相似事件计算方法、***及电子设备 |
CN113792545B (zh) * | 2021-11-16 | 2022-03-04 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN113901826A (zh) * | 2021-12-08 | 2022-01-07 | 中国电子科技集团公司第二十八研究所 | 基于串行混合模型的军事新闻实体识别方法 |
CN114282534A (zh) * | 2021-12-30 | 2022-04-05 | 南京大峡谷信息科技有限公司 | 一种基于要素信息抽取的气象灾害事件聚合方法 |
CN114818721B (zh) * | 2022-06-30 | 2022-11-01 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
CN117454987B (zh) * | 2023-12-25 | 2024-03-19 | 临沂大学 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10268679B2 (en) * | 2016-12-02 | 2019-04-23 | Microsoft Technology Licensing, Llc | Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network |
-
2018
- 2018-06-20 CN CN201810638065.7A patent/CN110633409B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及*** |
Non-Patent Citations (1)
Title |
---|
结合注意力机制的Bi-LSTM维吾尔语事件时序关系识别;田生伟等;《东南大学学报(自然科学版)》;20180531(第3期);第393-399页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110633409A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN110110335B (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
Qiao et al. | A joint model for entity and relation extraction based on BERT | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答***的构建方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN111325029A (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN111143574A (zh) | 一种基于少数民族文化知识图谱的查询及可视化***构建方法 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN113901228B (zh) | 融合领域知识图谱的跨境民族文本分类方法及装置 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、***及装置 | |
CN117056451A (zh) | 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法 | |
Rao et al. | Enhancing multi-document summarization using concepts | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助***及其控制方法 | |
CN115730078A (zh) | 用于类案检索的事件知识图谱构建方法、装置及电子设备 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Huang Hailiang Inventor after: Han Songqiao Inventor before: Han Songqiao |
|
GR01 | Patent grant | ||
GR01 | Patent grant |