CN108446355B

CN108446355B - 投融资事件要素抽取方法、装置及设备

Info

Publication number: CN108446355B
Application number: CN201810199789.6A
Authority: CN
Inventors: 张俊; 毛瑞彬; 邓永翠; 朱菁; 邢精平
Original assignee: SHENZHEN SECURITIES INFORMATION CO Ltd
Current assignee: SHENZHEN SECURITIES INFORMATION CO Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2022-05-20
Anticipated expiration: 2038-03-12
Also published as: CN108446355A

Abstract

本发明公开了一种投融资事件要素抽取方法，能够通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量；然后根据文本段特征向量，利用预先训练好的分类模型判断新闻文本段是否包含投融资事件；最后对从包含投融资事件的新闻文本段中抽取出投融资事件要素，得到投融资事件要素数据。可见，该方法能够将新闻文本中的投融资事件要素抽取出来，有效降低了分析投融资事件新闻的难度。此外，本发明还提供了一种投融资事件要素抽取装置、设备以及一种计算机可读存储介质，其作用与上述方法的作用相对应。

Description

投融资事件要素抽取方法、装置及设备

技术领域

本发明涉及金融领域，特别是涉及一种投融资事件要素抽取方法、装置、设备以及一种计算机可读存储介质。

背景技术

企业投资是指企业以自有的资产投入，承担相应的风险，以期合法地取得更多的资产或权益的一种经济活动。企业融资是指企业从自身生产经营现状及资金运用情况出发，根据企业未来经营与发展策略的需要，通过一定的渠道和方式，利用内部积累或向企业的投资者及债权人筹集生产经营所需资金的一种经营活动。

随着“大众创新、万众创业”政策的开展，目前国内创新创业投融资活动较为频繁，2017年全国投融资金额接近1万亿人民币，关乎我国金融稳定运行。对投融资事件的分析，有助于帮助企业更好的利用资源。但是投融资新闻对于投融资事件的描述一般是文本格式的，难以直接进行结构化的计算和分析。

因此，如何降低分析投融资事件新闻的难度，是丞待本领域技术人员解决的问题。

发明内容

本发明的目的是提供一种投融资事件要素抽取方法、装置、设备以及一种计算机可读存储介质，用以解决传统分析投融资事件新闻难度较高的问题。

为解决上述技术问题，本发明提供一种投融资事件要素抽取方法，包括：

通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量；

根据所述文本段特征向量，利用预先训练好的分类模型判断所述新闻文本段是否包含投融资事件；

若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据。

其中，在所述通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量之前，包括：

利用爬虫从投融资事件发布平台获取新闻文本；

按照预设规则对所述新闻文本进行分段，得到新闻文本段。

其中，在所述若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据之后，包括：

将所述投融资事件要素数据写入数据库。

对所述投融资事件要素数据进行验证；

对验证通过的所述投融资事件要素数据进行标记。

其中，所述若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据包括：

若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来；

将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式，得到投融资事件要素数据。

其中，所述将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式，得到投融资事件要素数据包括：

预先通过建立企业名称库，构建企业名称映射方法；

通过所述企业名称映射方法，将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式，得到投融资事件要素数据。

本发明还提供了一种投融资事件要素抽取装置，包括：

特征向量构建模块：用于通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量；

投融资事件判断模块：用于根据所述文本段特征向量，利用预先训练好的分类模型判断所述新闻文本段是否包含投融资事件；

投融资事件要素抽取模块：用于若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据。

其中，所述投融资事件要素抽取模块包括：

投融资事件要素抽取单元：用于若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来；

企业名称映射模块：用于将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式，得到投融资事件要素数据。

此外，本发明还提供了一种投融资事件要素抽取设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的投融资事件要素抽取方法的步骤。

最后，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的投融资时间要素抽取方法的步骤。

本发明所提供的投融资事件要素抽取方法，能够通过对新闻文本段中的投融资事件要素进行命名体识别，构建文本段特征向量；然后根据文本段特征向量，利用预先训练好的分类模型判断新闻文本段是否包含投融资事件；最后对从包含投融资事件的新闻文本段中抽取出投融资事件要素，得到投融资事件要素数据。可见，该方法能够将新闻文本中的投融资事件要素抽取出来，有效降低了分析投融资事件新闻的难度。

本发明还提供了一种投融资事件要素抽取装置、设备以及一种计算机可读存储介质，其作用与上述方法的作用相对应，这里不再赘述。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种投融资事件要素抽取方法实施例的实现流程图；

图2为本发明提供的一种投融资事件要素抽取装置实施例的结构框图。

具体实施方式

本发明的核心是提供一种投融资事件要素抽取方法、装置、设备以及一种计算机可读存储介质，有效降低了分析投融资事件新闻的难度。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面开始详细介绍本发明提供的投融资事件要素抽取方法实施例，参见图1，该实施例具体包括：

步骤S11：通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量。

可以利用爬虫从投融资事件发布平台获取新闻文本，按照预设规则对所述新闻文本进行分段，得到新闻文本段。命名体识别，指的是识别文中具有特定意义的实体，例如人名、地名、机构名以及专有词等。具体的，通过爬虫对各大投融资新闻网站、创业网站和地方园区发布平台进行监控和爬取，获取实时的新闻文本，对新闻文本进行分段，分段规则可以以每个自然段为一段，然后对每个文本段分词并进行命名实体识别，获取时间、机构名称和金融词汇等信息。

步骤S12：根据所述文本段特征向量，利用预先训练好的分类模型判断所述新闻文本段是否包含投融资事件。

通过获取的事件、机构名称和金融词汇以及相关关键词可以判断该文本段是否包含投融资事件，具体的，构建文本段特征向量，包括是否包含时间、是否包含机构、是否包含金额、是否包含相关金融词汇和文本段长度等，然后使用分类算法对特征向量进行训练，得到分类模型，通过分类模型可以判断后续文本段是否包含投融资事件。

步骤S13：若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据。

本实施例中，步骤S13通过预先经过训练的事件抽取模型来实现，对于事件抽取模型的训练过程，具体可以如下：

首先，准备用于训练模型的语料。在本实施例中，也就是对确定包含投融资事件的文本段进行序列标注，标注要素主要包括融资时间(time)、融资企业(fincom)、主营业务(business)、融资项目(project)、轮次(round)、金额(amount)、领投企业(leadinvcom)、其他投资企业(otherinvcom)、领头人(leadinvind)、其他投资人(otherinvind)、公司主营业务(business)等，可以采用BIOES标注法，其中B指开始(begin)，I指中间(Internal)，O指无关(Others)，E指结束(End)，S指单个元素(Single)。如“电商百宝新媒体于10月份完成1.4亿元B轮融资，由拉芳家化、新东方联合投资”的标注结果为“电商/business-S百宝/fincon-B新媒体/fincon-E于/O 10月份/time-S完成/O 1.4亿/amount-B元/amount-E B轮/round-s融资/O，由/O拉芳家化/leadinvcom-S、新东方联合/leadinvcom-S投资/O”。

然后，当积累一定的已经标注的文本段后，通过深度学习对部分语料进行训练，构建事件抽取模型，还可以把其余语料通过时间抽取模型进行事件要素识别，然后通过人工或脚本对识别结果进行校正，校正后的语料放回训练库重新训练。

具体的校正算法步骤可以如下：判断BIOES标签是否存在未开始、未结束、嵌套等情况；判断标注要素是否缺失，比如少了融资企业或轮次；通过词性规则判断标注是否闭合。

人工对算法提示的异常结果进行再次校正，由于语料规模比较大，可以不追求语料的完全准确，当算法加人工校正两到三轮后即可停止校正。通过多次迭代，构建了一段时间内所有投融资事件要素抽取语料，训练、优化后得到最终稳定的事件要素抽取模型。该模型算法可以分为以下五步：

1、选择投融资新闻座位语料，并分词，训练ngram(n＝1,2,3)词向量表；

2、通过查找词向量表，把对已经标注的投融资文本段中包含的文本中的词转化为向量形式进行向量化，构建特征矩阵向量；

3、把特征矩阵向量输入多层神经网络进行编码；

4、在将编码后的隐层结果再输入概率图模型进行解码，；

5、通过前馈法对模型进行迭代优化，最终损失函数收敛，得到稳定的模型。

最终得到事件抽取模型，即可实现将新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据的目的。具体的，在得到投融资事件要素数据之后，还可以将所述投融资事件要素数据写入数据库。甚至，还可以对所述投融资事件要素数据进行验证，对验证通过的所述投融资事件要素数据进行标记。

值得注意的是，由于新闻文本中的融资企业多为简称，规范性较差，难以和企业注册名称匹配，因此一般需要进行映射处理。比如“百宝新媒体”实际上是企业简称，有些文本可能会写作“百宝”等等，从字面上不能认定是同一家公司，所以需要映射到企业全称“宿迁市百宝信息科技有限公司”上，使用统一的ID，方便下游应用的计算。

目前映射处理主要有几种方法：一是直接通过企业名称库进行全文检索，完全匹配的可直接映射；二是对需要映射的企业名称进行互联网搜索，获取企业简介或者百科类文本，对文本进行命名实体识别，并对企业简称和文本中提及的企业名称进行关系判断，根据多篇文本中关系结果进行综合判断，确定企业全称；三是通过企业知识图谱进行判断，通过企业简介及百科类文本，对文本进行命名实体识别和关系识别，构建实体子图，在企业知识图谱中进行子图匹配，最终确定映射关系。

本实施例中，可以预先通过互联网信息或者知识图谱的方式，建立企业名称库，同时所述企业名称库确定企业名称映射方法。在后续映射步骤中，可以通过所述企业名称映射方法将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式。如果不能完全匹配，可以再进行互联网搜索，最后还可以考虑通过企业知识图谱来进行匹配。当然，本实施例对选择何种方法进行企业名称映射不做具体限定。

综上可知，本实施例所提供的投融资事件要素抽取方法，能够通过对新闻文本段中的投融资事件要素进行命名体识别，构建文本段特征向量；然后根据文本段特征向量，利用预先训练好的分类模型判断新闻文本段是否包含投融资事件；最后对从包含投融资事件的新闻文本段中抽取出投融资事件要素，得到投融资事件要素数据。实现了将新闻文本中的投融资事件要素抽取出来，将投融资新闻文本转化成了更便于分析的结构化数据，有效降低了分析投融资事件新闻的难度。

下面对本发明实施例提供的投融资事件要素抽取装置进行介绍，下文描述的投融资事件要素抽取装置与上文描述的投融资事件要素抽取方法可相互对应参照。

图2为本发明实施例提供的投融资事件要素抽取装置的结构框图，参照图2，该装置具体包括：

特征向量构建模块21：用于通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量。

投融资事件判断模块22：用于根据所述文本段特征向量，利用预先训练好的分类模型判断所述新闻文本段是否包含投融资事件。

投融资事件要素抽取模块23：用于若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据。

其中，所述投融资事件要素抽取模块包括：

本实施例的投融资事件要素抽取装置用于实现前述的投融资事件要素抽取方法，因此该装置中的具体实施方式可见前文中的投融资事件要素抽取方法的实施例部分，例如，特征向量构建模块21、投融资事件判断模块22、投融资事件要素抽取模块23，分别用于实现上述投融资事件要素抽取方法中步骤S11、S12、S13，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

由于本实施例提供的投融资事件要素抽取装置用于实现前述投融资事件要素抽取方法，因此其作用与上述投融资事件要素抽取方法的作用相对应，这里不再赘述。

存储器：用于存储计算机程序；

由于本申请提供的投融资事件要素抽取设备以及一种计算机可读存储介质用于实现前述投融资事件要素抽取方法，因此其作用与上述投融资事件要素抽取方法的作用相对应，这里不再展开介绍。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的投融资事件要素抽取方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种投融资事件要素抽取方法，其特征在于，包括：

通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量，所述投融资事件要素包括融资时间、融资企业、主营业务、融资项目、轮次、金额、领投企业、其他投资企业、领头人、其他投资人、公司主营业务；

若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据；

所述若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据包括：

将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式，得到投融资事件要素数据；

所述将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式，得到投融资事件要素数据包括：

利用企业知识图谱进行判断，对企业简介及百科类文本进行命名实体识别和关系识别，构建实体子图，在企业知识图谱中进行实体子图匹配，最终确定企业名称映射方法；

2.如权利要求1所述的方法，其特征在于，在所述通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量之前，包括：

利用爬虫从投融资事件发布平台获取新闻文本；

按照预设规则对所述新闻文本进行分段，得到新闻文本段。

3.如权利要求1所述的方法，其特征在于，在所述若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据之后，包括：

将所述投融资事件要素数据写入数据库。

4.如权利要求3所述的方法，其特征在于，在所述若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据之后，包括：

对所述投融资事件要素数据进行验证；

对验证通过的所述投融资事件要素数据进行标记。

5.一种投融资事件要素抽取装置，其特征在于，包括：

特征向量构建模块：用于通过对新闻文本段中的投融资事件要素进行命名实体识别，构建文本段特征向量，所述投融资事件要素包括融资时间、融资企业、主营业务、融资项目、轮次、金额、领投企业、其他投资企业、领头人、其他投资人、公司主营业务；

投融资事件要素抽取模块：用于若所述新闻文本段包含投融资事件，则将所述新闻文本段中的所述投融资事件要素抽取出来，得到投融资事件要素数据；

所述投融资事件要素抽取模块包括：

企业名称映射模块：用于将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式，得到投融资事件要素数据；

所述企业名称映射模块具体用于：利用企业知识图谱进行判断，对企业简介及百科类文本进行命名实体识别和关系识别，构建实体子图，在企业知识图谱中进行实体子图匹配，最终确定企业名称映射方法；通过所述企业名称映射方法，将抽取得到的所述投融资事件要素中的企业名称要素映射为预设企业名称格式，得到投融资事件要素数据。

6.一种投融资事件要素抽取设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1-4任意一项所述的投融资事件要素抽取方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的投融资事件要素抽取方法的步骤。