CN109299362A

CN109299362A - 相似企业推荐方法、装置、计算机设备及存储介质

Info

Publication number: CN109299362A
Application number: CN201811106479.1A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-02-01
Anticipated expiration: 2038-09-21
Also published as: CN109299362B

Abstract

本发明公开了相似企业推荐方法、装置、计算机设备及存储介质。该方法包括：根据预设的信息爬取程序对用户输入的网址信息对应网页中的数据信息进行采集并保存；根据特征提取模型对所保存的数据信息中语句的特征向量值进行提取；根据匹配概率计算模型对语句的特征向量值与多个预设类别之间的匹配概率进行计算；根据分类阈值对数据信息中所有语句进行分类；语句的分类结果结合企业图谱构建规则构建得到企业关系图谱；根据预设的企业筛选规则从企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业。本发明基于预测模型技术，能够实现高效地对存在关联关系的海量企业信息进行筛选，大幅提高了对海量企业数据信息进行提筛选的效率。

Description

相似企业推荐方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种相似企业推荐方法、装置、计算机设备及存储介质。

背景技术

企业均有自身的主营业务，企业与企业之间也存在着关联关系，然而由于现有技术存在着不足，用户只能察看企业的相关信息等静态数据，也无法根据用户的需求对企业的相关信息进行筛选，从而导致获取企业的相关信息并对企业进行分析及筛选的效率较低。因而现有的技术方法中存在无法高效地对存在关联关系的海量企业信息进行筛选的问题。

发明内容

本发明实施例提供了一种相似企业推荐方法、装置、计算机设备及存储介质，旨在解决现有技术中存在的无法高效地对存在关联关系的海量企业信息进行筛选的问题。

第一方面，本发明实施例提供了一种相似企业推荐方法，其包括：

若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中；

若接收到用户所输入的图谱构建信息，根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值；

根据所述图谱构建信息中的匹配概率计算模型对所得到的语句的特征向量值与匹配概率计算模型中多个预设类别之间的匹配概率进行计算，以得到该语句与多个预设类别之间的匹配概率；

根据所述图谱构建信息中的分类阈值以及所得到的数据信息中所有语句与多个预设类别之间的匹配概率对所述数据信息中所有语句进行分类以得到语句分类结果；

根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱；

若接收到用户所输入的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业。

第二方面，本发明实施例提供了一种相似企业推荐装置，其包括：

数据信息采集单元，用于若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中；

特征向量值提取单元，用于若接收到用户所输入的图谱构建信息，根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值；

匹配概率计算单元，用于根据所述图谱构建信息中的匹配概率计算模型对所得到的语句的特征向量值与匹配概率计算模型中多个预设类别之间的匹配概率进行计算，以得到该语句与多个预设类别之间的匹配概率；

分类单元，用于根据所述图谱构建信息中的分类阈值以及所得到的数据信息中所有语句与多个预设类别之间的匹配概率对所述数据信息中所有语句进行分类以得到语句分类结果；

企业关系图谱构建单元，用于根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱；

目标企业筛选单元，用于若接收到用户所输入的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的相似企业推荐方法。

第四方面，本发明实施例还提供了一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的相似企业推荐方法。

本发明实施例提供了一种相似企业推荐方法、装置、计算机设备及存储介质。通过信息爬取程序对网址信息对应网页中海量的数据信息进行自动化采集，根据图谱构建信息构建得到企业关系图谱，通过用户所输入的企业信息对企业关系图谱中的企业实体进行筛选即可得到与企业信息相类似的目标推荐企业，能够实现高效地对存在关联关系的海量企业信息进行筛选，大幅提高了对海量企业数据信息进行提筛选的效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的相似企业推荐方法的流程示意图；

图2为本发明实施例提供的相似企业推荐方法的应用场景示意图。

图3为本发明实施例提供的相似企业推荐方法的子流程示意图；

图4为本发明实施例提供的相似企业推荐方法的另一子流程示意图；

图5为本发明实施例提供的相似企业推荐方法的另一子流程示意图；

图6为本发明实施例提供的相似企业推荐方法的另一子流程示意图；

图7为本发明实施例提供的相似企业推荐装置的示意性框图；

图8为本发明实施例提供的相似企业推荐装置的子单元示意性框图；

图9为本发明实施例提供的相似企业推荐装置的另一子单元示意性框图；

图10为本发明实施例提供的相似企业推荐装置的另一子单元示意性框图；

图11为本发明实施例提供的相似企业推荐装置的另一子单元示意性框图；

图12为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1-图2，图1是本发明实施例提供的相似企业推荐方法的流程示意图；图2为本发明实施例提供的相似企业推荐方法的应用场景示意图。该相似企业推荐方法应用于用户终端10中，该方法通过安装于用户终端10中的应用软件进行执行，用户终端10即是用于执行相似企业推荐方法以对企业信息进行筛选的终端设备，多台信息采集终端20通过管理服务器30与用户终端10建立网络连接以进行信息传输。其中，用户终端10是具有接入互联网功能的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等；管理服务器30即是用于将多台信息采集终端20与用户终端10建立网络连接的服务器端，信息采集终端20即是具有接入互联网功能、用于对数据信息进行采集的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等。

如图1所示，该方法包括步骤S101～S106。

S101、若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中。

若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集，并将所采集得到的数据信息保存至预设数据库中。具体的，信息爬取程序即是预先在用户终端中创建的用于对网页中的数据信息进行采集的软件程序。

在一实施例中，如图3所示，步骤S101包括子步骤S1011、S1012和S1013。

S1011、将所述网址信息作为待爬取列表添加至预设的信息爬取程序中。

将所述网址信息作为待爬取列表添加至预设的信息爬取程序中。用户所输入的网址信息为所需进行信息爬取的网页的网络地址信息，例如，在对以企业为主体的数据信息进行采集时，可将工商业政府网站、税务部门网站、企业官网、财经网站作为网址信息进行输入。待爬取列表即是信息爬取程序中用于存放用户所输入的网址信息的数据表。

S1012、将已添加待爬取列表的信息爬取程序通过预设的管理服务器发送至与所述管理服务器建立网络连接的多台信息采集终端。

管理服务器预先与用户终端及多台信息采集终端建立网络连接，将已添加待爬取列表的信息爬取程序通过预设的管理服务器从用户终端发送至多台信息采集终端中，通过多台信息采集终端执行信息爬取程序即可对待爬取列表中的网址信息所对应网页的数据信息进行采集。其中，管理服务器即是用于在用户终端与信息采集终端建立网络连接的服务器端，信息采集终端即是用于执行信息爬取程序并对相应网页中的数据信息进行采集的终端设备。

S1013、通过管理服务器接收多台信息采集终端所采集得到的数据信息并保存至预设的数据库中。

通过管理服务器接收多台信息采集终端所采集的数据信息，并保存至用户终端中预设的数据库中。信息采集终端执行信息爬取程序并对相应网页中的数据信息进行采集，信息采集终端将所采集得到的数据信息通过管理服务器发送至用户终端，用户终端接收所采集得到的数据信息，并保存至预设的数据库中。通过将包含不同网址信息的多个待爬取列表添加至预设的信息爬取程序，并通过信息采集终端多次执行信息爬取程序以对多个网址信息所对应网页中的数据信息进行采集，即可采集得到多个网页中的数据信息。

S102、若接收到用户所输入的图谱构建信息，根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值。

在将所采集的数据信息保存至数据库后，若接收到用户所输入的图谱构建信息，获取所述数据库中所保存的数据信息，根据图谱构建信息中的特征提取模型对数据信息进行提取以得到所述数据信息中所包含语句的特征向量值。特征提取模型即是对数据信息中语句的特征向量值进行提取的模型信息，特征向量值即是该语句中所有单词所包含的多维向量信息。其中，图谱构建信息即是用户所输入的对企业关系图谱进行构建的信息，图谱构建信息中包括特征提取模型、匹配概率计算模型、分类阈值、企业图谱构建规则，特征提取模型中包括语句分段规则、词向量提取规则及拼接规则。

在一实施例中，如图4所示，步骤S102包括子步骤S1021、S1022和S1023。

S1021、根据所述特征提取模型中的语句分段规则对所述数据信息进行分段得到该数据信息中所包含的语句。

根据所述特征提取模型中的语句分段规则对所述数据信息进行分段，以得到该数据信息中所包含的语句。数据表中所保存的数据信息中包含多个语句，一个语句即是一句话，以句号作为结尾，通过数据信息中的句号即可对数据信息进行分段，以得到多个语句。

例如，数据信息中的某一段信息为“A公司在2018年收购了B公司。A公司的主营业务为化工产品。”中包含了两个语句。

S1022、根据所述特征提取模型中的词向量提取规则对每一段语句中单词的特征向量进行提取以得到该段语句中所有单词的特征向量。

根据所述特征提取模型中的词向量提取规则对每一段语句中单词的特征向量进行提取以得到该段语句中所有单词的特征向量。词向量提取规则即是用于对语句中每一个单词的特征向量进行提取的规则信息，特征向量即是语句中所包含单词的向量信息。具体的，词向量提取规则中包含一个预设的词汇表，词汇表中包含多个预设的核心词，通过将每一段语句中所包含的单词与词汇表中所包含的核心词进行匹配，即可得到该段语句中所有单词的特征向量。

例如，预设的词汇表中包含256个核心词，D＝{公司、企业、有限公司、在、年、月、日、收购、控股……}，则某一段语句“A公司在2018年收购了B公司”中，第一个单词“A”的特征向量为一个1×256维的向量，D₁(A)＝{0、0、0、0、0、0、0、0、0……}，第二个单词“公司”的特征向量为D₂(公司)＝{0、1、0、0、0、0、0、0、0……}。

S1023、根据所述特征提取模型中的拼接规则对每一段语句中所有单词的特征向量进行横向拼接以得到该语句的特征向量值。

根据所述特征提取模型中的拼接规则对数据信息中所包含的每一段语句中所有单词的特征向量进行横向拼接，以得到该语句的特征向量值。由于所有单词的特征向量的维度均相等，因此可将所有单词的特征向量进行横向拼接，也即是横向相加，即可得到该语句的特征向量值。

例如，某一段语句“A公司在2018年收购了B公司”中，第一个单词“A”的特征向量为一个1×256维的向量，D₁(A)＝{0、0、0、0、0、0、0、0、0……}，第二个单词“公司”的特征向量为D₂(公司)＝{0、1、0、0、0、0、0、0、0……}，D₃(在)＝{0、0、0、1、0、0、0、0、0……}，D₄(2018)＝{0、0、0、0、0、0、0、0、0……}，D₅(年)＝{0、0、0、0、1、0、0、0、0……}，D₆(收购)＝{0、0、0、0、0、0、0、1、0……}，D₇(了)＝{0、0、0、0、0、0、0、0、0……}，D₈(B)＝{0、0、0、0、0、0、0、0、0……}，D₉(公司)＝{0、1、0、0、0、0、0、0、0……}，则对所有单词的特征向量进行横向拼接所得到的该语句的特征向量值为D₀＝{0、2、0、1、1、0、0、1、0……}。

S103、根据所述图谱构建信息中的匹配概率计算模型对所得到的语句的特征向量值与匹配概率计算模型中多个预设类别之间的匹配概率进行计算，以得到该语句与多个预设类别之间的匹配概率。

根据所述图谱构建信息中的匹配概率计算模型对所得到的语句的特征向量值与匹配概率计算模型中多个预设类别之间的匹配概率进行计算，以得到该语句与多个预设类别之间的匹配概率。其中，匹配概率计算模型即是用于对语句的特征向量值与匹配概率计算模型中多个预设类别之间的匹配概率进行计算的模型，预设类别为用于对语句进行分类的类别信息，例如预设类别包括企业并购、企业重组、企业业务信息等。

匹配概率计算模型包括一个输入节点，100个中间节点和N个输出节点，输入节点为一段语句的特征向量值，N个输出节点即对应N个预设类别，每一个预设类别即对应一个输出节点，输出节点的值即是语句的特征向量值与该输出节点相对应的预设类别之间的匹配概率。

通过匹配概率计算模型中的100个输入计算公式，对所得到的语句的特征向量值进行计算，输入节点与100个中间节点相连接，也即是分别通过100个输入计算公式计算得到与输入节点相连接的100个中间节点的值，第一个输入计算公式可表示为C₁＝W₁×X₁+B₁，其中，C₁为第一个中间节点的计算值，X₁为语句的特征向量值，W₁和B₁为第一中间节点与输入节点之间的第一输入计算公式中所预设的参数值，通过100个输入计算公式即可计算得到与输入节点相连接的100个中间节点的值；100个中间节点分别与N个输出节点相连接，也即是通过多个输出计算公式计算得到与100个中间节点相连接的N个输出节点的值，其中第一个输出计算公式为F₁＝A₁×C₁+A₂×C₂+……A₁₀₀×C₁₀₀+D₁，其中，F₁为第一个输出节点的值，C_N为第N个中间节点的计算值，A₁为第一个输出计算公式中与第一中间节点对应的预设参数值，D₁为第一输出计算公式中所预设的参数值。通过匹配概率计算模型对所得到的语句的特征向量值进行计算即可得到该语句与多个预设类别之间的匹配概率。

步骤S103之前还包括S103A。

S103A、根据预设的训练参数对所述匹配概率计算模型进行训练以得到训练后的匹配概率计算模型。

根据预设的训练参数对所述匹配概率计算模型进行训练，以得到训练后的匹配概率计算模型，在进行训练之前，匹配概率计算模型中所有公式的参数值均为随机值。其中，所述训练参数中包括多条训练语句及参数调整规则，每条训练语句均包含在多个预设类别中进行分类的目标类别。通过多条训练语句对匹配概率计算模型进行反复训练，得到训练后的匹配概率计算模型能够大幅提高计算的精确度。其中，参数调整规则中包括参数调整方向及参数调整幅度，调整方向即是用于对匹配概率计算模型中公式的参数值进行放大或缩小的方向信息，调整幅度即是用于对匹配概率计算模型中公式的参数值进行调整的幅度信息。

具体的训练过程包括，根据所述特征提取模型对训练语句进行提取以得到所有训练语句的特征向量值；根据匹配概率计算模型对所得到的一段训练语句的特征向量与匹配概率计算模型中多个预设类别之间的匹配概率进行计算，得到该训练语句与多个预设类别之间的匹配概率，对该语句与多个预设类别之间的匹配概率进行排序以得到匹配概率最高的预设类别，将所得到的配概率最高的预设类别与该训练语句的目标类别进行匹配，若该预设类别与该训练语句的目标类别相匹配，则不对匹配概率计算模型中所有公式的参数值进行调整；若该预设类别不与该训练语句的目标类别相匹配，则根据预设的参数调整规则对匹配概率计算模型中所有公式的参数值进行调整。

例如，预设的参数调整规则中调整方向为缩小，调整幅度为1.5％，若某一训练语句计算得到的匹配概率最高的预设类别不与该训练语句的目标类别相匹配，则根据参数调整规则对匹配概率计算模型中所有公式的参数值进行缩小调整，缩小调整的幅度为1.5％，也即是将参数值×0.985以得到调整后新的参数值。

S104、根据所述图谱构建信息中的分类阈值以及所得到的数据信息中所有语句与多个预设类别之间的匹配概率对所述数据信息中所有语句进行分类以得到语句分类结果。

根据所述图谱构建信息中的分类阈值及所得到的数据信息中所有语句与多个预设类别之间的匹配概率，对所有语句进行分类以得到语句的分类结果。其中，分类阈值即是用于对所有语句与多个预设类别之间的匹配概率进行判断并分类的阈值信息。

例如，预设的分类阈值为40％，若某一语句与某一预设类别之间的匹配概率大于或等于40％，则将该语句分类至该预设类别中；若某一语句与某一预设类别之间的匹配概率小于40％，则不将该语句分类至该预设类别中。在进行分类后，存在某一语句分类至多个预设类别中的情况。

S105、根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱。

根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则，构建得到企业关系图谱。企业图谱构建规则即是用于对企业关系图谱进行构建的规则信息，通过企业图谱构建规则，即可根据所得到的语句构建得到企业关系图谱。

在一实施例中，如图5所示，步骤S105包括子步骤S1051、S1052、S1053和S1054。

S1051、根据企业图谱构建规则中的目标类别获取相应预设类别所包含的语句。

根据企业图谱构建规则中的目标类别获取相应预设类别所包含的语句，其中，企业图谱构建规则中的目标类别可以是某一个预设类别，也可以是多个预设类别。例如，目标类别包括企业并购和企业业务信息，则获取分类至企业并购和企业业务信息中的所有语句。

S1052、根据企业图谱构建规则中的词性标注规则对所有语句中单词的词性进行标注以得到语句的词性标注信息。

根据企业图谱构建规则中的词性标注规则对所有语句中单词的词性进行标注，以得到语句的词性标注信息。词性标注规则即是用于对语句中单词的词性进行标注的规则信息，词性标注规则中所包含的词性包括名词、动词、副词、时间副词、形容词、助词等。

例如，某一语句为“A公司在2018年收购了B公司”，对语句中单词的词性进行标注得到的词性标注信息为，“A公司”为名词、“2018年”为时间副词、“收购”为动词、“B公司”为名词、“在”和“了”为助词。

S1053、根据企业图谱构建规则中的信息提取规则及所得到的语句的词性标注信息对所有语句中所包含的主体、客体、关联信息、时间信息进行提取。

根据企业图谱构建规则中的信息提取规则及所得到的语句的词性标注信息对所有语句中所包含的主体、客体、关联信息、时间信息进行提取。信息提取规则即是用于对语句中所包含的具体信息进行提取的规则信息。主体即是某一语句中的主要对象，词性为名词；客体即是该语句中的次要对象，词性为名词；关联信息即是该语句中用于描述主体与客体之间所存在的关联关系的信息，词性为动词或形容词；时间信息即是该语句中词性为时间副词的信息。

例如，某一语句为“A公司在2018年收购了B公司”，则“A公司”为该语句的主体、“B公司”为该语句的客体，“收购”为该语句的关联信息，“2018年”为该语句的时间信息。

S1054、根据企业图谱构建规则中的关系图谱构建规则以及语句中所包含的主体、客体、关联信息构建企业关系图谱。

根据企业图谱构建规则中的关系图谱构建规则以及语句中所包含的主体、客体、关联信息、时间信息构建得到企业关系图谱。

其中，语句中所包含的主体和客体均对应生成企业实体，企业实体即是企业关系图谱中用于对企业进行直观表述的图谱实体，企业实体在所构建的企业关系图谱中可以用圆圈、三角形或其他任意多边形来进行表示。将语句中所包含的关联信息生成对应主体与客体之间的图谱关联信息，也即是语句中每一个关联信息对应一个图谱关联信息，图谱关联信息即是企业关系图谱中用于对企业实体之间的关联信息进行直观表述的信息，图谱关联信息在所构建的企业关系图谱中可以用箭头或其他任意线段来进行表示，若用箭头表示图谱关联信息，则在两个企业实体中箭头所指向的企业实体属为该语句中的客体。不同颜色的线段表示不同的含义。例如，控股可以用绿色线段表示，收购可以用黄色线段表示。将所述时间信息添加至所构建的企业关系图谱中，通过在所构建的企业关系图谱中添加时间信息以方便用户在察看企业关系图谱时获取两个企业实体之间关联所产生的时间。

S106、若接收到用户所输入的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业。

若接收到用户所输出的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业。企业筛选规则即是用于根据用户所输入的企业信息对企业关系图谱中相似的企业进行筛选的规则信息，通过企业筛选规则结合用户所输入的企业信息，即可在企业关系图谱中筛选得到与该企业信息相类似的目标推荐企业。

在一实施例中，如图6所示，步骤S106包括子步骤S1061、S1062、S1063和S1064。

S1061、根据用户所输入的企业信息与所构建的企业关系图谱中的企业实体进行匹配以得到目标企业实体。

根据用户所输入的企业信息与所构建的企业关系图谱中的企业实体进行匹配，以得到目标企业实体。例如，用于输入的企业信息为“A公司”，则在企业关系图谱中对“A公司”进行匹配以得到目标企业实体。

S1062、获取企业关系图谱中与目标企业实体之间存在关联信息的多个关联企业实体。

获取企业关系图谱中与目标企业实体之间存在关联信息的多个关联企业实体。

例如，目标企业实体为“A公司”，在企业关系图谱中“B公司”为“A公司”的供应商、“C公司”为“A公司”的供应商，则在企业关系图谱中与目标企业实体“A公司”存在关联关系的关联企业实体为“B公司”和“C公司”。

S1063、对企业关系图谱中除目标企业实体外其他企业实体与所得到的多个关联企业实体之间存在关联关系的数量进行统计以得到所有企业实体的统计结果。

对企业关系图谱中除去目标企业实体外其他企业实体与所得到的多个关联企业实体之间存在关联关系的数量进行统计，以得到所有企业实体的统计结果。

例如，在企业关系图谱中“B公司”还同时为“X公司”和“Y公司”的供应商，“C公司”还同时为“Y公司”的供应商。则除去目标企业实体“A公司”外，“X公司”与关联企业实体中的“B公司”存在关联关系，则“X公司”与所得到的多个关联企业实体之间存在关联关系的数量为1；“Y公司”与关联企业实体中的“B公司”和“C公司”存在关联关系，则“Y公司”与所得到的多个关联企业实体之间存在关联关系的数量为2。

S1064、根据所述企业筛选规则及所得到的企业实体的统计结果对企业实体进行筛选以得到目标推荐企业。

根据企业筛选规则及所得到的企业实体的统计结果，对企业关系图谱中的企业实体进行筛选以得到目标推荐企业。例如，预设的企业筛选规则为与多个关联企业实体之间存在关联关系的数量最多的三个企业实体为目标推荐企业，则根据所有企业实体的统计结果，筛选出与多个关联企业实体之间存在关联关系的数量最多的三个企业实体作为目标推荐企业。

通过信息爬取程序对网址信息对应网页中海量的数据信息进行自动化采集，根据图谱构建信息构建得到企业关系图谱，通过用户所输入的企业信息对企业关系图谱中的企业实体进行筛选即可得到与企业信息相类似的目标推荐企业，能够实现高效地对存在关联关系的海量企业信息进行筛选，大幅提高了对海量企业数据信息进行提筛选的效率。

本发明实施例还提供一种相似企业推荐装置，该相似企业推荐装置用于执行前述相似企业推荐方法的任一实施例。具体地，请参阅图7，图7是本发明实施例提供的相似企业推荐装置的示意性框图。该相似企业推荐装置100可以配置于用户终端10中。

如图7所示，相似企业推荐装置100包括数据信息采集单元101、特征向量值提取单元102、匹配概率计算单元103、分类单元104、企业关系图谱构建单元105及目标企业筛选单元106。

数据信息采集单元101，用于若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中。

其他发明实施例中，如图8所示，所述数据信息采集单元101包括子单元：网址信息添加单元1011、信息爬取程序发送单元1012及数据信息接收单元1013。

网址信息添加单元1011，用于将所述网址信息作为待爬取列表添加至预设的信息爬取程序中。

信息爬取程序发送单元1012，用于将已添加待爬取列表的信息爬取程序通过预设的管理服务器发送至与所述管理服务器建立网络连接的多台信息采集终端。

数据信息接收单元1013，用于通过管理服务器接收多台信息采集终端所采集得到的数据信息并保存至预设的数据库中。

特征向量值提取单元102，用于若接收到用户所输入的图谱构建信息，根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值。

其他发明实施例中，如图9所示，所述特征向量值提取单元102包括子单元：语句分段单元1021、单词特征向量提取单元1022及特征向量拼接单元1023。

语句分段单元1021，用于根据所述特征提取模型中的语句分段规则对所述数据信息进行分段得到该数据信息中所包含的语句。

单词特征向量提取单元1022，用于根据所述特征提取模型中的词向量提取规则对每一段语句中单词的特征向量进行提取以得到该段语句中所有单词的特征向量。

特征向量拼接单元1023，用于根据所述特征提取模型中的拼接规则对每一段语句中所有单词的特征向量进行横向拼接以得到该语句的特征向量值。

匹配概率计算单元103，用于根据所述图谱构建信息中的匹配概率计算模型对所得到的语句的特征向量值与匹配概率计算模型中多个预设类别之间的匹配概率进行计算，以得到该语句与多个预设类别之间的匹配概率。

所述相似企业推荐装置100还包括匹配概率计算模型训练单元103A。

匹配概率计算模型训练单元103A，用于根据预设的训练参数对所述匹配概率计算模型进行训练以得到训练后的匹配概率计算模型。

分类单元104，用于根据所述图谱构建信息中的分类阈值以及所得到的数据信息中所有语句与多个预设类别之间的匹配概率对所述数据信息中所有语句进行分类以得到语句分类结果。

企业关系图谱构建单元105，用于根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱。

其他发明实施例中，如图10所示，所述企业关系图谱构建单元105包括子单元：语句获取单元1051、词性标注信息添加单元1052、信息提取单元1053及关系图谱构建单元1054。

语句获取单元1051，用于根据企业图谱构建规则中的目标类别获取相应预设类别所包含的语句。

词性标注信息添加单元1052，用于根据企业图谱构建规则中的词性标注规则对所有语句中单词的词性进行标注以得到语句的词性标注信息。

信息提取单元1053，用于根据企业图谱构建规则中的信息提取规则及所得到的语句的词性标注信息对所有语句中所包含的主体、客体、关联信息、时间信息进行提取。

关系图谱构建单元1054，用于根据企业图谱构建规则中的关系图谱构建规则以及语句中所包含的主体、客体、关联信息构建企业关系图谱。

其中，语句中所包含的主体和客体均对应生成企业实体，企业实体即是企业关系图谱中用于对企业进行直观表述的图谱实体，企业实体在所构建的企业关系图谱中可以用圆圈、三角形或其他任意多边形来进行表示。将语句中所包含的关联信息生成对应主体与客体之间的图谱关联信息，也即是语句中每一个关联信息对应一个图谱关联信息，图谱关联信息即是企业关系图谱中用于对企业实体之间的关联信息进行直观表述的信息，图谱关联信息在所构建的企业关系图谱中可以用箭头或其他任意线段来进行表示，若用箭头表示图谱关联信息，则在两个企业实体中箭头所指向的企业实体属为该语句中的客体。不同颜色的线段表示不同的含义。将所述时间信息添加至所构建的企业关系图谱中，通过在所构建的企业关系图谱中添加时间信息以方便用户在察看企业关系图谱时获取两个企业实体之间关联所产生的时间。

目标企业筛选单元106，用于若接收到用户所输入的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业。

其他发明实施例中，如图11所示，所述目标企业筛选单元106包括子单元：目标企业实体获取单元1061、关联企业实体获取单元1062、统计结果获取单元1063及目标推荐企业获取单元1064。

目标企业实体获取单元1061，用于根据用户所输入的企业信息与所构建的企业关系图谱中的企业实体进行匹配以得到目标企业实体。

关联企业实体获取单元1062，用于获取企业关系图谱中与目标企业实体之间存在关联信息的多个关联企业实体。

统计结果获取单元1063，用于对企业关系图谱中除目标企业实体外其他企业实体与所得到的多个关联企业实体之间存在关联关系的数量进行统计以得到所有企业实体的统计结果。

目标推荐企业获取单元1064，用于根据所述企业筛选规则及所得到的企业实体的统计结果对企业实体进行筛选以得到目标推荐企业。

根据企业筛选规则及所得到的企业实体的统计结果，对企业关系图谱中的企业实体进行筛选以得到目标推荐企业。

上述相似企业推荐装置可以实现为计算机程序的形式，该计算机程序可以在如图12所示的计算机设备上运行。

请参阅图12，图12是本发明实施例提供的计算机设备的示意性框图。

参阅图12，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行相似企业推荐方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行相似企业推荐方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图12中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中；若接收到用户所输入的图谱构建信息，根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值；根据所述图谱构建信息中的匹配概率计算模型对所得到的语句的特征向量值与匹配概率计算模型中多个预设类别之间的匹配概率进行计算，以得到该语句与多个预设类别之间的匹配概率；根据所述图谱构建信息中的分类阈值以及所得到的数据信息中所有语句与多个预设类别之间的匹配概率对所述数据信息中所有语句进行分类以得到语句分类结果；根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱；若接收到用户所输入的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业。

在一实施例中，处理器502在执行若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中的步骤时，执行如下操作：将所述网址信息作为待爬取列表添加至预设的信息爬取程序中；将已添加待爬取列表的信息爬取程序通过预设的管理服务器发送至与所述管理服务器建立网络连接的多台信息采集终端；通过管理服务器接收多台信息采集终端所采集得到的数据信息并保存至预设的数据库中。

在一实施例中，处理器502在执行若接收到用户所输入的图谱构建信息，根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值的步骤时，执行如下操作：根据所述特征提取模型中的语句分段规则对所述数据信息进行分段得到该数据信息中所包含的语句；根据所述特征提取模型中的词向量提取规则对每一段语句中单词的特征向量进行提取以得到该段语句中所有单词的特征向量；根据所述特征提取模型中的拼接规则对每一段语句中所有单词的特征向量进行横向拼接以得到该语句的特征向量值。

在一实施例中，处理器502在执行根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱的步骤时，执行如下操作：根据企业图谱构建规则中的目标类别获取相应预设类别所包含的语句；根据企业图谱构建规则中的词性标注规则对所有语句中单词的词性进行标注以得到语句的词性标注信息；根据企业图谱构建规则中的信息提取规则及所得到的语句的词性标注信息对所有语句中所包含的主体、客体、关联信息、时间信息进行提取；根据企业图谱构建规则中的关系图谱构建规则以及语句中所包含的主体、客体、关联信息构建企业关系图谱。

在一实施例中，处理器502在执行若接收到用户所输入的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业的步骤时，执行如下操作：根据用户所输入的企业信息与所构建的企业关系图谱中的企业实体进行匹配以得到目标企业实体；获取企业关系图谱中与目标企业实体之间存在关联信息的多个关联企业实体；对企业关系图谱中除目标企业实体外其他企业实体与所得到的多个关联企业实体之间存在关联关系的数量进行统计以得到所有企业实体的统计结果；根据所述企业筛选规则及所得到的企业实体的统计结果对企业实体进行筛选以得到目标推荐企业。

本领域技术人员可以理解，图12中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图12所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中；若接收到用户所输入的图谱构建信息，根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值；根据所述图谱构建信息中的匹配概率计算模型对所得到的语句的特征向量值与匹配概率计算模型中多个预设类别之间的匹配概率进行计算，以得到该语句与多个预设类别之间的匹配概率；根据所述图谱构建信息中的分类阈值以及所得到的数据信息中所有语句与多个预设类别之间的匹配概率对所述数据信息中所有语句进行分类以得到语句分类结果；根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱；若接收到用户所输入的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业。

在一实施例中，所述若接收到用户所输入的网址信息，根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中的步骤，包括：将所述网址信息作为待爬取列表添加至预设的信息爬取程序中；将已添加待爬取列表的信息爬取程序通过预设的管理服务器发送至与所述管理服务器建立网络连接的多台信息采集终端；通过管理服务器接收多台信息采集终端所采集得到的数据信息并保存至预设的数据库中。

在一实施例中，所述若接收到用户所输入的图谱构建信息，根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值的步骤，包括：根据所述特征提取模型中的语句分段规则对所述数据信息进行分段得到该数据信息中所包含的语句；根据所述特征提取模型中的词向量提取规则对每一段语句中单词的特征向量进行提取以得到该段语句中所有单词的特征向量；根据所述特征提取模型中的拼接规则对每一段语句中所有单词的特征向量进行横向拼接以得到该语句的特征向量值。

在一实施例中，所述根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱的步骤，包括：根据企业图谱构建规则中的目标类别获取相应预设类别所包含的语句；根据企业图谱构建规则中的词性标注规则对所有语句中单词的词性进行标注以得到语句的词性标注信息；根据企业图谱构建规则中的信息提取规则及所得到的语句的词性标注信息对所有语句中所包含的主体、客体、关联信息、时间信息进行提取；根据企业图谱构建规则中的关系图谱构建规则以及语句中所包含的主体、客体、关联信息构建企业关系图谱。

在一实施例中，所述若接收到用户所输入的企业信息，根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业的步骤，包括：根据用户所输入的企业信息与所构建的企业关系图谱中的企业实体进行匹配以得到目标企业实体；获取企业关系图谱中与目标企业实体之间存在关联信息的多个关联企业实体；对企业关系图谱中除目标企业实体外其他企业实体与所得到的多个关联企业实体之间存在关联关系的数量进行统计以得到所有企业实体的统计结果；根据所述企业筛选规则及所得到的企业实体的统计结果对企业实体进行筛选以得到目标推荐企业。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种相似企业推荐方法，其特征在于，包括：

2.根据权利要求1所述的相似企业推荐方法，其特征在于，所述根据预设的信息爬取程序对所述网址信息对应网页中的数据信息进行采集并保存至预设数据库中，包括：

将所述网址信息作为待爬取列表添加至预设的信息爬取程序中；

将已添加待爬取列表的信息爬取程序通过预设的管理服务器发送至与所述管理服务器建立网络连接的多台信息采集终端；

通过管理服务器接收多台信息采集终端所采集得到的数据信息并保存至预设的数据库中。

3.根据权利要求1所述的相似企业推荐方法，其特征在于，所述根据所述图谱构建信息中的特征提取模型对数据库中所保存的数据信息进行提取以得到所述数据信息中所包含语句的特征向量值，包括：

根据所述特征提取模型中的语句分段规则对所述数据信息进行分段得到该数据信息中所包含的语句；

根据所述特征提取模型中的词向量提取规则对每一段语句中单词的特征向量进行提取以得到该段语句中所有单词的特征向量；

根据所述特征提取模型中的拼接规则对每一段语句中所有单词的特征向量进行横向拼接以得到该语句的特征向量值。

4.根据权利要求1所述的相似企业推荐方法，其特征在于，所述根据所得到的语句的分类结果结合所述图谱构建信息中的企业图谱构建规则构建得到企业关系图谱，包括：

根据企业图谱构建规则中的目标类别获取相应预设类别所包含的语句；

根据企业图谱构建规则中的词性标注规则对所有语句中单词的词性进行标注以得到语句的词性标注信息；

根据企业图谱构建规则中的信息提取规则及所得到的语句的词性标注信息对所有语句中所包含的主体、客体、关联信息、时间信息进行提取；

根据企业图谱构建规则中的关系图谱构建规则以及语句中所包含的主体、客体、关联信息构建企业关系图谱。

5.根据权利要求1所述的相似企业推荐方法，其特征在于，所述根据预设的企业筛选规则从所述企业关系图谱中筛选出与企业信息相类似的企业实体以得到目标推荐企业，包括：

根据用户所输入的企业信息与所构建的企业关系图谱中的企业实体进行匹配以得到目标企业实体；

获取企业关系图谱中与目标企业实体之间存在关联信息的多个关联企业实体；

对企业关系图谱中除目标企业实体外其他企业实体与所得到的多个关联企业实体之间存在关联关系的数量进行统计以得到所有企业实体的统计结果；

根据所述企业筛选规则及所得到的企业实体的统计结果对企业实体进行筛选以得到目标推荐企业。

6.一种相似企业推荐装置，其特征在于，包括：

7.根据权利要求6所述的相似企业推荐装置，其特征在于，所述数据信息采集单元，包括：

网址信息添加单元，用于将所述网址信息作为待爬取列表添加至预设的信息爬取程序中；

信息爬取程序发送单元，用于将已添加待爬取列表的信息爬取程序通过预设的管理服务器发送至与所述管理服务器建立网络连接的多台信息采集终端；

数据信息接收单元，用于通过管理服务器接收多台信息采集终端所采集得到的数据信息并保存至预设的数据库中。

8.根据权利要求6所述的相似企业推荐装置，其特征在于，所述特征向量值提取单元，包括：

语句分段单元，用于根据所述特征提取模型中的语句分段规则对所述数据信息进行分段得到该数据信息中所包含的语句；

单词特征向量提取单元，用于根据所述特征提取模型中的词向量提取规则对每一段语句中单词的特征向量进行提取以得到该段语句中所有单词的特征向量；

特征向量拼接单元，用于根据所述特征提取模型中的拼接规则对每一段语句中所有单词的特征向量进行横向拼接以得到该语句的特征向量值。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的相似企业推荐方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的相似企业推荐方法。