CN114120091A

CN114120091A - 集团谱系识别方法、装置、设备及介质

Info

Publication number: CN114120091A
Application number: CN202111437275.8A
Authority: CN
Inventors: 胡逸天; 黄珊珊; 何子龙; 楼华
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01

Abstract

本发明涉及数据处理领域，提出一种集团谱系识别方法、装置、设备及介质，该方法包括：获取待识别的集团谱系图像，集团谱系图像包含各个企业之间的拓扑关系；从下至上逐一识别集团谱系图像中的各个企业以及相应拓扑关系，按照各个企业之间的拓扑关系得到该集团谱系中被控企业与对应的最高控制方，最高控制方至少为一个；在集团谱系图像中以最高控制方为起点，沿着股权控制路径进行一次处理，得到最高控制方与被控企业之间的控制系数；按照控制系数结合最高控制方与被控企业之间的持股比例进行二次处理，确定集团谱系图像中被控企业所对应持股比例最大的最高控制方为最终控制方，本发明不仅提高了集团谱系识别效率；还提高了集团谱系识别准确率。

Description

集团谱系识别方法、装置、设备及介质

技术领域

本发明涉及数据处理领域，提供一种识别集团谱系识别方法、装置、设备及介质。

背景技术

各种跨国企业、跨行业企业、跨地区企业越来越多，集团性客户在商业银行中的地位和比重越来越高。相对于单个的企业而言，集团客户的经济实力更为雄厚，诚信度也比单个企业的好些，而且他们的需求更为多样化，可以给银行带来很大的利益。但是集团客户内部关联交易日益复杂，这些跨行业、跨地区经营带来的银企信息不对称等增加了银行授信资产的潜在风险。一旦这些风险暴露，将产生多米诺骨牌效应，会牵涉很多的债权银行，这不仅对银行企业会产生影响，对整个国家的金融***都会带来巨大的冲击。因此，商业银行必须有效识别集团客户，并以此控制和防范集团客户的信贷风险，加强对集团客户授信业务的风险管理，才能促进各项业务健康和稳健发展。

然而，目前有关集团谱系的识别方式不佳，需要工作人员进行协助识别，一方面，增加了工作人员的工作量；另一方方面，集团谱系中由于各个企业有时较为复杂，无法准确识别到集团谱系中的最终控制方。

发明内容

本发明提供一种集团谱系识别方法、装置、设备及介质，其主要目的在于通过双向识别方式识别集团谱系中的控制方，利用股权关系，通过自下而上的原则依次往上穿透识别出控制方，识别出顶点的最高控制方；沿着所述最高控制方自上而下的原则层层往下穿透识别，得到集团谱系各个企业的控制系数；在自上而下的识别方式确定集团谱系内每个公司的控股比例，判断企业归属确定企业的最终控制方，得到集团谱系中各个企业的关联关系。

为实现上述目的，本发明提供一种集团谱系识别方法，该方法包括：

获取待识别的集团谱系图像，所述集团谱系图像包含各个企业之间的拓扑关系；

从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系，按照各个所述企业之间的拓扑关系得到该集团谱系中被控企业及控制所述被控企业的最高控制方，所述最高控制方至少为一个；

在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径进行一次处理，得到所述最高控制方与被控企业之间的控制系数；

按照所述控制系数结合所述最高控制方与被控企业之间的持股比例进行二次处理，确定所述集团谱系图像中被控企业所对应持股比例最大的最高控制方为最终控制方。

可选的，所述从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系之前，还包括：

将获取待识别的集团谱系图像转换成预设规格大小的集团谱系图像；

对预设规格的所述集团谱系图像进行归一化处理，得到像素色彩均匀的集团谱系图像；

对所述像素色彩均匀的集团谱系图像进行数据分别进行亮度、对比度、色彩的增强处理，得到预处理后的集团谱系图像。

可选的，所述从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系，按照各个所述企业之间的拓扑关系得到该集团谱系中被控企业及控制所述被控企业的最高控制方，包括：

识别所述集团谱系图像中的各个企业以及相应拓扑关系；

从下至上在所述集团谱系图像中企业节点构成的拓扑关系中，根据被控对象所对应的企业节点确定被控企业；

按照所述被控企业自下而上进行识别，确定所述被控企业的上一级控制方，其中，当被控企业对应有一个或多个企业节点进行控股时，将控股股权值最大的企业节点确定为被控企业的上一级控制方；

按照所述拓扑关系的股权控制路径进行层层穿透识别，逐一得到每层企业节点所对应上一级控制方；

当检测到某层企业节点不存在上一级控制方时，则将该层企业节点确定为最高控制方，在拓扑关系中所述被控企业所对应的最高控制方至少为一个。

可选的，所述在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径进行一次处理，得到所述最高控制方与被控企业之间的控制系数，包括：

在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径从上至下依次对下一层被控企业进行以下一次处理，得到所述最高控制方与被控企业之间的控制系数；

当检测到上一级控制方在当前被控企业所占股份达到第一预设比例时，则达到第一预设比例的上一级控制方与被控企业构成实际控制，且生成的控制系数为1；

当检测到上一级控制方在当前被控企业所占股份未达到第一预设比例时，则未达到第一预设比例的上一级控制方与被控企业不构成实际控制，且生成的控制系数为0。

可选的，所述按照所述控制系数结合所述最高控制方与被控企业之间的持股比例进行二次处理，确定所述集团谱系图像中被控企业所对应持股比例最大的最高控制方为最终控制方，包括：

在所述集团谱系图像中以所述最高控制方为起点，按照股权控制路径对各个企业进行划分形成股东组；

依据所述股权控制路径从上至下确定每个股东组中最高控制方与被控企业之间的持股比例；

将最高控制方与被控企业之间的持股比例最大的股东组所对应的最高控制方确定为最终控制方。

可选的，集团谱系识别方法还包括：

检测被控企业所对应的上一级控制企业是否存在一致行动人；

当检测到被控企业所对应的上一级控制企业存在一致行动人时，判断所述上一级控制企业的占股是否超过第一预设比例；若所述上一级控制企业未有超过第一预设比例，则根据一致行动人所对应的关系将相关企业确定为共同控制关系；

检测所述集团谱系图像中属于共同控制关系的最高控制方；

当检测到所述集团谱系图像属于共同控制关系的最高控制方为有限合伙企业、空壳企业或持股平台中任一种情形时，根据当前情形从上至下逐层筛选确定占被控企业之间的持股比例最大的企业节点，将当前企业节点确定为所述集团谱系图中的实际控制方。

可选的，集团谱系识别方法还包括：

根据所述集团谱系图像中识别被控企业与最终控制方之间的全量谱系；

利用优先级排序融合所述全量谱系中确定的企业关系及企业节点；

基于所述集团谱系图像进行局部计算，更新确定的企业关系及企业节点，得到所述集团谱系图像穿透形成的增量谱系，实现所述集团谱系的小批量更新。

此外，为实现上述目的，本发明还提供一种集团谱系识别装置，所述装置包括：

获取模块，用于获取待识别的集团谱系图像，所述集团谱系图像包含各个企业之间的拓扑关系；

识别模块，用于从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系，按照各个所述企业之间的拓扑关系得到该集团谱系中被控企业及控制所述被控企业的最高控制方，所述最高控制方至少为一个；

控制系数确定模块，用于在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径进行一次处理，得到所述最高控制方与被控企业之间的控制系数；

最终控制方确定模块，用于按照所述控制系数结合所述最高控制方与被控企业之间的持股比例进行二次处理，确定所述集团谱系图像中被控企业所对应持股比例最大的最高控制方为最终控制方。

此外，为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项实施例所述方法的步骤。

本发明提出的集团谱系识别方法、装置、设备及介质，通过双向识别方式识别集团谱系中的控制方，利用股权关系，通过自下而上的原则依次往上穿透识别出控制方，识别出顶点的最高控制方；沿着所述最高控制方自上而下的原则层层往下穿透识别，得到集团谱系各个企业的控制系数；在自上而下的识别方式确定集团谱系内每个公司的控股比例，判断企业归属确定企业的最终控制方，得到集团谱系中各个企业的关联关系；一方面，通过自动化识别集团谱系，提高了识别效率；另一方面，采用双向识别方式分别进行穿透识别，提高了识别准确率。

附图说明

图1为本发明一个实施例中提供的集团谱系识别方法的一种流程示意图；

图2为本发明一个实施例中提供的集团谱系识别方法中最高控制方识别流程示意图；

图3为本发明一个实施例中提供的集团谱系识别方法中控制系数确定流程示意图；

图4为本发明一个实施例中提供的集团谱系识别方法中最终控制方确定流程示意图；

图5为本发明一个实施例中提供的集团谱系识别方法中实际控制确定流程示意图；

图6为本发明一个实施例中提供的集团谱系识别方法中小批量更新流程示意图；

图7为本发明一个实施例中提供的集团谱系识别装置的一种结构示意图；

图8为发明一个实施例中提供的计算机设备的一种结构示意图；

图9为本发明一个实施例中提供的一种集团谱系图像；

图10为本发明一个实施例中提供的另一种集团谱系图像。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了便于理解本申请，首先对本申请涉及的概念进行解释。

集团谱系识别在金融业内是一项关键的工作，特别是在风险管理部门及其重要。它涉及到的流程有贷前贷中的集团统一授信管理、贷后的集团集中度风险管理、内控的关联交易等。每一项流程都需要业务人员手工确认归属集团，层层上穿复杂的股权结构增加了专员的工作量，且存在多个分公司专员有可能会给出不一样的认定结果，加大了贷后的集中度和关联交易管理工作。另一方面，在整个业务生命周期里，客户的所属集团可能存在变动，能及时捕捉到变化并且重新做出识别也是一项困难艰巨的工作。现有的行业技术主要解决了基础的集团谱系自动化识别，但对个别场景的集团识别依然会有误差。

在一个实施例中，提供一种集团谱系识别方法流程图，参照图1所示，该方法包括以下步骤：

步骤S101，获取待识别的集团谱系图像，所述集团谱系图像包含各个企业之间的拓扑关系；

其中，集团谱系图像反映集团中各个企业股权关系，该集团谱系图像包括但不限于：各个企业之间的拓扑关系、各个企业节点名称、各个企业的性质、以及各个企业之间的股权关系等；可通过天眼查、企查查、国家工商企业网站进行搜索、下载，进而得到待识别的集团谱系图像。

需要说明的是，集团谱系图像是指展示企业与企业之间的组织关系、产权关系的图谱。在一些示例中，也可以以人工方式获取各个集团谱系图像。

例如，集团谱系图像的格式包括但不限于bmp、jpg、png、tif、gif、psd、pcd、wnf、raw等，在此不做限定。

步骤S102，从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系，按照各个所述企业之间的拓扑关系得到该集团谱系中被控企业及控制所述被控企业的最高控制方，所述最高控制方至少为一个；

其中，在所述集团谱系图像中通过自下而上从被控企业向上进行穿透识别，层层穿透识别被识别对象的上一级的控制方，判断各个企业之间的拓扑关系，直到穿透识别拓扑中最高控制方为止，例如，最高控制方位于企业拓扑关系形成的股权控制路径的末端，如果一家被控企业对应有多条股权控制路径，那么最高控制方就有多个。

步骤S103，在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径进行一次处理，得到所述最高控制方与被控企业之间的控制系数；

其中，通过以最高控制方为起点，自上而下的原则层层往下穿透辐射出整个集团谱系，按照股权穿透识别出集团谱系图像中的集团成员，如果集团谱系图像中有多个最高控制方，则需要多次沿着股权控制路径进行一次处理，才可以得到集团谱系图像中各个最高控制方与被控企业之间的控制系数。

例如，以最终控制方为起点，引入控制系数，从上至下沿着控股关系的方向依次向下计算，逐一计算每级企业与其下一级控制方之间的控制关系，进而得到所述最终控制方对被控方的控制系数。

步骤S104，按照所述控制系数结合所述最高控制方与被控企业之间的持股比例进行二次处理，确定所述集团谱系图像中被控企业所对应持股比例最大的最高控制方为最终控制方。

具体地，通过从自下而上找到的集团谱系顶点的最高控制方为出发点，将各企业的股东按照所属集团进行分组划分，计算每组股东持股比例，取持股比例最大的股东组为最终控制方，重新认定当前企业所属集团，通过上述方式，进行二次判断，进一步提高了集团识别的准确性。

在本实施例中，利用大数据自动化识集团谱系图像的最终控制方、被控对象，确定企业之间的拓扑连接关系，大大降低了人力成本；同时，采用双向识别方式识别被控对象的控制方，提高了集团谱系的识别准确率；在自上而下的识别环节中，通过二次计算判断认定，进一步提高了最终控制方的识别准确率。

在另一些实施例中，为了得到一个质量较好的集团谱系图像，需要对识别的集团谱系图像进行预处理；所述从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系之前，对集团谱系图像进行预处理的步骤，详述如下：

步骤S001，将获取待识别的集团谱系图像转换成预设规格大小的集团谱系图像；

步骤S002，对预设规格的所述集团谱系图像进行归一化处理，得到像素色彩均匀的集团谱系图像；

步骤S003，对所述像素色彩均匀的集团谱系图像进行数据分别进行亮度、对比度、色彩的增强处理，得到预处理后的集团谱系图像。

其中，将集团谱系图像统一缩放到512×512的大小；进行归一化的操作，将集团谱系图像进行高斯模糊处理后与原始图像反向叠加，并将像素色彩均值移动到128；对图像进行数据增强操作，对每一张集团谱系图像进行以下操作：以百分之五十的概率进行水平翻转；以百分之五十的概率进行转置；随机gamma变换，gamma值限制在(50，150)之间；以百分之五十的概率随机改变图片的HUE、饱和度和值；以百分之五十的概率进行平移旋转操作；在以下组合中任选一项进行操作：限制对比度直方图均衡(CLAHE)算法；图像锐化后与自身重叠(IAASharpen)的算法；对图像执行某一程度浮雕操作，通过某一通道将结果与图像融合(IAAEmboss)的算法；随机亮度与对比度调节；随机模糊与增加高斯噪声处理。

通过上述方式，一方面，通过预处理方式，能够将格式不同、大小不同的集团谱系图像转换为预设格式，同时，对预设规格的集团谱系图像进行归一化处理，得到像素色彩均匀的集团谱系图像；另一方面，对像素色彩均匀的集团谱系图像进行增强处理，能够得到亮度、清晰度、饱和度值达标的集团谱系图像。

在另一些实施例中，所述从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系，按照各个所述企业之间的拓扑关系得到该集团谱系中被控企业及控制所述被控企业的最高控制方，详见图2，为本发明一个实施例中提供的集团谱系识别方法中最高控制方识别流程示意图，详述如下：

步骤S201，识别所述集团谱系图像中的各个企业以及相应拓扑关系；

其中，利用光学字符识别技术识别集团谱系图像中各个企业节点的节点信息，例如，该节点新包括但不限于企业名称、企业类型以及企业之间的股权控股等；而根据集团谱系图像中企业节点之间连接关系确定各个企业相应拓扑关系。

需要说明的是，识别集团谱系图像中各个企业节点以及各个企业节点之间的拓扑关系的算法还包括但不限于基于全卷积神经网络进行图像识别、基于卷积神经网络进行图像识别。

例如，搭建全卷积神经网络，利用全卷积神经网络训练集中集团谱系图像作为训练元输入至全卷积神经网络，通过全卷积神经网络预测得到存在拓扑结构区域与否判定值tag，进一步结合神经网络数据集中拓扑结构区域人工标注的tag构建全卷积神经网络损失函数，通过优化训练直至全卷积神经网络损失函数达到Nash均衡，得到优化后全卷积神经网络；进一步地，该全卷积神经网络由输入层、多层卷积层、池化层、反卷积层、softmax层依次级联构成。

步骤S202，从下至上在所述集团谱系图像中企业节点构成的拓扑关系中，根据被控对象所对应的企业节点确定被控企业；

其中，在获取到企业节点组成的拓扑关系中，

步骤S203，按照所述被控企业自下而上进行识别，确定所述被控企业的上一级控制方，其中，当被控企业对应有一个或多个企业节点进行控股时，将控股股权值最大的企业节点确定为被控企业的上一级控制方；

例如，当检测到法人企业当且仅有一个股东时，该股东为该企业的上一级控制方；

又例如，当检测到法人企业有多个股东且其中任一股东股权占比超过50％，则该股东为该企业的上一级控制方；

又例如，根据国际惯例，一般认为当投资者直接或间接拥有被投资公司20％以上的股份时，被认为有重大影响。因此，在进行遍历时，当检测到法人企业股东的股权占比超过20％小于50％，且该股东的股权占比最高且唯一，则该股东为上一级控制方。

步骤S204，按照所述拓扑关系的股权控制路径进行层层穿透识别，逐一得到每层企业节点所对应上一级控制方；

步骤S205，当检测到某层企业节点不存在上一级控制方时，则将该层企业节点确定为最高控制方，在拓扑关系中所述被控企业所对应的最高控制方至少为一个。

(1)法人企业任一股东的股权占比低于百分之二十

(2)国家出资人：法人企业股东属政府机关和政府相关的事业单位

其中，股权信息何中企业对应的“股东名称”和“认缴比例”，认定企业为第一大股东的原则为：

若企业有且仅有一个股东时，则该股东为该企业的第一大股东；

如果企业有多个股东，任一股东的“认缴比例”超过百分之五十，则该股东为该企业的第一大股东；

若该企业的股东的“股权占比”超过百分之二十小于百分之五十，且该股东的“股权占比”最高且唯一，则该股东为该企业的第一大股东。

具体地，通过自下而上的逐一识别，即，层层穿透识别的方式，从最低层的企业开始沿着股权关系向最高层的企业进行每层穿透识别，依次得到其上一级控制方，直到满足上述任一条件，得到属于被控方的最高控制方。

通过上述方式，根据股权关系通过自下而上的原则识别出最高控制方的企业，能够迅速找到被控方所对应的最高控制方。

在另一些实施例中，所述在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径进行一次处理，得到所述最高控制方与被控企业之间的控制系数的步骤，详见图3，为本发明一个实施例中提供的集团谱系识别方法中控制系数确定流程示意图，详述如下：

步骤S301，在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径从上至下依次对下一层被控企业进行以下一次处理，得到所述最高控制方与被控企业之间的控制系数；

其中，沿着股权控制路径从上至下依次对下一层被控企业进行以下一次处理，得到所述最高控制方与被控企业之间的控制系数，根据以下情形，选择步骤S302或S303得到最高控制方与被控企业之间的控制系数。

具体地，若控制系数大于第一预设比例时，则构成控制关系；若控制系数大于第二预设比例且小于第一预设比例时，则构成重大影响关系；若小于第二预设比例为一般关系。

例如，引入控制系数的方法，计算被控企业与其上一级的控制方之间的控制系数。

根据《公司法》的规定：“股东大会作出决议，必须经出席会议的股东所持表决权过半数通过”。因此，当投资者直接拥有被投资公司50％以上的股份时，认为对被投资公司构成实际控制，控制系数为1；若穿透路径中有两个及以上小于50％的投资关系，则该条路径的控制系数为0。当控制系数大于0.5时，认定构成控制关系；大于0.2，小于0.5构成重大影响关系；小于0.2为一般关系。

在自上而下穿透的过程中，间接投资比例通过累乘得到，因此路径越长，间接投资比例越小，当占股比例小于20％时，依据规则无法构成控制关系。但在实际业务中，若每层构成控制关系，无论路径长短，最高控制方都对控制路径各个节点企业都有控制能力。

步骤S302，当检测到上一级控制方在当前被控企业所占股份达到第一预设比例时，则达到第一预设比例的上一级控制方与被控企业构成实际控制，且生成的控制系数为1；

其中，第一预设比例可以根据用户需求进行设置，在本实施例中优选第一预设比例为50％。

步骤S303，当检测到上一级控制方在当前被控企业所占股份未达到第一预设比例时，则未达到第一预设比例的上一级控制方与被控企业不构成实际控制，且生成的控制系数为0。

参见图9，相比传统累计乘方法而言，例如，公司甲4对公司甲的持股比例为13.90％，(52.45％*51.9808％*51％)，小于控制下限20％，前者未对后者构成控制关系。然而，按照本实施例中的控制系数的方法，前者对后者的控制系数为1，显然利用控制系数计算子公司更符合实际业务逻辑。

根据上述《公司法》规定，那么每次控制系数都为1，形成实际控制，即，三次占股比例都大于50％，几乎前者所对应的公司对后者所对应的公司的控制系数为1，因此，显然利用控制系数计算子公司更符合实际业务逻辑。例如，地方国有企业-公司甲4占地方国有企业-公司甲2的股份52.45％，超过50％股份，控制系数为1；同理，地方国有企业-公司甲2占地方国有企业-公司甲1的股份51.9808％，超过50％股份，控制系数也为1；地方国有企业-公司甲1占公司甲的股份51％，超过50％股份，控制系数也为1，因此，公司甲4对公司甲构成实际控制。

通过上述方式，股权穿透计算实现了全量关系拼接计算，有效减少关联方识别运行时间；同时，使用控制系数作为判断指标，还可在股权穿透基础上构建分类模型，即，按照知识图谱中股权关系方向计算各个节点的占股关系，进而实现自动识别企业之间占股关系的分类模型。

在另一些实施例中，还包括：当检测到集团谱系图像中被控企业(被控对象)与最高控制方归属于同一谱系时，根据所述被控企业与最高控制方的持股比例确定所述分支机构是否存在投资关系，若不存在投资关系时，利用识别的谱系成员完善谱系识别结果；否则，不处理。

具体地，被控企业与最高控制方归属同一谱系，基于持股比例进行计算，而实际业务中，大部分分支机构不存在投资关系，在自上而下识别谱系成员时，纳入分支机构关系，完善谱系识别结果。

通过上述方式，能够自动识别集团谱系图像，相比金融行业的集团图谱的管理方式而言，利用大数据自动识别集团谱系图像与生成集团谱系，极大降低人工的工作量，提高了识别效率，同时，也提高集团谱系管理的质量。

在另一些实施例中，基于SparkGraphX图计算架构处理知识图谱中关系三元组数据，生成多节点分布式的股权穿透计算引擎；

其中，Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求；Spark GraphX由于底层是基于Spark来处理的，所以，天然就是一个分布式的图处理***。图的分布式或者并行处理***将图拆分成很多的子图，然后，分别对这些子图进行计算，计算的时候可以分别迭代进行分阶段的计算，即对图进行并行计算。

通过分布式图形处理跨框架，生成多节点分布式的股权穿透计算引擎，通过多节点分布式的股权穿透计算引擎实现了全量关系拼接计算，有效减少关联方识别运行时间。

利用所述股权穿透计算引擎确定所述知识图谱中各个企业节点的占股关系；

其中，计算各个所述知识图谱中各个企业所形成节点之间的占股关系，例如，A点所对应的某某企业占股B点所对应的某某企业80％的股份，其中，股权穿透计算是从下至上或从下至上在知识图谱中进行股权计算，从而获取到各个节点之间的占股关系。

在所述知识图谱中沿着控股关系的方向，根据各个所述企业之间占股关系确定各个企业所对应节点之间的控制系数。

在另一些实施例中，所述按照所述控制系数结合所述最高控制方与被控企业之间的持股比例进行二次处理，确定所述集团谱系图像中被控企业所对应持股比例最大的最高控制方为最终控制方的步骤，详见图4，为本发明一个实施例中提供的集团谱系识别方法中最终控制方确定流程示意图，详述如下：

步骤S401，在所述集团谱系图像中以所述最高控制方为起点，按照股权控制路径对各个企业进行划分形成股东组；

具体地，从拓扑结构中各个最高控制方分别为起点，分别到最低的被控企业的股权控制路径所涉及的企业节点为股东组。

步骤S402，依据所述股权控制路径从上至下确定每个股东组中最高控制方与被控企业之间的持股比例；

具体地，从上之下层层穿透计算，按照每个被控企业的上一级控制方对其控制比例，从而确定每个股东组中最高控制方与被控企业之间的持股比例。

步骤S403，将最高控制方与被控企业之间的持股比例最大的股东组所对应的最高控制方确定为最终控制方。

具体地，通过自下而上的方式上穿找到最终控制方，若最高控制方不仅一家企业时，利用最高控制方对被控方的持股比例，其中，持股比例由最高控制方通过对每家企业的直接持股比例与间接持股比例确定，被控方归属于持股比率最大的一方为最终控制方。例如，以最高控制方为起点，通过向下穿透找到与最终受益股权，排除占比股份小于百分之二十的数据，找出最大的受益股权为最终控制方的一组(方)，循环拟合直至按照上述方式找到所有末端企业为止，确定最高控制方与被控企业之间的持股比例最大的股东组所对应的最高控制方确定为最终控制方。

在另一些实施例中，按照自下而上穿透的原则，若公司A上穿到大股东公司B，归属于B控股集团，其中，B控股的股份大于公司C1和公司C2的股份，但公司C1和公司C2的股份之和大于B控股的股份。通过对该公司(被控对象)进行二次认定，其公司C1和公司C2均归属C控股集团，因此C控股集团实际持股最大，远远超过50％的股份，也超过B控股集团，在这种情况下，通过二次认定，计算持股比例最大的股东组所对应的最高控制方，应该是C控股集团。

通过上述方式，通过二级认定的方式对最高控制方进行判断，确定集团谱系图像中的最终控制方，提高了集团谱系图像的识别精度。

可选的，另一些实施例中，为了提高集团谱系图像中企业关联关系识别方法中真实路径，详述如下：

根据所述集团谱系图像中各个企业节点之间的控制系数确定各个企业节点所属类型，该类型至少包括子公司、联营公司与合营公司；

其中，按照新的公司法规定，将公司的控制类型包括子公司、联营公司与合营公司，根据所述知识图谱中各个节点之间的控制系数所占的控制系数范围确定公司的控制类型。

按照各个所述企业节点之间所属类型以及控股关系生成企业及其关联方之间的多条关联方真实路径。

其中，按照各个所述节点之间的关系以及各个公司之间的控制类型，生成关联方之间的多条关联方真实路径，例如，根据新的公司法形成的各个所述节点之间的关系及控制类型，生成符合新的公司规定的多条关联方真实路径。

例如，如果A公司在B公司所占股份大于50％，则B公司为A公司的子公司；如果A公司在B公司所占股份刚好等于50％，则B公司为A公司的合营公司；如果A公司在B公司所占股份在20～50％之间，则B公司为A公司的联营公司。

通过上述方式，按照上述《公司法》的规定，根据控制系数识别企业的子公司、联营公司和合营公司，提升关联方识别的准确率。

在另一些实施例中，详见图5，为本发明一个实施例中提供的集团谱系识别方法中实际控制确定流程示意图，还包括：

步骤S501，检测被控企业所对应的上一级控制企业是否存在一致行动人；

步骤S502，当检测到被控企业所对应的上一级控制企业存在一致行动人时，判断所述上一级控制企业的占股是否超过第一预设比例；若所述上一级控制企业未有超过第一预设比例，则根据一致行动人所对应的关系将相关企业确定为共同控制关系；

步骤S503，检测所述集团谱系图像中属于共同控制关系的最高控制方；

步骤S504，当检测到所述集团谱系图像属于共同控制关系的最高控制方为有限合伙企业、空壳企业或持股平台中任一种情形时，根据当前情形从上至下逐层筛选确定占被控企业之间的持股比例最大的企业节点，将当前企业节点确定为所述集团谱系图中的实际控制方。

具体地，参照图10为例，对公司丙按持股比例最大的上穿逻辑进行识别，按理应上穿到公司丁，并成为最终控制方，然而，在步骤S502中，由于公司丙的控股关系中存在一致行动人(例如，公司丙1、公司戊、公司己、公司辛之间构成是一致行动人)，且累计持股超过50％，因此，对公司丙构成共同控制关系，因此，在本实施例中，实际对应的最终控制方应该是一致行动人所对应的公司。

具体地，在上述步骤S503中，多个属于共同控制关系的最高控制方按股权穿透逻辑，在检测到属于共同控制关系的最高控制方为有限合伙企业、空壳企业或持股平台中任一种情形时，例如，当检测到最高控制方为有限合伙企业，且该有限合伙企业的股份占比最大时，根据企业的类型(至少包括子公司、联营公司与合营公司)确定排除为有限合伙企业的其他类型公司，将仅次于该有限合伙企业股份的其他企业(子公司、联营公司与合营公司)确定为被控企业的实际控制方(实际最终控制方)。

同理，当属于共同控制关系的最高控制方为空壳企业或持股平台时，与上述方式相同，排除空壳企业或持股平台所对应的最终控制方(企业)，确定为被控企业的实际控制方。

通过上述方式，根据识别企业企业性质类型不同，确定不同的最终控制方的识别流程，适应性调节集团谱系图像中企业节点的识别流程，适应不同场景下的集团谱系图像，根据场景区分和反馈机制提高了算法的灵活性，形成一套完整的闭环集团识别方案，从而提高了集团谱系的识别准确率。

在另一些实施例中，详见图6，本发明一个实施例中提供的集团谱系识别方法中小批量更新流程示意图，还包括：

步骤S601，根据所述集团谱系图像中识别被控企业与最终控制方之间的全量谱系；

其中，全量谱系是针对数据库各个集团谱系图像的识别结果，通过全量谱系能够确定各个集团谱系图像中识别被控企业与最终控制方之间的关系，例如，被控企业、最高控制方、最终控制方等。

步骤S602，利用优先级排序融合所述全量谱系中确定的企业关系及企业节点；

其中，优先级排序是数据库预设的，例如，通过统一社会信用代码与正则匹配(正则表达式)两种模式进行互相补充的方式识别出优先级名单企业，其中社会统一信用码基于工商编码规则，对企业进行实体分类；或者，根据全量谱系识别的文本主题相似性进行聚类；对全量谱系的聚类结果进行多目标排序，并根据聚类结果调整排序序列；根据全量谱系的历史执行结果挖掘关联规则，动态调整排序序列；从而实现对全量谱系优先级的排序，进而重新确定识别的全量谱系中确定的企业关系及企业节点，

步骤S603，基于所述集团谱系图像进行局部计算，更新确定的企业关系及企业节点，得到所述集团谱系图像穿透形成的增量谱系，实现所述集团谱系的小批量更新。

其中，集团谱系图像的局部计算是通过与以往历史数据中存储的集团谱系图像进行对比，即，通过扑捉同一个集团谱系图像的更新后与更新前的集团谱系图像进行对比，确定更新的集团谱系图像，利用更新的集团谱系图像与更新前的存储的集团谱系图像对比检测，识别到集团谱系图像局部区域，通过上述层层穿透识别确定更新后的局部区域所对应的增量谱系，如果集团谱系图像只是更新后的局部区域所对应的增量谱系更新，即可实现所述集团谱系的小批量更新。

具体地，全量谱系基于5000万余条关系和1亿余个节点进行计算，耗费大量时间和资源，最终得到全量谱系所对应的识别结果。而本技术基于图数据进行谱系的局部计算，实现谱系T+0更新，在实际应用中，业务人员基于专业经验，在特定场景下形成了专业认定(企业)关系，基于大数据(全量谱系所对应的识别结果)通过优先级排序融合了认定关系，根据全量谱系结果圈定认定关系影响，利用重新认定后的关系及节点，穿透形成增量谱系，实现集团谱系小批量更新。

通过上述方式，采用小批量更新方式，定量更新集团谱系的关系及节点，能够形成反馈机制，实现一套完整闭环集团识别方案。

本实施例提供了一种集团谱系识别方法，该方法通过双向识别方式识别集团谱系中的控制方，利用股权关系，通过自下而上的原则依次往上穿透识别出控制方，识别出顶点的最高控制方；沿着所述最高控制方自上而下的原则层层往下穿透识别，得到集团谱系各个企业的控制系数；在自上而下的识别方式确定集团谱系内每个公司的控股比例，判断企业归属确定企业的最终控制方，得到集团谱系中各个企业的关联关系；一方面，通过自动化识别集团谱系，提高了识别效率；另一方面，采用双向识别方式分别进行穿透识别，提高了识别准确率。

在一个实施例中，本发明还提供了一种集团谱系识别装置700，参见图7，该装置包括：

获取模块701，获取模块，用于获取待识别的集团谱系图像，所述集团谱系图像包含各个企业之间的拓扑关系；

其中，所述获取模块在获取集团谱系图像之后，还包括：

识别模块702，用于从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系，按照各个所述企业之间的拓扑关系得到该集团谱系中被控企业及控制所述被控企业的最高控制方，所述最高控制方至少为一个；

具体地，所述识别模块进一步包括：

识别所述集团谱系图像中的各个企业以及相应拓扑关系；

控制系数确定模块703，用于在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径进行一次处理，得到所述最高控制方与被控企业之间的控制系数；

具体地，所述控制系数确定模块进一步包括：

最终控制方确定模块704，用于按照所述控制系数结合所述最高控制方与被控企业之间的持股比例进行二次处理，确定所述集团谱系图像中被控企业所对应持股比例最大的最高控制方为最终控制方；

具体地，最终控制方确定模块进一步包括：

可选的，在上述实施例基础，集团谱系识别装置还包括：

实际控制确定模块，用于检测被控企业所对应的上一级控制企业是否存在一致行动人；当检测到被控企业所对应的上一级控制企业存在一致行动人时，判断所述上一级控制企业的占股是否超过第一预设比例；若所述上一级控制企业未有超过第一预设比例，则根据一致行动人所对应的关系将相关企业确定为共同控制关系；还用于检测所述集团谱系图像中属于共同控制关系的最高控制方；当检测到所述集团谱系图像属于共同控制关系的最高控制方为有限合伙企业、空壳企业或持股平台中任一种情形时，根据当前情形从上至下逐层筛选确定占被控企业之间的持股比例最大的企业节点，将当前企业节点确定为所述集团谱系图中的实际控制方。

可选的，在上述实施例基础，集团谱系识别装置还包括：小批量更新更新模块，用于

根据所述集团谱系图像中识别被控企业与最终控制方之间的全量谱系；利用优先级排序融合所述全量谱系中确定的企业关系及企业节点；基于所述集团谱系图像进行局部计算，更新确定的企业关系及企业节点，得到所述集团谱系图像穿透形成的增量谱系，实现所述集团谱系的小批量更新。

本实施例提供了一种集团谱系识别装置，该装置通过双向识别方式识别集团谱系中的控制方，利用股权关系，通过自下而上的原则依次往上穿透识别出控制方，识别出顶点的最高控制方；沿着所述最高控制方自上而下的原则层层往下穿透识别，得到集团谱系各个企业的控制系数；在自上而下的识别方式确定集团谱系内每个公司的控股比例，判断企业归属确定企业的最终控制方，得到集团谱系中各个企业的关联关系；一方面，通过自动化识别集团谱系，提高了识别效率；另一方面，采用双向识别方式分别进行穿透识别，提高了识别准确率。

应当知晓的是，上述集团谱系识别装置***实质上是设置了多个模块用以执行上述任一实施例中的集团谱系识别方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

在一个实施例中，参见图8，本实施例还提供了一种计算机设备800，包括存储器801、处理器802及存储在存储器上并可在处理器上运行的计算机程序，所述处理器802执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

在一个实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项实施例所述方法的步骤。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种集团谱系识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的集团谱系识别方法，其特征在于，所述从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系之前，还包括：

3.如权利要求1所述的集团谱系识别方法，其特征在于，所述从下至上逐一识别所述集团谱系图像中的各个企业以及相应拓扑关系，按照各个所述企业之间的拓扑关系得到该集团谱系中被控企业及控制所述被控企业的最高控制方，包括：

识别所述集团谱系图像中的各个企业以及相应拓扑关系；

4.如权利要求1-3任一项的集团谱系识别方法，其特征在于，所述在所述集团谱系图像中以所述最高控制方为起点，沿着股权控制路径进行一次处理，得到所述最高控制方与被控企业之间的控制系数，包括：

5.如权利要求1-3任一项所述的集团谱系识别方法，其特征在于，所述按照所述控制系数结合所述最高控制方与被控企业之间的持股比例进行二次处理，确定所述集团谱系图像中被控企业所对应持股比例最大的最高控制方为最终控制方，包括：

6.如权利要求1所述的集团谱系识别方法，其特征在于，还包括：

检测所述集团谱系图像中属于共同控制关系的最高控制方；

7.如权利要求1所述的集团谱系识别方法，其特征在于，还包括：

8.一种集团谱系识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。