CN110688407B

CN110688407B - 一种社会关系挖掘的方法

Info

Publication number: CN110688407B
Application number: CN201910848260.7A
Authority: CN
Inventors: 张发恩; 姜勇越; 龚才春
Original assignee: Ainnovation Nanjing Technology Co ltd
Current assignee: Ainnovation Nanjing Technology Co ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2022-05-17
Anticipated expiration: 2039-09-09
Also published as: CN110688407A

Abstract

本发明公开了计算机领域的一种社会关系挖掘的方法，包括以下具体步骤：S1：获取数据：获取社交数据和元搜索数据；S2：实体链接；S3：bootstrapping关系挖掘；S4：情感分析；S5：实体对齐；S6：计算社会关系分数；S7：结合不同的业务和应用场景，结合依存句法分析利用bootstraping能够更深层次的挖掘实体之间的关系，对存在的关系做到尽可能的挖掘，结合情感分析对关系中的实体给出了等级的定义，使得社会影响分数的计算更为合理，结合实体于社会存在的意义，将关系影响分成关系实体对目标实体的帮助分数和影响分数，结合不同的业务场景可以获取更符合业务需要和应用场景的社会关系分数。

Description

一种社会关系挖掘的方法

技术领域

本发明涉及计算机技术领域，具体为一种社会关系挖掘的方法。

背景技术

在舆情分析中，会对某些重点人物、敏感人物以及一些社会团体进行画像，人和机构等实体作为存在社会的一份子，社会关系可以很大程度上表示该实体的影响力，社会关系也就成为画像中最重要的部分。实体的自身数据较容易获得，而实体的社会关系存在于大量的非结构化数据当中，如新闻数据、社交数据等，因此需要对文本信息进行实体关系挖掘；例如中国专利申请号为CN107257419A_一种基于贝叶斯分析人际关系量化估值方法和申请号为201810738014.1的信用评估的方法及装置。

现有的关系抽取结果往往就停留在发现与目标实体有关系的实体(简称关系实体)，并没有对该关系实体与目标实体的关系程度进行分级，但实际上不同等级的关系实体对目标实体的影响度是不一样的，如微博中的粉丝，通过互动程度就可以粗略的分为僵尸粉、普通粉和亲密粉。对不同等级的关系实体分析可以更好应用到不同的场景；

现有的针对人物的关系抽取都是固定好的，通过规则、机器学习和深度学习等方法，从文本中进行实体识别，并对多种关系进行打分。这种方法虽然是在进行关系抽取，但实则是在进行分类打标签(固定好的)，不属于真正意义上的关系挖掘，而且也不够深入。判断和获取更多的人与人之间的可能关系表示，深度的探究目标实体的可能的复杂关系背景，可以得到更为准确的信用分数；

目前可以通过规则、机器学习和深度学习等方法来实现关系抽取，但是规则的方法准确率不高，机器学习和深度学习需要大量的训练样本，而且随着关系定义的增多，需要在训练样本总量上提高多个量级，大量的标注样本也就对机器学习和深度学习进行了限制。

基于此，本发明设计了一种社会关系挖掘的方法，以解决上述提到的问题。

发明内容

本发明的目的在于提供一种社会关系挖掘的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种社会关系挖掘的方法，包括以下具体步骤：

S1：获取数据：获取社交数据和元搜索数据；

S2：实体链接：分别对步骤S1中的两类数据进行实体链接，利用语义相似度判断疑似账号和疑似信息与目标实体的符合程度；

S3：bootstrapping关系挖掘：再通过bootstrapping进行关系判断和关系挖掘，给出好友账号、以及和目标实体共现在同一个文本信息的实体与目标实体的关系；

S4：情感分析：在步骤S3判断其关系之后，利用情感分析对文本数据进行情感极性判断，并结合互动和共现的频次、地理和工作信息，算出与目标实体的关系程度；

S5：实体对齐：将步骤S4关系实体通过与已有实体库进行实体对齐，需要重复步骤S1的操作，实现得到该关系实体的多级关系；

S6：计算社会关系分数：结合将步骤S5中实体对齐后的结果和步骤S4中与目标实体的关系结果，对每个定义的关系中的关系实体进行排序，确定这些关系实体的等级分布，根据不同的关系等级赋予不同的权重，计算出每个关系实体对目标实体的帮助分数和影响分数，将所有关系实体的帮助分数和影响分数的加权求和，得到该目标实体的社会关系分数；

S7：结合不同的业务和应用场景：针对不同的业务和应用场景对数据看中程度的不同，对权重进行调整。

优选的，所述步骤S1中社交数据的获取方式为目标实体的社交账号和疑似目标实体的社交账号下的社交数据，若目标实体的账号中不包括常用的社交平台账号，则通过提供的信息在该社交平台上进行账号搜索，查找出疑似社交账号。

优选的，所述步骤S1中元搜索数据的获取方式为利用目标实体的姓名和称谓进行云搜索，找出目标实体和疑似目标实体出现的数据。

优选的，所述步骤S3中bootstrapping关系挖掘具体包括：先选取种子数据，通过确定的关系实体，然后搜索实体对共现的文本信息作为这类关系的模式；对于未能确定的实体对，则通过依存句法分析，分析出句子的成分主语、谓语、宾语、状语以及动宾等成分，然后组合成关系，从而进行关系挖掘。

优选的，所述步骤S3中共现在同一个文本信息的实体与目标实体的关系包括但不仅限于师生、好友、同学、校友、情侣、父母、夫妻、合作、同事、雇佣、领导、股东、投资关系。

优选的，所述步骤S4中与目标实体的关系程度包括僵尸级、普通级以及亲密级。

优选的，所述步骤S5中，若实体不存在实体库中，重复步骤S1的操作后，得到该关系实体的二级关系，若实体存在实体库中，重复步骤S1的操作后，得到该关系实体的三级关系。

与现有技术相比，本发明的有益效果是：

1、将关系实体对实体的影响分为帮助分数和影响分数，针对目标实体的各个社会关系中的不同等级赋予不同的权重，计算出关系实体对目标实体的帮助指数和影响指数，二者加权求和作为社会关系分数。

2、采用bootstraping的思路对包含目标实体的文本信息进行关系挖掘，结合依存句法分析，判断文本中每句话的成分，深度的挖掘实体之间的社会关系，对存在的关系做到尽可能的挖掘，关系抽取的准确率和召回率可达90％以上，对实体画像有着重要意义。

3、结合情感分析，判断人物各个社会关系中人物的关系度，通过关系度的排序得到每个关系定义中的等级分布，不同的等级会对目标实体的有着不同的影响，使得社会影响分数的计算更为合理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种社会关系挖掘的方法，包括以下具体步骤：

S1：获取数据：获取两大数据来源：社交数据和元搜索数据，社交数据的获取方式为目标实体的社交账号和疑似目标实体的社交账号下的社交数据，若目标实体的账号中不包括常用的社交平台账号，则通过提供的信息在该社交平台上进行账号搜索，查找出疑似社交账号；元搜索数据的获取方式为利用目标实体的姓名和称谓进行云搜索，找出目标实体和疑似目标实体出现的数据；

S2：实体链接：分别对社交数据和元搜索数据两类数据进行实体链接，利用语义相似度判断疑似账号和疑似信息与目标实体的符合程度，提高数据的准确度，整体提高分析的正确性；

S3：bootstrapping关系挖掘：先选取种子数据，通过确定的关系实体，然后搜索实体对共现的文本信息作为这类关系的模式；对于未能确定的实体对，则通过依存句法分析，分析出句子的成分主语、谓语、宾语、状语以及动宾等成分，然后组合成关系，从而进行关系挖掘，这种方法不再局限于固定的关系，重在挖掘尽可能的关系定义，初期需要人工介入，调整关系的定义，

再通过bootstrapping进行关系判断和关系挖掘，给出好友账号、以及和目标实体共现在同一个文本信息的实体与目标实体的关系，包括但不仅限于师生、好友、同学、校友、情侣、父母、夫妻、合作、同事、雇佣、领导、股东、投资关系；

S4：情感分析：在步骤S3判断其关系之后，利用情感分析对文本数据进行情感极性判断，并结合互动和共现的频次、地理和工作信息，算出与目标实体的关系程度，包括僵尸级、普通级以及亲密级；

S5：实体对齐：将步骤S4关系实体通过与已有实体库进行实体对齐，实体库本身的数据是可以提供更多的有价值的信息，若实体不存在实体库中，重复步骤S1的操作后，也就是获取该关系实体的社交数据和元搜索数据，得到该关系实体的二级关系，也就是得到该关系实体的直接关系，若实体存在实体库中，重复步骤S1的操作后，得到该关系实体的三级关系；

S7：结合不同的业务和应用场景：针对不同的业务和应用场景对数据看中程度的不同，对权重进行调整，如个人的信用贷业务，主要是看与目标实体的好友、同学以及父母等关系下的关系实体在收入、房产以及投资等数据。结合数据的权重调整，才能够给出更符合业务需要的目标实体的社会影响分数，更有效的进行分析和风险规避。

本发明的技术效果和优点：

1、结合依存句法分析，利用bootstraping能够更深层次的挖掘实体之间的关系，对存在的关系做到尽可能的挖掘，关系抽取的准确率和召回率可达90％以上，对实体画像有着重要意义。

2、结合情感分析，对关系中的实体给出了等级的定义，使得社会影响分数的计算更为合理。

3、结合实体于社会存在的意义(社会关系的存在)，将关系影响分成关系实体对目标实体的帮助分数和影响分数，结合不同的业务场景可以获取更符合业务需要和应用场景的社会关系分数。

下面为本发明实际应用的几个实施例：

实施例一：

对于舆情分析中人物关系挖掘。在舆情分析中，有关于重点人物和敏感人物的态势分析，其复杂的社会关系是针对人物分析的重中之重。对于舆情分析中的人物关系，大体分为夫妻、同学、亲戚、师生、幕僚、上下级等关系，其中幕僚关系可以理解成智囊团。智囊团也分在明面的和暗面的，明面的幕僚人员可能就是公开的信息，而暗面的幕僚人员往往隐藏较深，并且起着更加重要的作用。对于暗面的幕僚人员可以通过上述方法进行全网数据挖掘，即便是原始数据不能体现幕僚关系，随着关系的层层推理可以推理出一些暗面的幕僚人员，有效的展开目标人物的关系网。通过影响幕僚人员可以间接的影响目标人物在一些特定事情上的决策，达到期望效果。并且在挖掘的过程中该幕僚人员的部分关系也能逐步展开，会取得超过期望的效果。事实上，这也是根据定义好的关系来进行全网搜索，本方法的一个好处在于能过拓展出更多的关系以及确定关系实体与目标实体的亲密度，人物关系被挖掘出越多人物的画像越真实，分析、监测和人物的态势感知也就越全面。

采用本发明具体实施为：我们需要挖掘张三的社会关系，首先张三的一些个人属性是必须要十分确定的，比如张三的社会地位、所在机构、工作内容、所在职位、年龄等属性。从流程图可以看出有对两个数据源的数据获取可同时进行(第二条路径的数据不会完全包括第一条路径中的数据，这是因为社交数据中的评论数据很有可能不会提及目标实体的名字，而是用指代词来代替)：第一条路径，张三的真实和疑似社交数据来源。通过一些渠道获取目标人物张三的社交账号和疑似张三的社交账号，对这两部分的数据进行爬取，利用经过确认的属性来判断疑似账号的可信度，将可信度高的账号归到张三的社交账号，作为这一次分析的数据源，而可信度较低的疑似账号暂时保留，待到获取更多的张三信息之后进一步判断其可信度。将张三的社交账号里面的个人信息、发表的贴文、贴文下面的评论、点赞以及转发等数据进行爬取，对贴文和评论等文本数据进行bootstrapping关系挖掘：利用实体识别来找出与张三共现或者在张三的数据中提到的所有实体名称，根据bootstrapping已经定义好的模式(前期积累)来进行可能关系的确认，若匹配度很高则认为该关系实体与张三存在已经定义好的关系；如果匹配度都很低，就需要利用依存句法分析来分析整个句子成分构成，主语、宾语、谓语、动宾短语。如，获取到的文本数据是张三试图污蔑李四来博取反对者的注意，假设这句话不符合已有的bootstrapping定义好的关系模式，这时就需要我们分析这句话的句子成分，这里可以给出的结果就是张三和李四存在“污蔑”的关系。当确定了这种关系之后，需要归入到bootstrapping关系定义中去，这就需要利用全网数据搜索出张三和李四共现的文本数据，同样的需要进行实体链接，确认张三和李四是否是目前分析的张三和李四。将这些数据先用bootstrapping已经定义好的关系过滤一遍，如果都是不符合，就作为“污蔑”关系的标注数据，丰富bootstrapping的关系定义。虽然这些关系是靠句子中的成分来定义的，待到这样的词多了之后就可以进行关系映射，比如“污蔑”对于政治人物来说就可以映射到“政敌”等概括性词汇，但是对于实时的任务来说可以先通过句子成分分析获取可以表示关系的词汇。而对于社交数据的分析，是在得知张三好友账号的同时，进一步判断真实关系，如上述，虽然李四是张三的好友，但是通过二者互动的数据可以分析出张三和李四存在更明确的关系，如同学、师生以及同事等关系，依然是利用依存句法分析和bootstrapping进行关系确认。当确认完张三和李四的真实关系之后，需要对二者互动的内容进行情感分析，通过情感分析计算以及点赞、转发等数据给出二者的情感分值，并将一段时间(如，半年)内二者的互动频次与定义好的阈值(如，高于80次算亲密，低于80，高于20算普通，低于20算僵尸)进行比较来确定二者的关系程度，僵尸、普通和亲密，至此第一条分支路径结束。第二条路径：根据张三的姓名、称谓等信息进行数据元搜索。这部分是依靠搜索引擎对张三的信息进行全网数据搜索，目的是获取到与张三共现的实体目标，如“张三和王五共同成立的公司面临严重的财务问题”，确保这条数据不来自第一分支路线所覆盖的数据源。同样的利用上述提到的实体识别、bootstrapping关系抽取和依存句法分析等来确定张三与王五的关系。同样的利用情感分析和一段时间(如，一年)内王五和张三出现在网络的频次来确定关系实体与张三的关系程度(僵尸、普通和亲密)，至此第二条分支路径结束。当两条分支路径结束，需要利用实体对齐将两类数据源的分析结果进行汇聚。同时，舆情分析***自身拥有的实体库也要参与实体对齐，可以更快的确认李四和王五的身份以及获取各自的属性信息。实体对齐可以通过相似度计算以及标签的结果进行匹配来实现。以王五为例，如果王五不存在舆情分析的数据库中，那么就需要重复上述两个分支路线来进一步拓展此的关系网。如果王五存在舆情分析***的实体库，那么王五的关系网也是存储在此数据库中，这样张三的二级以及更多级关系也就可以获取到。根据之前计算的情感分析数值和关系程度进行所有的关系实体排序，僵尸、普通和亲密级的关系实体都要进行排序。根据王五的属性数据、情感分值、关系程度、排序的权重等因素(各自给予不同的权重)计算出该关系实体对张三的影响分数、对张三的帮助分数，再利用加权求和得到张三的社会关系分数，可以从社会关系的角度表征张三的社会地位，这就完成了张三的一轮的社会关系挖掘。

实施例二：

对于人物信用分数评定。在申请信用贷款越来越多的今天，信用分数的评定成为是否能拿到贷款的可参考的依据。然而现阶段对于信用分数的评定往往是根据申请人自己提交的材料，如房本、学历证书以及公积金缴纳等证明，而这部分只能体现申请人的自身属性分数。事实上，作为存在社会中的一员，自身属性固然重要，但是自身属性带动出的产物，复杂的社会关系，某种程度上更能体现人物的社会价值。因此在容易获取自身属性分数的基础上，将社会关系的影响融入到信用分数评定会使得得出的信用分数更加全面，更贴近实际。在本方法中提到的关系等级的定义是社会关系影响中的重要部分，这部分的价值就体现在社会关系分数中的两大组成部分，对目标实体的影响分数和帮助分数。针对信用评定这个实际应用来说，对目标实体的帮助分数越大，可以认为该关系实体帮助遇到困难的申请人的概率越大，如果该关系实体自身属性能够获得绝对的认可，那么该帮助分数就可以弥补申请人的自身属性的不足(如果有)，信用分数的评定也就更加合理。而影响分数的作用是相互的，这个影响分数不仅体现出了关系实体对申请人的影响，也能反映出申请人对关系实体的影响程度，这个可以作为拓展业务参考的依据。

采用本发明具体实施为：张三的信用分数评定。首先张三必须要提供一些可靠地材料和填写一些属性，并提供主流社交平台上的社交账号，通过这些材料和属性可以计算出张三的自身属性分数。如果张三不提供，或者提供的账号不能够完全覆盖所有的主流社交平台，需要根据张三提供的信息去主流平台进行搜索，找到疑似账号，根据其他的信息进行账号确认。与上述舆情分析应用中的步骤相同，需要经过两条路径的数据丰富和前期数据分析，处理流程不变，这里不再赘述，直接跳到两条分支路径结束。利用实体对齐将两条路径的数据、分析结果与信贷机构自身数据库拥有的实体库进行汇聚。同样的根据之前计算的情感分析数值和关系程度进行所有的关系实体排序，僵尸、普通和亲密级的关系实体都要进行排序。根据关系实体自身的属性数据、情感分析值、关系程度、排序的权重等因素计算出该关系实体对张三的影响分数、对张三的帮助分数，再对所有的关系实体的相应的分数进行加权求和，得到张三的社会关系分数。再结合张三自身属性分数，可以算出张三的信用分数。

实施例三：

对于投资研究。在投资研究中，以公司和股票举例来说，投资者首要看重的是公司和股票发展前景和发展近况，这部分数据可以从年报和各大券商的研究报告来获得。另外投资也比较看重公司以及与公司有关的人物的社会关系，这些关系一部分会出现在上述提到的年报和研究报告，然而大部分关系会隐藏于全网数据以及需要通过推理来进行关系传递。母子公司、投资、股东、竞品、供应商、客户等关系都可以反映出公司的社会地位，而这些是公司层面的关系，会影响对公司的帮助分数；而如公司拥有的产品具有的先进的技术，那么这个技术与产品就是运用关系，而这项技术又是业内看好的，那么就会对该公司的影响分数起到积极的作用。诸如这样的关系还有很多，如产品与零件的使用关系，产品与产品的继承关系等。通过引入影响分数和帮助分数，可以对公司进行更全面的分析，给出更加合理的研究报告，帮助投资者更好的进行投资决策。

采用本发明具体实施为：结合A公司的社会关系的投资研究。A公司的社交账号可能是不存在的，但是可以将A公司的CEO等管理层的高级人员的社交账号作为分析数据源。事实上，挖掘A公司的社会关系的数据源要扩展到三个，一个是刚才提到的如CEO级别的管理者的社交账号的社交数据；一个是证券公司针对A公司的投资研究报告；另外一个就是元搜索A公司的全网数据。对于投资研究报告中不但会提到A公司名称以及与之有关系的其他公司的名称，还会出现A公司的产品，产品所使用的技术，产品所使用的高端零件、高端配置等等，这都是需要挖掘的关系，因此这一部分或扩展到全网数据那里。处理流程与上述相似，特殊之处就在于会将产品、技术以及相关的实物都要进行全网数据搜索，这里不再赘述。根据情感分析数值和关系程度进行所有的关系实体排序，僵尸、普通和亲密级的关系实体都要进行排序。然而对于产品搭配的零件、使用的技术、高端配置这些实体，不再是关系排序，而是要获取这些实体在各自领域的地位和市场占有率等指标。根据关系实体自身的属性数据、情感分析值、关系程度、排序的权重等因素计算出该关系实体对A公司的影响分数、对A公司的帮助分数，再对所有的关系实体的相应的分数进行加权求和，得到A公司的社会关系分数。再结合张三自身属性包括营业收入、利润等经济指数，可以算出。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种社会关系挖掘的方法，其特征在于：包括以下具体步骤：

S1：获取数据：获取社交数据和元搜索数据；

S3：bootstrapping关系挖掘：先选取种子数据，通过确定的关系实体，然后搜索实体对共现的文本信息作为这类关系的模式；对于未能确定的实体对，则通过依存句法分析，分析出句子的成分主语、谓语、宾语、状语以及动宾成分，然后组合成关系，从而进行关系挖掘，再通过bootstrapping进行关系判断和关系挖掘，给出好友账号、以及和目标实体共现在同一个文本信息的实体与目标实体的关系；

2.根据权利要求1所述的一种社会关系挖掘的方法，其特征在于：所述步骤S1中社交数据的获取方式为目标实体的社交账号和疑似目标实体的社交账号下的社交数据，若目标实体的账号中不包括常用的社交平台账号，则通过提供的信息在该社交平台上进行账号搜索，查找出疑似社交账号。

3.根据权利要求1所述的一种社会关系挖掘的方法，其特征在于：所述步骤S1中元搜索数据的获取方式为利用目标实体的姓名和称谓进行云搜索，找出目标实体和疑似目标实体出现的数据。

4.根据权利要求1所述的一种社会关系挖掘的方法，其特征在于：所述步骤S3中共现在同一个文本信息的实体与目标实体的关系包括但不仅限于师生、好友、同学、校友、情侣、父母、夫妻、合作、同事、雇佣、领导、股东、投资关系。

5.根据权利要求1所述的一种社会关系挖掘的方法，其特征在于：所述步骤S4中与目标实体的关系程度包括僵尸级、普通级以及亲密级。

6.根据权利要求1所述的一种社会关系挖掘的方法，其特征在于：所述步骤S5中，若实体不存在实体库中，重复步骤S1的操作后，得到该关系实体的二级关系，若实体存在实体库中，重复步骤S1的操作后，得到该关系实体的三级关系。