CN113762703A - 确定企业画像的方法和装置、计算设备和存储介质 - Google Patents

确定企业画像的方法和装置、计算设备和存储介质 Download PDF

Info

Publication number
CN113762703A
CN113762703A CN202110436450.5A CN202110436450A CN113762703A CN 113762703 A CN113762703 A CN 113762703A CN 202110436450 A CN202110436450 A CN 202110436450A CN 113762703 A CN113762703 A CN 113762703A
Authority
CN
China
Prior art keywords
enterprise
business
target
enterprises
businesses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110436450.5A
Other languages
English (en)
Inventor
陈遥烽
叶龙
王俊鹏
张灿
李佳
缪招兵
李倩
魏曼
王茜妮
杨小宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110436450.5A priority Critical patent/CN113762703A/zh
Publication of CN113762703A publication Critical patent/CN113762703A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Computer Security & Cryptography (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种确定企业画像的方法,包括:基于企业数据,识别多个企业中的目标企业的关联企业;从关联企业中识别目标企业的具有最高紧密度的企业集合以作为关联企业集合体;基于目标企业的业务特征数据,提取目标企业的至少一个个体企业标签;对关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取目标企业的至少一个全局企业标签;分别基于至少一个个体企业标签以及至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分;确定目标企业的企业画像,企业画像包括目标企业的关联企业、个体企业标签、全局企业标签、个体评分、全局评分。

Description

确定企业画像的方法和装置、计算设备和存储介质
技术领域
本公开涉及数据处理的技术领域,具体来说涉及确定企业画像的方法和装置、计算设备和计算机可读存储介质。
背景技术
随着大数据时代的来临,企业画像的概念的应运而生。企业画像通常对企业的状况进行直观综合的描述,以期望能够通过企业画像实现对企业的清晰全面的了解。此外,通过对各行业、地区等的企业的企业画像进行分析处理,还可以了解到整个行业乃至地区经济的发展状况,以便采取相应措施来避免风险或者提振经济。因此,企业画像的准确性和全面性是非常关键的。
目前,在确定企业画像时,通常都是针对目标企业个体的特征进行分析和确定,所依据的数据也是与目标企业本身的属性数据等。然而,这样确定的企业画像并不能提供针对目标企业的准确、全面的企业画像。如何提供一种能够全面、准确地反映目标企业的经营活动,并且提供真实可靠的企业画像的方案成为亟待解决的问题。
发明内容
鉴于此,本公开提供了确定企业画像的方法和装置、计算设备和计算机可读存储介质,期望缓解或克服上面提到的部分或全部缺陷以及其他可能的缺陷。
根据本公开的第一方面,提供了一种确定企业画像的方法,包括:基于企业数据,识别多个企业中的目标企业的关联企业,其中,所述企业数据包括所述多个企业中每个企业在多个维度的业务特征数据,并且所述关联企业包括所述多个企业中与所述目标企业在所述多个维度的业务特征数据中的关联度大于关联度阈值的企业;从所述关联企业中识别所述目标企业的具有最高紧密度的企业集合以作为关联企业集合体,其中所述紧密度取决于所述关联企业集合体中的关联企业间在所述多个维度的业务特征数据中的关联度;基于所述目标企业的业务特征数据,提取目标企业的至少一个个体企业标签;对所述关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取所述目标企业的至少一个全局企业标签;分别基于所述至少一个个体企业标签以及所述至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分;确定所述目标企业的企业画像,所述企业画像包括所述目标企业的关联企业、个体企业标签、全局企业标签、个体评分、全局评分。
根据本公开的第二方面,提供了一种确定企业画像的装置,包括:关联企业识别模块,被配置成基于企业数据,识别多个企业中的目标企业的关联企业,其中,所述企业数据包括所述多个企业中每个企业在多个维度的业务特征数据,并且所述关联企业包括所述多个企业中与所述目标企业在所述多个维度的业务特征数据中的关联度大于关联度阈值的企业;关联企业集合体识别模块,被配置成从所述关联企业中识别所述目标企业的具有最高紧密度的企业集合以作为关联企业集合体,其中所述紧密度取决于所述关联企业集合体中的关联企业间在所述多个维度的业务特征数据中的关联度;个体标签提取模块,被配置成基于所述目标企业的业务特征数据,提取目标企业的至少一个个体企业标签;全局标签获取模块,被配置成对所述关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取所述目标企业的至少一个全局企业标签;评分模块,被配置成分别基于所述至少一个个体企业标签以及所述至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分;企业画像确定模块,被配置成确定所述目标企业的企业画像,所述企业画像包括所述目标企业的关联企业、个体企业标签、全局企业标签、个体评分、全局评分。
根据本公开的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器被配置成在其上存储计算机可执行指令,所述计算机可执行指令当在所述处理器上执行时执行前述方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储计算机可执行指令,所述计算机可执行指令当在处理器上执行时执行前述方法。
在本公开要求保护的确定企业画像的方法和装置中,充分利用与目标企业存在直接或间接关系的企业的企业数据,显著提升了对企业数据这样的数据资源的利用率,从而以更加整体性的角度来确定目标企业的企业画像,使得企业画像更为准确和全面地反映企业的真实状况。此外,通过提取企业标签并且进而基于标签来确定企业评分的方式,进一步提高了数据的处理效率,使得所述企业画像的确定更加准确高效。
根据下文描述的实施例,本公开的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本公开的这些和其它优点。
附图说明
现在将更详细并且参考附图来描述本公开的实施例,其中:
图1示出了根据本公开的实施例的技术方案可以实施在其中的示例性应用场景;
图2示出了根据本公开的一个实施例的确定企业画像的方法的示例性流程图;
图3示出了根据本公开的一个实施例的确定关联企业集合体的方法的流程图;
图4示出了根据本公开的一个实施例确定的目标企业的企业画像的示意图;
图5图示了根据本公开的一个实施例的识别目标企业的关联企业的示意图;
图6图示了根据本公开的一个实施例的标签提取的示意图;
图7图示了根据本公开的一个实施例的标签评分的示意图;
图8示出了根据本公开的一个实施例的确定企业画像的装置的示例性结构框图;以及
图9示出了一个示例***,其包括代表可以实现本文描述的各种技术的一个或多个***和/或设备的示例计算设备。
具体实施方式
下面的描述提供了本公开的各种实施例的特定细节,以便本领域的技术人员能够充分理解和实施本公开的各种实施例。应当理解,本公开的技术方案可以在没有这些细节中的一些细节的情况下被实施。在某些情况下,本公开并没有示出或详细描述一些熟知的结构或功能,以避免这些不必要的描述使对本公开的实施例的描述模糊不清。在本公开中使用的术语应当以其最宽泛的合理方式来理解,即使其是结合本公开的特定实施例被使用的。
首先,对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组件、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本申请概念的教示。如本文中所使用,术语“和/或”及类似术语包括相关联的列出项目中的任一个、多个和全部的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的,因此不能用于限制本申请的保护范围。
在详细介绍本公开的实施例之前,首先对企业画像及相关技术的概念进行解释。
企业画像:类似于用户画像,是将企业的多个维度上的内容表示(例如,行为内容和属性内容)进行聚合的一种形式,其基于特定的场景,对企业的信息进行研究以提取出企业的特征标签,以实现对企业的精准分析。企业的行为内容可以包括:交易时间、交易对象的行为记录等;而企业的属性内容可以包括:地址、电话等。通常,通过分析企业在不同维度上的内容表示,对企业进行建模从而确定企业画像,并基于企业画像为使用人员提供参考。
随机游走:是一种数学统计模型,它是一连串的轨迹所组成,其中每一次都是随机的。随机游走能用来表示不规则的变动形式,它可以在各种空间上进行。本文中主要指在关联图上的随机游走,给定一个关联图和一个起始节点,随机选择一个邻居节点,走到该处后再随机选择一个邻居,重复指定的次数。利用随机游走统计模型可以实现节点的向量化。
Node2vec游走策略:在选择下一跳节点时,综合当前节点以及访问过的节点的信息进行选择。可以预先设定返回参数和出入参数,返回参数控制重复访问刚刚访问过的顶点的概率,出入参数控制着游走的方向使得游走时偏向宽度优先还是广度优先,通过两个参数的控制来获取随机游走序列。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
图1示出了根据本公开的一个实施例的示例性应用场景100。应用场景100中包括数据库101、服务器102、网络103和显示器104,数据库101通过网络103与服务器120通信地耦合在一起。
作为示例,数据库101可以存储企业数据,该企业数据通过网络103被输入到服务器102以用于确定企业画像的数据,例如数据库101中的企业数据可以包括多个企业中每个企业在多个维度的业务特征数据,例如可以包括交易时间、交易对象、企业名称等,数据库101在将企业数据输入到服务器102之前可以先进行预处理操作,例如去除重复数据和不完整数据等。在本公开的应用场景中,数据库101可以将企业数据通过网络103发送给服务器102,或者直接通过服务器102的输入设备而输入至服务器102。网络103例如可以是广域网(WAN)、局域网(LAN)、无线网络、公用电话网、内联网以及本领域的技术人员熟知的任何其它类型的网络。
作为示例,在接收到企业数据后,服务器102例如可以基于该企业数据,识别多个企业中的目标企业的关联企业,该关联企业包括多个企业中与目标企业在多个维度的业务特征数据中的关联度大于关联度阈值的企业。然后服务器102可以从关联企业中识别目标企业的具有最高紧密度的企业集合以作为关联企业集合体,紧密度取决于关联企业集合体中的关联企业间在多个维度的业务特征数据中的关联度。同时,服务器102可以基于目标企业的业务特征数据,提取目标企业的至少一个个体企业标签。在识别出关联企业集合体后,服务器102可以对关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取关联企业集合体的至少一个全局企业标签。接着,服务器102可以分别基于至少一个个体企业标签以及至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分。最后,服务器102可以确定目标企业的企业画像,该企业画像包括前述目标企业的关联企业、个体企业标签、全局企业标签、个体评分、全局评分。可选地,服务器102可以将企业画像输出到显示器104中进行显示,为使用人员提供参考。
应当指出,数据库101可以是能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。本领域普通技术人员所理解的,服务器102的实例可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。显示器104可以从服务器102接收显示数据,根据显示数据对目标企业的企业画像进行显示。
在一些实施例中,上述的应用场景100可以是由数据库101的集群和服务器102构成的分布式***,所述分布式***例如可以构成区块链***。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
图2示出了根据本公开的一个实施例的确定企业画像的方法200的示例性流程图。所述方法200例如可以在图1所示的服务器102上实施。如图2所示,所述方法200包括如下步骤。
在步骤201中,基于企业数据,识别多个企业中的目标企业的关联企业,其中,企业数据包括多个企业中的每个企业在多个维度的业务特征数据,并且关联企业包括所述多个企业中与目标企业在多个维度的业务特征数据中的关联度大于关联度阈值的企业。在该步骤中实现了对目标企业的关联企业的识别,即寻找与之相关联的企业。
这里所述的企业数据不限于目标企业的数据,还可以包括其他企业的数据,并且不限于企业的外部数据(例如,外部收集的数据),还可以包括企业的内部数据(例如,目标企业内部保存的数据)。所述多个维度是业务特征数据的特征性描述,包括但不限于企业属性、企业名称、产品特征、工商控股关系、交易特征等维度。业务特征数据所携带的信息可以是上述维度的具体内容,例如企业属性维度对应的业务特征数据为企业属性相关的数据、企业名称维度对应的业务特征数据为企业名称相关的数据、产品特征维度对应的数据为与产品相关的数据,例如产品介绍、产品类型、产品名称、产品组成,工商控股关系维度对应的业务特征数据为控股关系相关的数据,例如企业组织架构、董监高人员、母公司与子公司,交易特征维度对应的业务特征数据为交易相关的数据,例如交易行为、交易时间段异常偏离、交易服务商等。
在步骤201中,针对目标企业,以多个维度下的业务特征数据为分析对象,分析所有可能与之存在关联关系的企业,并确定这种关联关系的关联程度,即关联度。关联越紧密的企业,关联度越大。这里所述关联度阈值可以根据需要被配置,其值可以是零,但这并不是限制性的。在这种情况下,只要目标企业与所述多个企业中的另一企业在所述多个维度的业务特征数据中存在关联关系,即可以确定所述目标企业与所述另一企业在所述多个维度的业务特征数据中的关联度大于关联度阈值。
在一个实施例中,也可以通过如下方式确定目标企业与多个企业中的另一企业的关联度:确定目标企业与另一企业间的关联分值,关联分值取决于目标企业与另一企业间具有关联关系的业务特征数据所在维度的数量;基于关联分值,确定目标企业与另一企业间的关联度。例如,在多个维度为5个维度的情况下,目标企业与另一企业在两个维度上被识别为具有关联关系时,则关联分值可以被确定为2。然后,对关联分值进行归一化处理:2/5=0.4,即确定目标企业与另一企业间的关联度为0.4。
作为示例,企业数据可以包括涉及100家企业的数据,该企业数据包括每一家企业在多个维度的业务特征数据,例如,该多个维度可以是企业属性、企业名称、产品特征、工商控股关系、交易特征,共五个维度。服务器102可以分别针对每条数据进行关联识别,寻找与目标企业存在关联的企业并确定它们的关联度。如果该关联度大于关联度阈值,则将该企业认定为关联企业。关联企业的数量可以是一家或多家,例如在上述示例中,可以从100家企业中识别出20家关联企业。
在一个实施例中,也可以通过如下方式确定目标企业与多个企业中的另一企业的关联度:确定目标企业和与目标企业具有关联关系的企业中每两个企业间的关联分值,关联分值取决于两个企业间具有关联关系的业务特征数据所在维度的数量;以企业为节点、企业间的关联关系为边、每两个企业间的关联分值为两个企业间的边的权重,构建网络图;基于网络图,对网络图中的节点进行向量化处理,以得到每个节点的向量;将目标企业与另一企业对应的节点的向量间的相似度确定为目标企业与另一企业的关联度。通常,两个节点之间实现关联的维度数量越多,说明两个节点之间的关联程度越紧密,因此关联分值越大,边的权重越大。
在对网络图中的节点进行向量化处理时,可以利用随机游走方案来实现将各个节点向量化。随机游走方案例如可以是Node2vec。作为示例,在所构建的关联图中随机确定一个开始节点,从该开始节点开始按照Node2vec策略游走并得到一条随机游走序列,多次重复该方案可以得到多条随机游走序列。使用所得到的多条随机游走序列对机器学习模型进行训练,得到可以表征该关联图中各个节点的向量表示的机器学习模型,从而可以得到各个节点的向量表示,节点的向量表示之间的相似度可以确定为节点间的关联度。
在该方法中,节点的向量表示包括了该节点在网络图中的结构信息及附近节点的局部相似性信息,即不仅包括该节点和直接邻接节点之间的关联关系,还包括该节点和间接邻接节点之间的关联关系,因此利用节点的向量间的相似度可以更为全面、准确地表征企业间的关联度,有助于确定全面且准确的企业画像。
在步骤202中,从所述关联企业中识别目标企业的具有最高紧密度的企业集合以作为关联企业集合体,其中紧密度取决于所述关联企业集合体中的关联企业间在多个维度的业务特征数据中的关联度。企业集合可以以各种方式被划分,这里不做具体的限定。
作为示例,在步骤201中识别出20家关联企业,这20家关联企业可以被划分成三个企业集合:企业集合1、企业集合2、企业集合3。企业集合1中包括三家企业,这三家企业之间的关联度之和相比其他企业集合而言最大,则选定企业集合1为关联企业集合体。
在步骤203中,基于目标企业的业务特征数据,提取目标企业的至少一个个体企业标签。个体企业标签是指能够表征目标企业特征的标签,构成目标企业的企业画像的组成部分。个体标签可以具有各种各样的形式,并不被限制。例如,个体标签可以包括一级标签和二级标签,二级标签例如可以是一级标签进一步细化。
在步骤204中,对关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取目标企业的至少一个全局企业标签。作为示例,可以首先将关联企业集合体内各个关联企业的业务特征数据进行聚合,然后对聚合后的数据进行标签提取处理,所提取的标签是该关联企业集合体的标签,以作为所述目标企业的全局企业标签。
在一个实施例中,对关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取目标企业的至少一个全局企业标签,包括:对关联企业集合体中的关联企业的业务特征数据中业务特征对应的特征值进行加权求和,以得到关联企业集合体的业务特征数据;基于关联企业集合体的业务特征数据,获取所述目标企业的至少一个全局企业标签。通过将关联企业的特征值进行加权求和处理,使得处理结果可以表示关联企业集合体的整体特征,根据整体特征可以获得所述目标企业的全局企业标签。
作为示例,对于关联企业集合体内的各个企业在交易特征维度中交易时间段异常偏离上的业务特征数据,可以先分别计算各个企业的交易时间分布,然后将各个交易时间分布进行加权求和处理,以得到关联企业集合体的交易时间分布。例如,针对关联企业集合体中的3家关联企业的0到23时的交易时间分布,假设3家关联企业的权重均为1/3(权重的值可以不同,并且可以被预先配置),则可以以小时为单位来聚合,例如,在7-8时,将3家关联企业在该时段的交易数量按上述权重求和,其他时段按相同方式处理,从而可以得到关联企业集合体的交易时间分布。然后,基于关联企业集合体的交易时间分布,可以获取目标企业的全局企业标签,即交易时间段异常偏离标签的内容。
在步骤205中,分别基于所述至少一个个体企业标签以及所述至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分。换句话说,基于所述至少一个个体企业标签确定目标企业的个体评分,以及基于所述至少一个全局企业标签,确定目标企业的全局评分。
在一个实施例中,基于所述至少一个个体企业标签确定目标企业的个体评分可以包括:从至少一个个体企业标签中抽取至少一个具有风险意义的个体标签,并对至少一个具有风险意义的个体标签进行数值化处理,以得到至少一个具有风险意义的个体标签的风险风值;融合至少一个具有风险意义的个体标签的风险风值,以得到目标企业的个体评分。基于所述至少一个全局企业标签,确定目标企业的全局评分可以包括:从至少一个全局企业标签中抽取至少一个具有风险意义的全局标签,并对至少一个具有风险意义的全局标签进行数值化处理,以得到至少一个具有风险意义的全局标签的风险风值;融合至少一个具有风险意义的全局标签的风险风值,以得到目标企业的全局评分。个体企业标签可以描述目标企业的各个方面的特点,不限于某一特定的方面,全局企业标签也是如此。而个体评分可以用来评价目标企业的风险水平,具有高风险水平的目标企业会得到较高的个体评分,具有低风险水平的目标企业会得到较低的个体评分。个体标签中的一部分是可以用来评价目标企业的风险水平的标签(即,具有风险意义的个体企业标签),例如产品的敏感程度、交易时间段异常偏离等标签等,而另一部分是不可以用来评价目标企业的风险水平的标签(即,不具有风险意义的个体企业标签),例如年度付款金额、是否属于国有企业等等。所以在计算个体评分和全局评分的过程中,可以抽取具有风险意义的个体企业标签。
在提取标签的过程中,通常会根据业务特征数据中业务特征对应的特征值来确定标签的内容,因此该特征值可以作为该标签的数值化处理得到的风险分值。一般地,所提取的标签具有风险分值,在抽取具有风险意义的个体企业标签后,可以将所抽取的个体企业标签的风险分值予以融合,即可以得到个体评分。对于没有风险分值的标签,可以利用统计学方法将标签进行数值化处理。例如,对于产品特征中的行业类型标签,可以根据历史上的统计数据确定属于该行业类型的所有企业中问题企业的占比情况,将该百分比作为该行业类型标签的风险分值。类似地,将各个全局企业标签的分值予以融合,即可以得到全局评分。具体地,假设个体企业标签的数量为K,K为正整数,在对风险分值进行融合时,可以使用的融合公式为:Y=
Figure DEST_PATH_IMAGE001
,其中Y为目标企业的个体评分,
Figure 70492DEST_PATH_IMAGE002
为第i个个体企业标签的数值化值(即,风险分值),
Figure DEST_PATH_IMAGE003
为第i个个体企业标签的权重并且可以被预先确定,权重的取值范围为[0, 1]。类似地,假设全局企业标签的数量为K,K为正整数,在对风险分值进行融合时,可以使用的公式为:Y=
Figure 49949DEST_PATH_IMAGE001
,其中Y为目标企业的全局评分,
Figure 829686DEST_PATH_IMAGE002
为第i个全局企业标签的数值化值(即,风险分值),
Figure 530621DEST_PATH_IMAGE003
为第i个全局企业标签的权重并且可以被预先确定,权重的取值范围为[0, 1]。
计算得到目标企业的个体评分和全局评分后,可以根据评分高低将目标企业与其他经评分的企业进行排名,利用目标企业在个体评分排名上的名次,以及目标企业的全局评分在全局评分排名上的名次,例如为使用人员提供参考。
在步骤206中,确定目标企业的企业画像,所述企业画像包括所述目标企业的关联企业、个体企业标签、全局企业标签、个体评分、全局评分。由此,完整地形成了目标企业的企业画像,所述企业画像准确全面地反映目标企业的状况。可选地,目标企业的企业画像也可以通过显示器104予以显示。
在本公开要求保护的确定企业画像的方法中,充分利用与目标企业存在直接或间接关系的企业的数据,显著提升了对企业数据这样的数据资源的利用率,从而以更加整体性的角度来确定目标企业的企业画像,使得企业画像更为准确和全面地反映企业的真实状况。此外,通过提取企业标签并且进而基于标签来确定企业评分的方式,进一步提高了数据的处理效率,使得所述确定企业画像的方法更加准确高效。
图3示出了根据本公开的一个实施例的确定关联企业集合体的方法300的流程图。所述方法300可以被用来实施参照图2的步骤202,即,从所述关联企业中识别目标企业的具有最高紧密度的企业集合以作为关联企业集合体。所述方法300可以包括如下步骤。
在步骤301中,将关联企业进行社区划分以得到至少一个企业集合,每个企业集合包括关联企业中的至少一部分关联企业。社区划分(Community Detection)又被称为社区发现、社区检测等,它是用来揭示网络聚集行为的一种技术。社区划分实际就是一种网络聚类的方法。社区划分例如可以基于关联企业构成的关联图进行。具体地,可以使用标签传播算法(LPA)或基于标签传递的重叠社区发现算法(CORPA)这样的社区划分算法进行社区划分。经过社区划分之后,不同的企业集合具有不同的特征。通过划分企业集合,可以实现对关联企业的进一步筛选。
在步骤302中,基于每个企业集合中的关联企业间在多个维度的业务特征数据中的关联度,确定每个企业集合的紧密度。企业集合的紧密度可以基于企业集合中的关联企业间在多个维度的业务特征数据中的关联度来计算。在一些实施例中,企业集合的紧密度是指企业集合中,各个关联企业间在多个维度的业务特征数据中的关联度的总和(可选地,可以指企业集合中,各个关联企业间在多个维度的业务特征数据中的关联度的总和与企业集合中关联企业的数目的比值),各个企业之间关联度的确定可以参照上文的目标企业和多个企业中的另一企业之间的关联度的确定。
具体地,在一些实施例中,可以通过如下方式确定每个企业集合中的关联企业间在多个维度的业务特征数据中的关联度:确定企业集合中的每两个关联企业间的关联分值,关联分值取决于两个关联企业间具有关联关系的业务特征数据所在维度的数量;基于关联分值,确定每两个关联企业间的关联度。后文称之为关系公式计算方法。
在另一些实施例中,可以通过如下方式确定每个企业集合中的关联企业间在多个维度的业务特征数据中的关联度:确定目标企业的关联企业中每两个关联企业间的关联分值,关联分值取决于两个关联企业间具有关联关系的业务特征数据所在维度的数量;以目标企业的关联企业为节点、目标企业的关联企业间的关联关系为边、每两个关联企业间的关联分值为两个关联企业间的边的权重,构建关联图;基于关联图,对关联图中的节点进行向量化处理,以得到每个节点的向量;将每个企业集合中的关联企业对应的节点的向量间的相似度确定为每个企业集合中的关联企业在多个维度的业务特征数据中的关联度。后文称之为关联图计算方法。
在步骤303中,从至少一个企业集合中确定具有最高紧密度的企业集合以作为关联企业集合体。在确定各个企业集合的紧密度之后,可以将各个企业进行排序操作,从中选择具有最高紧密度的企业集合作为关联企业集合体,以提取全局企业标签和计算全局评分。
具有高紧密度的企业集合意味着该企业集合中各个企业之间的关联度总和较大,各个企业之间关联关系更为紧密。该企业集合中的这些企业更可能是目标企业的合作伙伴或者与目标企业具有较强的业务交集,所以选择具有最高紧密的企业集合有助于确定准确并且全面的企业画像。
图4示出了根据本公开的一个实施例的确定的目标企业的企业画像的示意图。如图4所示,企业画像由三部分构成,分别是关联企业410、标签420、评分430。识别关联企业时利用的业务特征数据的维度可以包括五个维度,分别是企业属性、企业名称、产品特征、工商控股关系、交易特征。在这五个维度上存在关联的其他企业可以被识别为目标企业的关联企业。该关联企业部分构成企业画像的第一部分。
其次,通过对关联企业进行社区划分并确定关联企业集合体,分别针对目标企业和该关联企业集合体提取目标企业的个体企业标签和全局企业标签。由于两者的标签是从业务特征数据中处理得到的,所以两者的标签的种类均包括交易标签、行业标签、产品标签、属性标签。在提取标签过程中,同时记录标签的风险分值,供后续评分使用。该标签部分构成企业画像的第二部分。
最后,根据所提取目标企业的个体企业标签和全局企业标签,对应地确定目标企业的个体评分以及全局评分,这构成企业画像的第三部分。
图5图示了根据本公开的一个实施例的识别目标企业的关联企业的示意图。具体地,图5描述了基于企业数据,识别多个企业中的目标企业的关联企业的实现方式,如参照图2的步骤201所描述的。该实现从企业属性、企业名称、产品特征、工商控股关系和交易特征这五个维度进行关联识别。可选地,识别多个企业中的目标企业的关联企业可以包括以下至少一项:从企业数据中确定第一类的关联企业,其中第一类的关联企业与目标企业具有相同的企业属性;从企业数据中确定第二类的关联企业,其中第二类的关联企业的企业名称与目标企业的企业名称具有相同实体关键词;从企业数据中确定第三类的关联企业,其中第三类的关联企业的产品特征与目标企业的产品特征的相似度大于产品相似度阈值;从企业数据中确定第四类的关联企业,其中第四类的关联企业与目标企业具有重复的工商控股关系;从企业数据中确定第五类的关联企业,其中第五类的关联企业的交易特征与目标企业的交易特征的相似度大于行为相似度阈值。
作为示例,如图所示,确定第一类的关联企业时,企业属性可以包括企业地址、电话、网址、邮箱、QQ号码、证照编号这样的二级属性。在其他企业的若干项二级属性中,若其中一项二级属性与目标企业的一项二级属性相同,则该其他企业可以认定为与目标企业具有相同的企业属性。
作为示例,企业名称包括企业的法人名称及商号等简称,一般可以通过外部数据获得。在确定第二类的关联企业时,可以首先对企业数据中的各企业的企业名称进行分词处理,以得到各企业的企业名称对应的多个词;然后对各企业的企业名称对应的多个词进行关键词提取,以得到各企业的企业名称的实体关键词;最后将所述各企业中与目标企业具有相同实体关键词的企业确定为所述第二类的关联企业。
在一个实施例中,对各企业的企业名称对应的多个词进行关键词提取时,可以首先确定多个词中的每个词的第一类实体词概率以及企业名称中每个词的下一词的第二类实体词概率,其中第一类实体词概率是基于每个词在各企业的企业名称的词频确定的,每个词的下一词的第二类实体词概率是当每个词作为下一词的前一词时每个词在企业名称中为实体词的概率,所述实体词在企业名称中具有最大的第一类实体词概率;然后,基于每个词的第一类实体词概率以及每个词的下一词的第二类实体词概率,确定每个词的总实体词概率;最后,确定企业名称的多个词中具有最大的总实体词概率的词作为实体关键词。在确定总实体词概率时,可以以每个词的第一类实体词概率和每个词的下一词的第二类实体词概率的乘积作为该词的总实体词概率。
具体地,在实施过程中,可以首先执行如下训练过程。以所有的企业名称作为训练集,对企业名称进行分词处理。统计每个词的出现词频,记为q,然后计算每个词的第一类实体词概率a=1/log(q),将该词按格式(词,a)存储成字典文件f1。对一个公司名称,取第一类实体词概率最大的词为实体词。这样就得到各个企业名称中的实体词,然后计算第二类实体词概率b=P(实体词|选定词),得到每个词的下一词的第二类实体词概率,将其按格式(词,b)存储成字典文件f2。
经过上述训练,可以获取到字典文件f1、字典文件f2。对各企业的企业名称对应的多个词进行关键词提取时,对于任一企业名称,首先进行企业名称的分词处理,然后计算每个词作为实体关键词的概率p=a(当前词)*b(下一词),其中a(当前词)指当前词在字典文件f1中的相应值,如果f1中没有相应值,则默认取值1/log(10);b(下一词)指当前词的下一词在字典文件f2中的相应值,如果f2中没有相应值,则默认取值0.5。最后按照概率值p将各个词进行排序,取概率值最大的词作为实体关键词。
以图5中所示的“游龙科技集团有限公司”为例,在分词处理结束后,“科技”、“集团”、“有限公司”因词频过高而不被认定为实体词,“游龙”词频较低,可以被认定为“游龙科技有限公司”的实体词。由于以“科技”为选定词,“游龙科技”为实体词的概率比较大,所以在“游龙科技有限公司”中,“游龙”的总实体词概率最大,可以作为该企业名称的实体关键词。
产品特征例如可以包括行业类型、产品名称、产品介绍。由于实践中,产品特征包含大量的文本内容,关联企业的产品特征不必然完全与目标企业的相同,因此,只要产品特征相似即可认定为关联企业。作为示例,在确定第三类的关联企业时,可以首先对企业数据中的各企业的产品特征进行向量化处理,以得到各企业的产品特征向量;然后基于各企业的产品特征向量和产品相似度阈值,对企业数据中的企业进行聚类,以得到至少一个类;最后将各企业中与目标企业处于在同一类中的企业确定为第三类的关联企业。产品相似度阈值可以根据需要预先设立。涉及产品特征的数据大多为文本数据,该方法在获取产品特征的业务特征数据后,首先需要进行向量化处理,例如使用Word2vec技术来处理,然后针对所生成的产品特征向量,可以使用k-means算法实现文本数据的语义聚类,从而实现对企业数据中的企业进行聚类。Word2vec,是用来产生词向量的相关模型,其将产品特征的业务特征数据向量化。。在语义聚类时,可以将每个企业的产品特征向量映射为所述关联企业在多维空间中的空间坐标,然后根据空间坐标计算所述每个企业间的空间距离,并按照空间距离对企业进行聚类,与目标企业分到同一类的,可以认定为目标企业的关联企业。
具体地,可以通过如下步骤实现语义聚类:步骤(1),根据预设的产品相似度阈值来确定希望聚类得到的类的数目T,T为正整数,T可以设置为企业总数/n,其中n=每个公司的平均产品数;步骤(2),从多个产品特征向量中随机选择T个产品特征向量作为质心;步骤(3),对每一个产品特征向量,计算其与每一个质心的空间距离,并将其划分到距其空间距离最近的那个质心所属的类中;步骤(4),把所有产品特征向量划分完后,得到T个类,然后重新计算每个类的质心(即,类中的产品特征向量的空间坐标的均值);步骤(5),如果新计算出来的质心和原来的质心之间的距离小于预设阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),可以认为聚类已经达到期望的结果,算法终止;否则,迭代步骤(3)~(5),直到新计算出来的质心和原来的质心之间的距离小于预设阈值。优选地,可以在进行语义聚类处理之前,对产品特征向量进行降维处理。
在确定第四类的关联企业时,工商关联控股关系包括企业的高层人员的结构,例如控股企业、母企业、董监高人员等。由于工商关联控股关系数据是从政府渠道获得,所以数据的内容是准确的。在诸多工商关联控股关系中,只要其他企业的架构中有一个主体(例如控股企业、母企业、董监高人员)与目标企业的架构中的主体重复,就可以认定为该其他企业为关联企业。
交易特征例如可以包括交易行为、交易代理商、交易服务商、交易供应商、交易时间段异常偏离。由于实践中,关联企业与目标企业可能存在分工合作的交易行为特点,所以关联企业的交易特征不必然完全与目标企业的相同,只要交易特征相似即可认定为关联企业。具体地,在确定第五类的关联企业时,可以通过比较交易行为、交易服务商、交易代理商、交易供应商、交易时间段异常偏离等的相似度是否大于交易特征相似度阈值来判断其他企业是否是关联企业,交易特征相似度阈值可以根据需要预先设立。
图6图示了根据本公开的一个实施例的标签提取的示意图。如前所述,目标企业的标签可以包括两部分:个体企业标签和全局企业标签。作为示例,个体企业标签的一级标签可以包括交易标签、行业标签、产品标签、属性标签,二级标签可以包括:交易标签下的大额交易占比、***交易占比、交易时间段异常偏离、支付方式等;产品标签下的敏感程度、访问量级等;属性标签下的地址违规占比、邮箱违规占比、电话违规占比等;行业标签下的文本内容。个体企业标签的提取依据是目标企业在多个维度的业务特征数据。针对不同维度下不同的业务特征数据可以采取不同的提取方法。例如,对于行业标签,可以首先将涉及行业类型的业务特征数据进行文本化处理,然后通过分词处理将其文本划分为多个分词,接着计算各个分词的信息熵来提取关键词,从而确定该业务特征数据中的行业类型,例如餐饮、在线图书。对于交易标签下大额交易占比,可以统计满足大额交易条件的交易行为占比,并将该百分比作为大额交易占比二级标签的内容。类似地,信号卡交易占比、交易时间段异常偏离、支付方式、地址违规占比等也可以使用上述统计学方法确定相应的百分比,从而作为相应二级标签的内容。值得注意的是,可以使用其他异常检测算法来提取标签。
对于全局企业标签的提取,首先基于企业数据,识别多个企业中的目标企业的关联企业,然后确定目标企业的关联企业中每两个关联企业间的关联分值,并以目标企业的关联企业为节点、目标企业的关联企业间的关联关系为边、每两个关联企业间的关联分值为两个关联企业间的边的权重,构建关联图。基于该关联图,使用社区划分算法(例如LPA、COPRA算法)对关联图进行划分,得到一个或多个企业集合。对识别出的具有最高紧密度的企业集合(即关联企业集合体中的关联企业的业务特征数据进行聚合,例如对各个关联企业的业务特征数据中业务特征对应的特征值进行加权求和,最后针对该经聚合的特征值提取全局企业标签。提取全局企业标签的方法与提取个体企业标签的方法类似,不再赘述。
图7图示了根据本公开的一个实施例的标签评分的示意图。该图描绘了确定个体评分和全局评分的过程。作为示例,可以根据参照图2的步骤203和步骤204已经提取出个体企业标签和全局企业标签。对于所提取的个体企业标签,其中包括行业类型、交易特征、产品特征、企业属性这四个一级标签。行业类型包括行业真实度二级标签,其分值为0.2,交易特征包括交易时间段异常偏离、交易行为、***交易占比等,分值分别为0.3、0.6、0.1,产品特征包括产品内容是否敏感、用户量级等,分值分别为0.6、0.9,企业属性包括邮箱的违规占比、地址的违规占比、电话的违规占比,分值分别为0.2、0.45、0.2。接下来使用融合公式Y=
Figure 344993DEST_PATH_IMAGE004
来计算个体评分。作为示例,预设各个一级标签的权重均为0.25,则
Figure 167456DEST_PATH_IMAGE006
所以该实施例中,目标企业的个体评分为-3。
全局评分与个体评分的原理是类似的,不再赘述。另外地,在确定全局评分中,还可以考虑具有风险意义的中间数据,例如,还可以考虑关联企业集合体的紧密度,从而更准确、全面地确定企业画像。
图8示出了根据本公开的一个实施例的确定企业画像的装置800的示例性结构框图。该装置800包括:关联企业识别模块801、关联企业集合体识别模块802、个体标签提取模块803、全局标签获取模块804、评分模块805和企业画像确定模块806。关联企业识别模块801被配置成基于企业数据,识别多个企业中的目标企业的关联企业,其中,所述企业数据包括所述多个企业中每个企业在多个维度的业务特征数据,并且所述关联企业包括所述多个企业中与所述目标企业在所述多个维度的业务特征数据中的关联度大于关联度阈值的企业。关联企业集合体识别模块802被配置成从所述关联企业中识别所述目标企业的具有最高紧密度的企业集合以作为关联企业集合体,其中所述紧密度取决于所述关联企业集合体中的关联企业间在所述多个维度的业务特征数据中的关联度。个体标签提取模块803被配置成基于所述目标企业的业务特征数据,提取目标企业的至少一个个体企业标签。全局标签获取模块804被配置成对所述关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取所述关联企业集合体的至少一个全局企业标签。评分模块805被配置成分别基于所述至少一个个体企业标签以及所述至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分。企业画像确定模块806被配置成确定所述目标企业的企业画像,所述企业画像包括所述目标企业的关联企业、个体企业标签、全局企业标签、个体评分、全局评分。
在本公开要求保护的确定企业画像的装置中,充分利用与目标企业存在直接或间接关系的企业的数据,显著提升了对企业数据这样的数据资源的利用率,从而以更加整体性的角度来确定目标企业的企业画像,使得企业画像更为准确和全面地反映企业的真实状况。此外,通过提取企业标签并且进而基于标签来确定企业评分的方式,进一步提高了数据的处理效率,使得企业画像的确定更加准确高效。
图9图示了示例***900,其包括代表可以实现本文描述的各种技术的一个或多个***和/或设备的示例计算设备910。计算设备910可以是例如服务提供商的服务器、与服务器相关联的设备、片上***、和/或任何其它合适的计算设备或计算***。上面参照图8描述的确定企业画像的装置800可以采取计算设备910的形式。替换地,确定企业画像的装置800可以以应用916的形式被实现为计算机程序。
如图示的示例计算设备910包括彼此通信耦合的处理***911、一个或多个计算机可读介质912以及一个或多个I/O接口913。尽管未示出,但是计算设备910还可以包括***总线或其他数据和命令传送***,其将各种组件彼此耦合。***总线可以包括不同总线结构的任何一个或组合,总线结构诸如存储器总线或存储器控制器、***总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理***911代表使用硬件执行一个或多个操作的功能。因此,处理***911被图示为包括可被配置成处理器、功能块等的硬件元件914。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置915可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口913代表允许用户使用各种输入设备向计算设备910输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置成检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备910可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备910还包括应用916。应用916可以例如是确定企业画像的装置800的软件实例,并且与计算设备910中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备910访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置成诸如经由网络将指令发送到计算设备910的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前,硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上***、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置成实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理***的计算机可读存储介质和/或硬件元件914,可以至少部分地以硬件来实现将模块实现为可由计算设备910作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备910和/或处理***911)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备910可以采用各种不同的配置。例如,计算设备910可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备910还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备910还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备910的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式***、诸如通过如下所述的平台922而在“云”920上全部或部分地实现。
云920包括和/或代表用于资源924的平台922。平台922抽象云920的硬件(例如,服务器)和软件资源的底层功能。资源924可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的应用和/或数据。资源924还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台922可以抽象资源和功能以将计算设备910与其他计算设备连接。平台922还可以用于抽象资源的分级以提供遇到的对于经由平台922实现的资源924的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个***900内。例如,功能可以部分地在计算设备910上以及通过抽象云920的功能的平台922来实现。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述各种可选实现方式中提供的确定企业画像的方法。
应当理解,为清楚起见,参考不同的功能单元对本申请的实施例进行了描述。然而,将明显的是,在不偏离本申请的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本申请可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
尽管已经结合一些实施例描述了本申请,但是其不旨在被限于在本文中所阐述的特定形式。相反,本申请的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。

Claims (15)

1.一种确定企业画像的方法,包括:
基于企业数据,识别多个企业中的目标企业的关联企业,其中,所述企业数据包括所述多个企业中每个企业在多个维度的业务特征数据,并且所述关联企业包括所述多个企业中与所述目标企业在所述多个维度的业务特征数据中的关联度大于关联度阈值的企业;
从所述关联企业中识别所述目标企业的具有最高紧密度的企业集合以作为关联企业集合体,其中所述紧密度取决于所述关联企业集合体中的关联企业间在所述多个维度的业务特征数据中的关联度;
基于所述目标企业的业务特征数据,提取目标企业的至少一个个体企业标签;
对所述关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取所述目标企业的至少一个全局企业标签;
分别基于所述至少一个个体企业标签以及所述至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分;
确定所述目标企业的企业画像,所述企业画像包括所述目标企业的关联企业、个体企业标签、全局企业标签、个体评分、全局评分。
2.根据权利要求1所述的方法,其中,从所述关联企业中识别目标企业的具有最高紧密度的企业集合以作为关联企业集合体,包括:
将所述关联企业进行社区划分以得到至少一个企业集合,每个企业集合包括所述关联企业中的至少一部分关联企业;
基于每个企业集合中的关联企业间在所述多个维度的业务特征数据中的关联度,确定所述每个企业集合的紧密度;
从所述至少一个企业集合中确定具有最高紧密度的企业集合以作为关联企业集合体。
3.根据权利要求2所述的方法,还包括通过如下方式确定每个企业集合中的关联企业间在所述多个维度的业务特征数据中的关联度:
确定所述企业集合中的每两个关联企业间的关联分值,所述关联分值取决于所述两个关联企业间具有关联关系的业务特征数据所在维度的数量;
基于所述关联分值,确定所述每两个关联企业间的关联度。
4.根据权利要求2所述的方法,还包括通过如下方式确定每个企业集合中的关联企业间在所述多个维度的业务特征数据中的关联度:
确定目标企业的关联企业中每两个关联企业间的关联分值,所述关联分值取决于所述两个关联企业间具有关联关系的业务特征数据所在维度的数量;
以目标企业的关联企业为节点、目标企业的关联企业间的关联关系为边、每两个关联企业间的关联分值为所述两个关联企业间的边的权重,构建关联图;
基于所述关联图,对关联图中的节点进行向量化处理,以得到每个节点的向量;
将所述每个企业集合中的关联企业对应的节点间的向量的相似度确定为所述每个企业集合中的关联企业在所述多个维度的业务特征数据中的关联度。
5.根据权利要求1所述的方法,其中,对所述关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取所述目标企业的至少一个全局企业标签,包括:
对所述关联企业集合体中的关联企业的业务特征数据中业务特征对应的特征值进行加权求和,以得到所述关联企业集合体的业务特征数据;
基于所述关联企业集合体的业务特征数据,获取目标企业的至少一个全局企业标签。
6.根据权利要求1所述的方法,其中,分别基于所述至少一个个体企业标签以及所述至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分,包括:
从所述至少一个个体企业标签中抽取至少一个具有风险意义的个体标签,并对所述至少一个具有风险意义的个体标签进行数值化处理,以得到所述至少一个具有风险意义的个体标签的风险风值;
融合所述至少一个具有风险意义的个体标签的风险风值,以得到目标企业的个体评分;
从所述至少一个全局企业标签中抽取至少一个具有风险意义的全局标签,并对所述至少一个具有风险意义的全局标签进行数值化处理,以得到所述至少一个具有风险意义的全局标签的风险风值;
融合所述至少一个具有风险意义的全局标签的风险风值,以得到目标企业的全局评分。
7.根据权利要求1所述的方法,其中,所述多个维度包括企业属性、企业名称、产品特征、工商控股关系和交易特征;以及
其中,基于企业数据,识别多个企业中的目标企业的关联企业,包括以下至少一项:
从企业数据中确定第一类的关联企业,其中第一类的关联企业与所述目标企业具有相同的企业属性;
从企业数据中确定第二类的关联企业,其中第二类的关联企业的企业名称与所述目标企业的企业名称具有相同实体关键词;
从企业数据中确定第三类的关联企业,其中第三类的关联企业的产品特征与所述目标企业的产品特征的相似度大于产品相似度阈值;
从企业数据中确定第四类的关联企业,其中第四类的关联企业与所述目标企业具有重复的工商控股关系;
从企业数据中确定第五类的关联企业,其中第五类的关联企业的交易特征与所述目标企业的交易特征的相似度大于行为相似度阈值。
8.根据权利要求7所述的方法,其中,从企业数据中确定第二类的关联企业,包括:
对企业数据中的各企业的企业名称进行分词处理,以得到各企业的企业名称对应的多个词;
对各企业的企业名称对应的多个词进行关键词提取,以得到各企业的企业名称的实体关键词;
将所述各企业中与目标企业具有相同实体关键词的企业确定为所述第二类的关联企业。
9.根据权利要求8所述的方法,其中所述对各企业的企业名称对应的多个词进行关键词提取,以得到各企业的企业名称的实体关键词,包括:
确定所述多个词中的每个词的第一类实体词概率以及所述企业名称中每个词的下一词的第二类实体词概率,其中所述第一类实体词概率是基于所述每个词在所述各企业的企业名称的词频确定的,所述每个词的下一词的第二类实体词概率是当所述每个词作为所述下一词的前一词时所述每个词在所述企业名称中为实体词的概率,所述实体词在所述企业名称中具有最大的第一类实体词概率;
基于所述每个词的第一类实体词概率以及所述每个词的下一词的第二类实体词概率,确定所述每个词的总实体词概率;
确定所述企业名称的多个词中具有最大的总实体词概率的词作为所述实体关键词。
10.根据权利要求7所述的方法,其中,从企业数据中确定第三类的关联企业,包括:
对企业数据中的各企业的产品特征进行向量化处理,以得到各企业的产品特征向量;
基于各企业的产品特征向量和产品相似度阈值,对企业数据中的企业进行聚类,以得到至少一个类;
将所述各企业中与目标企业处于在同一类中的企业确定为所述第三类的关联企业。
11.根据权利要求7所述的方法,其中所述产品特征包括行业类型、产品名称、产品介绍。
12.根据权利要求7所述的方法,其中所述交易特征包括交易行为、交易代理商、交易服务商、交易供应商、交易时间段异常偏离。
13.一种确定企业画像的装置,包括:
关联企业识别模块,被配置成基于企业数据,识别多个企业中的目标企业的关联企业,其中,所述企业数据包括所述多个企业中每个企业在多个维度的业务特征数据,并且所述关联企业包括所述多个企业中与所述目标企业在所述多个维度的业务特征数据中的关联度大于关联度阈值的企业;
关联企业集合体识别模块,被配置成从所述关联企业中识别所述目标企业的具有最高紧密度的企业集合以作为关联企业集合体,其中所述紧密度取决于所述关联企业集合体中的关联企业间在所述多个维度的业务特征数据中的关联度;
个体标签提取模块,被配置成基于所述目标企业的业务特征数据,提取目标企业的至少一个个体企业标签;
全局标签获取模块,被配置成对所述关联企业集合体中的关联企业的业务特征数据进行特征聚合,以获取所述目标企业的至少一个全局企业标签;
评分模块,被配置成分别基于所述至少一个个体企业标签以及所述至少一个全局企业标签,对应地确定目标企业的个体评分以及全局评分;
企业画像确定模块,被配置成确定所述目标企业的企业画像,所述企业画像包括所述目标企业的关联企业、个体企业标签、全局企业标签、个体评分、全局评分。
14.一种计算设备,包括存储器和处理器,所述存储器被配置成在其上存储计算机可执行指令,所述计算机可执行指令当在所述处理器上执行时执行权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其上存储计算机可执行指令,所述计算机可执行指令当在处理器上执行时执行权利要求1-12中任一项所述的方法。
CN202110436450.5A 2021-04-22 2021-04-22 确定企业画像的方法和装置、计算设备和存储介质 Pending CN113762703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436450.5A CN113762703A (zh) 2021-04-22 2021-04-22 确定企业画像的方法和装置、计算设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436450.5A CN113762703A (zh) 2021-04-22 2021-04-22 确定企业画像的方法和装置、计算设备和存储介质

Publications (1)

Publication Number Publication Date
CN113762703A true CN113762703A (zh) 2021-12-07

Family

ID=78786901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436450.5A Pending CN113762703A (zh) 2021-04-22 2021-04-22 确定企业画像的方法和装置、计算设备和存储介质

Country Status (1)

Country Link
CN (1) CN113762703A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776006A (zh) * 2023-08-24 2023-09-19 中资科技(江苏)有限公司 用于企业融资的客户画像构建方法及***
CN117710094A (zh) * 2024-01-10 2024-03-15 江苏金融租赁股份有限公司 用户信用画像生成方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776006A (zh) * 2023-08-24 2023-09-19 中资科技(江苏)有限公司 用于企业融资的客户画像构建方法及***
CN116776006B (zh) * 2023-08-24 2023-10-27 中资科技(江苏)有限公司 用于企业融资的客户画像构建方法及***
CN117710094A (zh) * 2024-01-10 2024-03-15 江苏金融租赁股份有限公司 用户信用画像生成方法及装置

Similar Documents

Publication Publication Date Title
EP3985578A1 (en) Method and system for automatically training machine learning model
US10019442B2 (en) Method and system for peer detection
Karim et al. Decision tree and naive bayes algorithm for classification and generation of actionable knowledge for direct marketing
Wang et al. An approach to cold-start link prediction: Establishing connections between non-topological and topological information
Jassim et al. Data mining preparation: process, techniques and major issues in data analysis
CN111143838B (zh) 数据库用户异常行为检测方法
Zhou et al. Resolution recommendation for event tickets in service management
CN112380344A (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
Panagiotakis et al. Unsupervised and supervised methods for the detection of hurriedly created profiles in recommender systems
CN113762703A (zh) 确定企业画像的方法和装置、计算设备和存储介质
Yang et al. Corporate relative valuation using heterogeneous multi-modal graph neural network
Wang et al. Link prediction in heterogeneous collaboration networks
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
Chuang et al. TPR: Text-aware preference ranking for recommender systems
Kothamasu et al. Sentiment analysis on twitter data based on spider monkey optimization and deep learning for future prediction of the brands
Liu E‐Commerce Precision Marketing Model Based on Convolutional Neural Network
Feroze et al. Group anomaly detection: past notions, present insights, and future prospects
CN116186298A (zh) 信息检索方法和装置
Ben Khalifa et al. Evidential group spammers detection
Johnpaul et al. General representational automata using deep neural networks
Zhao et al. Detecting fake reviews via dynamic multimode network
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及***
Ye et al. An interpretable mechanism for personalized recommendation based on cross feature
Boongoen et al. Fuzzy qualitative link analysis for academic performance evaluation
Han et al. UFTR: A unified framework for ticket routing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination