CN110110218B - 一种身份关联方法及终端 - Google Patents

一种身份关联方法及终端 Download PDF

Info

Publication number
CN110110218B
CN110110218B CN201810105358.9A CN201810105358A CN110110218B CN 110110218 B CN110110218 B CN 110110218B CN 201810105358 A CN201810105358 A CN 201810105358A CN 110110218 B CN110110218 B CN 110110218B
Authority
CN
China
Prior art keywords
data
similarity
real object
virtual object
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810105358.9A
Other languages
English (en)
Other versions
CN110110218A (zh
Inventor
陈龙
李葱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Changshengbao Digital Technology Development Co.,Ltd.
Original Assignee
Xi'an Huaqi Zhongxin Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Huaqi Zhongxin Technology Development Co ltd filed Critical Xi'an Huaqi Zhongxin Technology Development Co ltd
Priority to CN201810105358.9A priority Critical patent/CN110110218B/zh
Publication of CN110110218A publication Critical patent/CN110110218A/zh
Application granted granted Critical
Publication of CN110110218B publication Critical patent/CN110110218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种身份关联方法和终端,其中方法包括,获取第一真实对象的身份数据,找到第一真实对象在社交网络中对应的第一虚拟对象,以第一虚拟对象的身份数据为搜索信息确定第二虚拟对象,找到第二虚拟对象对应的第二真实对象,并检测第一真实对象和第二真实对象的相似度,进而确定第一真实对象和第二真实对象的关系。本发明实施例还公开了一种身份数据相似度计算方法,具体包括获取真实对象和虚拟对象的身份数据,构建身份数据模型,计算身份数据相似度,进而判断真实对象与虚拟对象之间,不同虚拟对象之间,不同真实对象之间的身份关联性。通过实施上述方法,可以自动地计算对象之间的身份数据相似度并判断对象之间的身份关联性。

Description

一种身份关联方法及终端
技术领域
本发明涉及计算机领域,尤其涉及一种身份关联方法及终端。
背景技术
随着计算机技术和网络技术的发展,社交网络已经融入了人们的日常生活,几乎每个人在社交网络中都有自己的虚拟身份,人们通过社交网络上的虚拟身份进行沟通,极大的方便了人们日常的交流,在社交网络上也会留下大量的可以在一定程度上表明用户身份的身份数据。
目前在对某些违法违纪的嫌疑人进行追踪时,除了通过办案人员实地考察追踪以外,还可以借助社交网络等网络上的虚拟身份数据,来查找识别嫌疑人。在网络上查找嫌疑人的过程中,主要是通过人工查找虚拟身份数据并进行分析,现有的查找确定方式费时费力,效率低下。
发明内容
本发明实施例提供了一种身份关联方法和终端,可以自动地计算对象之间的身份数据相似度并判断对象之间的身份关联性。
为了解决上述技术问题,本发明实施例第一方面公开了一种身份关联方法,所述方法包括:
获取第一真实对象的身份数据;
以所述第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的身份数据,并根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象;
以所述第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚拟对象。
本发明实施例第二方面公开了一种终端,所述终端包括:
获取模块,用于获取第一真实对象的身份数据;
搜索模块,用于以所述第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的身份数据,并根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象;
所述搜索模块,还用于以所述第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚拟对象。
本发明实施例第三方面公开了一种终端,所述终端包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述身份关联的方法。
本发明实施例第四方面公开了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述身份关联的方法。
本发明实施例中,终端获取第一真实对象的身份数据,终端以第一真实对象的身份数据为搜索信息搜索得到虚拟对象的身份数据,并根据搜索得到的虚拟对象的身份数据确定第一虚拟对象;终端以第一虚拟对象的身份数据为搜索信息得到关联虚拟对象的身份数据,并确定第二虚拟对象;终端以第二虚拟对象的身份数据为搜索信息得到关联真实对象的身份数据,并确定第二真实对象;终端检测第一真实对象与第二真实对象的身份数据相似度;根据身份数据相似度大小确定第一真实对象与第二真实对象的关系。通过实施上述方法,可以找出真实对象在社交网络中对应的虚拟对象,以及与真实对象具有亲密关系的其他真实对象。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种身份关联方法的流程示意图;
图2为本发明实施例提供的另一种身份关联方法的流程示意图;
图3为本发明实施例提供的一种身份数据相似度检测方法的流程示意图;
图4为本发明实施例提供的一种终端的结构示意图;
图5为本发明实施例提供的另一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,为本发明实施例提供的一种身份关联方法的流程示意图,该方法可包括:
S101、终端获取第一真实对象的身份数据。
本发明实施例中,该身份数据包括背景数据、兴趣数据和社交数据,其中,背景数据为记录对象的身份背景的数据;兴趣数据为记录对象的兴趣爱好的数据;社交数据为记录对象的人际关系的数据。背景数据可以为对象的姓名、性别、地址、出生日期、身份证号、电话号、教育/工作经历等,兴趣数据可以为对象喜爱的体育、军事、动漫、明星、宠物、美食等,社交数据可以为对象的情侣/配偶、父母/子女、兄弟、朋友等。对象可以为现实中一个实际的人物,也可以是社交网络上的一个虚拟身份,如各类应用软件的账号等,第一真实对象可以为现实中一个实际的人物。
S102、终端以第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的身份数据。
本发明实施例中,终端获取到该第一真实对象的身份数据之后,会以第一真实对象的身份数据作为搜索信息在社交网络上搜索得到虚拟对象的身份数据。搜索得到的虚拟对象与该第一真实对象有一定的共同点。
例如,该共同点为相同的名字,该第一真实对象的名字为小明,则可以在社交网络上寻找用户名为小明的虚拟对象,或者好友中包含小明的虚拟对象;或者,该共同点为相同的爱好,该第一真实对象的爱好为足球,则可以在社交网络上寻找兴趣爱好为足球的虚拟对象,或者,该共同点为出生地址、所在学校、工作单位等,共同点可以是一个,也可以是多个,对于具体的共同点,本发明实施例不做限定。
S103、终端根据搜索得到的虚拟对象的身份数据确定第一虚拟对象。
本发明实施例中,终端以第一真实对象的身份数据为搜索信息搜索得到虚拟对象的身份数据之后,可以计算第一真实对象与虚拟对象之间的身份数据相似度,并确定该第一真实对象在社交网络上对应的第一虚拟对象。
可选的,该第一虚拟对象为与该第一真实对象身份数据相似度最高的虚拟对象,为了减少计算第一真实对象与虚拟对象的相似度时的运算量,本发明实施例首先计算社交网络上的多个虚拟对象的背景数据与第一真实对象的背景数据相似度,将各个虚拟对象按背景数据相似度从高到低的顺序降序排列。
可选的,在计算背景数据相似度时,具体计算的数据可包括背景数据中的字符串数据和数字数据,其中,字符串数据包括对象的姓名和地址,数字数据包括对象的生日和性别。第一真实对象和虚拟对象的背景数据相似度的计算过程可参见步骤S303。
可选的,在计算第一真实对象和虚拟对象的背景数据相似度之后,将该多个虚拟对象按背景数据相似度从高到低的顺序降序排列;然后从中提取出排名前n位的虚拟对象,并计算排序为前n位的虚拟对象与所述第一真实对象的兴趣数据和社交数据相似度。其中,n为大于等于1的整数,其具体可由研发人员设定,本发明实施例不做限定。
可选的,在计算第一真实对象与虚拟对象的兴趣数据相似度时,根据预设的关键词与权重的对应关系确定第一真实对象的兴趣数据中的兴趣关键词对应的第一权重;获取虚拟对象在社交网路上发布的文本数据;检测兴趣关键词在文本数据中出现的频率;根据预设的频率与权重的对应关系确定虚拟对象的兴趣关键词对应的第二权重。将兴趣数据采用空间向量模型表示为兴趣向量,其第k个向量的值为第k个关键词对应的权重,计算第一真实对象的兴趣向量与虚拟对象的兴趣向量的余弦值,将得到的余弦值作为所述第一真实对象和所述虚拟对象的兴趣数据相似度,其中,k为大于等于1的整数。可选的,第一真实对象和虚拟对象的兴趣数据相似度的计算过程可参见步骤S304。
可选的,在计算第一真实对象与虚拟对象的社交数据相似度时,获取与第一真实对象有关联的第三真实对象集合和与虚拟对象有关联的第三虚拟对象集合;检测第三真实对象集合与第三虚拟对象集合的交集的人数,将交集的人数与所述第三虚拟对象集合中的人数的比值作为虚拟对象与第一真实对象的社交数据相似度。其中,第三真实对象集合包括第一真实对象的亲人、朋友、同事等;第三虚拟对象集合包括第一虚拟对象在社交网络中的好友。例如,第三真实对象集合中包括真实对象A、真实对象B和真实对象C,第三虚拟对象集合中包括真实对象A创建的虚拟身份A、真实对象B创建的虚拟身份B和真实对象D创建的虚拟身份D,则第三真实对象集合与第三虚拟对象集合的交集的人数为2个,第三虚拟对象集合中人数为3个,则第一真实对象与虚拟对象的社交数据相似度为2/3,可选的,第一真实对象与虚拟对象的社交数据相似度计算过程可参见步骤S305。
在获取到第一真实对象和虚拟对象的背景数据相似度,兴趣数据相似度和社交数据相似度之后,将排序为前n位的虚拟对象与第一真实对象的背景数据相似度、兴趣数据相似度和社交数据相似度进行加权汇总,得到排序为前n位的虚拟对象与第一真实对象的身份数据相似度;将排序为前n位的虚拟对象按身份数据相似度从高到低的顺序降序排列,并将排序为第一位的虚拟对象确定为第一虚拟对象(即该第一真实对象在社交网络上的虚拟身份)。可选的,也可以再次提取排名前m位的虚拟对象,m为小于等于n的正整数,再对该前m位的虚拟对象进行其他数据分析对比,找到该第一真实对象对应的第一虚拟对象,其他数据可以是对象的字符串风格、情感倾向、定位数据、设备持有情况、文化水平和计算机操作能力等。
S104、终端以第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数据,并根据关联虚拟对象的身份数据确定第二虚拟对象。
本发明实施例中,终端确定第一真实对象在社交网络上的虚拟身份(即第一虚拟对象)之后,分析第一虚拟对象的身份数据,以第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数据,并根据关联虚拟对象的身份数据确定第二虚拟对象,可选的,第二虚拟对象为与该第一虚拟对象相似度最高的虚拟对象。其中,第二虚拟对象与第一虚拟对象的相似度计算方法也是通过计算虚拟对象之间的背景数据相似度、兴趣数据相似度和社交数据相似度得到,其具体过程与S103类似,本发明实施例不在赘述。
S105、终端以第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据,并根据关联真实对象的身份数据确定第二真实对象。
本发明实施例中,终端在社交网络上找到第二虚拟对象的身份数据之后,终端以第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据,并根据关联真实对象的身份数据确定第二真实对象,可选的,第二真实对象为与该第二虚拟对象相似度最高的虚拟对象,或者,第二真实对象为与第二虚拟对象相似度大于预设阈值的真实对象,其相似度计算的具体过程与S103类似,本发明实施例不在赘述。
S106、终端检测第一真实对象与第二真实对象的身份数据相似度;
本发明实施例中,终端确定第一真实对象和第二真实对象之后,可以继续计算第一真实对象和第二真实对象之间的相似度。其相似度计算的具体过程与S103类似,本发明实施例不在赘述。
S107、终端根据身份数据相似度,确定第一真实对象与第二真实对象的关系。
本发明实施例中,若第一真实对象与第二真实对象的相似度大于第一预设阈值,则确定第一真实对象与第二真实对象为同一个人;其中第一预设阈值可以为95%、99%等,具体可由研发人员具体设定,本发明实施例不做限定。
若第一真实对象与第二真实对象的相似度介于第一预设阈值和第二预设阈值之间,则确定所述第二真实对象与所述第一真实对象为亲密关系;其中,亲密关系可以是父母、兄弟等。若第一真实对象为犯罪嫌疑人,则该第一真实对象的亲密关系也可以为共犯等。其中,第一预设阈值大于第二预设阈值,第二预设阈值可以为75%、80%等,本发明实施例不做限定。
当第一真实对象与第二真实对象的相似度大小小于第二预设阈值时,则可以将第一真实对象与第二真实对象的关系设置为待定关系,并通过其他数据(如对象的字符串风格、情感倾向、定位数据等)综合考量第一真实对象与第二真实对象的关系。
需要说明的是,本发明实施例只是举例,在其他可能的情况中,终端可以直接获取社交网络中第一虚拟对象的身份数据,然后通过图3所示的相似度计算方法找到该第一虚拟对象对应的第一真实对象,进一步的,终端获取到第一真实对象之后,可以找到与该第一真实对象有关联的第二真实对象。并通过图3所示的相似度计算方法找到该第二真实对象对应的第二虚拟对象。并判断第一虚拟对象和第二虚拟对象在社交网络中的关系。
举例说明,将第一真实对象表示为A,第一虚拟对象表示为A’,第二虚拟对象表示为B’,第二真实对象表示为A。可选的,终端获取A的身份数据,分析找出相似度最高的A’。可选的,终端获取A’的身份数据,在社交网络中分析找出相似度最高的B’。可选的,终端获取B’的身份数据,分析找出与其相似度最高的B。可选的,终端检测A和B之间的相似度,判断A和B之间的关系。
在一种可能实现的方式中,终端获取A的身份数据,分析找出相似度最高的A’,并分析A’的身份数据,找出相似度最高的B’。
在一种可能实现的方式中,终端获取A的身份数据,分析找出相似度最高的A’,并分析A’的身份数据,找出相似度最高的B’之后,分析B’的身份数据,找出相似度最高的B。
在一种可能实现的方式中,终端获取A的身份数据,分析找出相似度最高的A’,并分析A’的身份数据,找出相似度最高的B’,分析B’的身份数据,找出相似度最高的B之后,检测A和B的相似度,并根据相似度的大小判定A和B之间的关系。可选的,若A和B的相似度大于第一预设阈值,则确定A和B为同一个人;若A和B的相似度介于第一预设阈值和第二预设阈值之间,则确定A和B为亲密关系;可选的,若A和B的相似度小于第二预设阈值,则交由人工判断A和B之间的关系;其中,所述第一预设阈值大于所述第二预设阈值。
在一种可能的实现方式中,终端获取A’的身份数据,分析A’的身份数据,找出相似度最高的B’,分析B’的身份数据,找出相似度最高的B。
在一种可能的实现方式中,终端获取A’的身份数据,分析A’的身份数据,找出相似度最高的B’,分析B’的身份数据,找出相似度最高的B之后,获取A’对应的A的身份信息,检测A和B的相似度,并根据相似度的大小判定A和B之间的关系。
在一种可能实现的方式中,终端获取B’的身份数据,分析B’的身份数据,找出相似度最高的B之后,获取A的身份数据,检测A和B的相似度,并根据相似度的大小判定A和B之间的关系。
本发明实施例中,在已知第一真实对象身份信息的情况下,在社交网络上通过相似度检测算法分析找出与第一真实对象相似度最高的第一虚拟对象,在取证过程中,可以直接通过控制犯罪嫌疑人(即第一真实对象)的设备来获取到第一真实对象在社交网络上的虚拟身份(即第一虚拟对象),对第一虚拟对象的身份数据进行分析,找出与第一虚拟对象相似度最高的第二虚拟对象,在取证过程中,有可能推断出第二虚拟对象是第一虚拟对象的共犯,或者第二虚拟对象和第一虚拟对象对应同一个真实对象。然后对第二虚拟对象的身份数据进行分析,找出与第二虚拟对象相似度最高的第二真实对象,则第二真实对象可能与第一真实对象为同一个人,或者第二真实对象与第一真实对象为亲密关系,在取证过程中,若已经获得了目标嫌疑人的虚拟身份信息,和若干嫌疑人,则可以通过分析判断出谁是真正的嫌疑人。本发明实施例可以运用于以下两种场景,如已知目标嫌疑人的真实身份信息,从大量虚拟身份数据中,找到目标嫌疑人的虚拟身份,或者,已经控制目标嫌疑人,从其设备获取到其虚拟身份信息,从而找出该目标嫌疑人再社交网络中可能存在的其他虚拟身份和现实中的共犯。
请参见图2,为本发明实施例提供的另一种身份关联方法的流程示意图,该方法可包括:
S201、终端获取真实对象和虚拟对象的身份数据。
本发明实施例中,真实对象和虚拟对象的身份数据包括背景数据、兴趣数据和社交数据。
可选的,终端以显式的方式与对象进行交互获取对象的身份数据,例如,终端首先提出一些关于身份数据的初始问题,根据对象的回答确定对象的身份数据。可选的,根据对象答案的不同,终端提供给对象的问题也不同,例如,当问到对象的年龄时,根据对象输入的结果确定对象年龄对应的问题组,以更为准确的针对不同人群获取更精细的身份数据。
可选的,终端以隐式方式获取对象的身份数据,具体的,终端在社交网络上跟踪、分析、挖掘一些对象的身份数据。具体的,通过对象的网络使用数据进行挖掘。或者,根据对象点击流数据进行分析、挖掘,对于点击流数据的分析,将对象、查询及点击的网页作为一组数据来考虑,并对该组数据进行潜在语义分析和概率潜在语义分析。或者,通过对对象查询历史或浏览历史进行分析处理,通过反馈建立对象兴趣评价,获取用户的身份数据。
S202、终端根据身份数据的类别与相似度检测算法的对应关系,从预设的多种相似度检测算法中筛选出与所述真实对象和虚拟对象的身份数据相对应的目标相似度检测算法。
本发明实施例中,身份数据的类别包括背景数据、兴趣数据和社交数据,终端根据预设的相似度检测算法计算真实对象和虚拟对象的身份数据相似度,其中,身份数据中的背景数据对应第一相似度检测算法,兴趣数据对应第二相似度检测算法,社交数据对应第三相似度检测算法。
S203、终端根据目标相似度检测算法检测真实对象和虚拟对象的相似度。
本发明实施例中,终端根据第一相似度检测算法检测真实对象和虚拟对象的背景数据的相似度,并得到第一相似值;具体的,分别提取所述真实对象和所述虚拟对象的背景数据中的字符串数据和数字数据;根据预设的字符串数据相似度检测算法检测字符串数据的相似度,得到字符串相似度值;根据预设的数字数据相似度检测算法检测数字数据的相似度,得到数字相似度值,对计算得到的字符串数据相似度值和数字数据相似度值进行汇总得到背景数据相似度对应的第一相似值。其详细步骤可参见步骤S303。
终端根据第二相似度检测算法检测真实对象和虚拟对象的兴趣数据的相似度,并得到第二相似值。具体的,终端提取兴趣数据中的关键词;记录所述关键词出现的次数,并根据次数与权值的对应关系得到所述关键字对应的权值;根据所述权值对所述兴趣数据进行向量表示,计算兴趣数据的向量积,得到真实对象和虚拟对象的兴趣数据相似度对应的第二相似值。其详细步骤可参见步骤S304。
终端根据第三相似度检测算法检测真实对象和虚拟对象的兴趣数据相似度,并得到第三相似值。具体的,终端找到真实对象的社交关系圈和虚拟对象的社交关系圈,检测两者社交关系圈中相同对象的个数,并将相同人数与总数的比值作为第三相似值,以此得到真实对象和虚拟对象的社交数据相似度。其详细步骤可参见步骤S305。
最终汇总真实对象和虚拟对象的背景数据相似度、兴趣数据相似度和社交数据相似度即可得到真实对象和虚拟对象的身份数据相似度,详细步骤可参见步骤S306。
本发明实施例中,终端获取真实对象和虚拟对象的身份数据,身份数据包括背景数据、兴趣数据和社交数据,终端根据身份数据的类别与相似度检测算法的对应关系,从预设的多种相似度检测算法中筛选出与真实对象和虚拟对象的身份数据相对应的目标相似度检测算法,终端根据目标相似度检测算法检测真实对象和虚拟对象的相似度。通过本发明实施例,可以判断真实对象与虚拟对象的相似度,进而找到真实对象在社交网络上的虚拟身份,或者,通过获取社交网络上的虚拟身份,找到该虚拟身份对应的真实对象。
请参见图3,为本发明实施例提供的一种身份数据相似度检测方法的流程示意图,该方法可包括:
S301、终端获取真实对象和虚拟对象的身份数据。
本发明实施例中,真实对象和虚拟对象的身份数据包括背景数据、兴趣数据和社交数据。
S302、终端根据获取到的身份数据构建身份数据模型。
本发明实施例中,终端获取到真实对象和虚拟对象的身份数据之后,会根据获取到的身份数据构建身份数据模型。
具体的,给定一个真实对象u,其身份数据包括3种属性数据(背景数据,兴趣数据和社交数据),身份数据Profile(u)的具体表达式为:
Profile(u)={Background(u),Interest(u),Relative(u)}
其中,Background(u)表示真实对象u的背景数据,Interest(u)表示u的兴趣数据,Relative(u)表示u的社交数据。
给定一个虚拟对象v,其身份数据也包括3种属性数据(背景数据,兴趣数据和社交数据),身份数据Profile(v)的具体表达式为:
Profile(v)={Node(v),Tweet(u),Relation(v)}
其中,Node(v)表示虚拟对象v的背景数据,Tweet(v)表示v的兴趣数据,Relation(v)表示v的社交数据。
S303、终端根据第一相似度检测算法检测真实对象和虚拟对象的背景数据的相似度,并得到第一相似值。
本发明实施例中,终端构建了真实对象u和虚拟对象v的身份数据模型之后,可以进一步构建u和v的背景数据模型,并根据第一相似度检测算法检测真实对象u和虚拟对象v的背景数据的相似度,得到第一相似值。
具体的,终端构建真实对象u的背景数据模型Backrgound(u)。
Background(u)={String(u),Number(u)}
其中,本发明实施例将背景数据中的字符串和数字分开表示,String(u)表示真实对象u的背景数据中的字符串集合,由背景数据中的字符串组成,Number(u)表示u的背景数据中的数字集合,由背景数据中的数字组成。
具体的,String(u)可以具体表示为:
String(u)={Name(u),Place(u),Describe(u)}
其中,Name(u)表示对象u的名称数据,包括现用名、曾用名、英文名、学校名称和公司名称等。Place(u)表示对象u的地址数据,包括生源地、工作地、旅游地等,Describe(u)表示对对象u的描述数据,包括星座、生肖、教育经历、工作经历等。
具体的,Number(u)可以具体表示为:
Number(u)={Date(u),Figure(u)}
其中,Date(u)表示对象u的日期数据,包括生日、纪念日、节日等,Figure(u)表示与对象u有关的数字数据,包括车牌号、门牌号、幸运数字、手机号和身份证号等。
终端构建虚拟对象v的背景数据模型Node(v)。
Node(v)={String(v),Number(v)}
其中,String(v)表示虚拟对象v的背景数据中的字符串集合,由v的背景数据中的字符串组成,Number(v)表示v的背景数据中的数字集合,由v的背景数据中的数字组成。
具体的,String(v)可以具体表示为:
String(v)={UName(v),Address(v),Tag(v)}
其中,UName(v)表示虚拟对象v的用户名数据。Address(v)表示虚拟对象v的注册时填写的地址数据,Tag(v)表示对虚拟对象v的标签数据,如星座、生肖等。
Number(v)可以具体表示为:
Number(v)={Birth(v),Sex(v),Other(v)}
其中:Birth(v)表示虚拟对象v注册时填写的生日;Sex(v)中,男性Male用1表示,女性Female用0表示。Other(v)用于存储用户名中包含的数字和用户发布文本中出现的日期或数字。
终端创建真实对象u和虚拟对象v的背景数据模型之后,则会根据第一相似度检测算法计算真实对象u和虚拟对象v的背景数据相似度,得到第一相似值。
具体的,采用第一相似度检测算法计算真实对象u和虚拟对象v的背景数据相似度Sim1(Background(u),Node(v)),具体计算公式为:
Sim1(Background(u),Node(v))
=ω1Sim11(string(u),String(v))
2Sim12(Number(v),Number(v))
对于String(u)和String(v),相似度可以根据他们的姓名相似度、地址相似度、个人描述相似度来度量。其中,姓名相似度和地址相似度更能揭示(u,v)之间潜在的身份相似性,而身份的描述数据在真实对象对自己的个人描述和虚拟对象对自己选择的标签中,可能会存在描述范围太广而只有极少部分的重叠,甚至是严重的数据缺失等情况。因此本发明实施例在对字符串相似性进行度量的时候,只考虑姓名相似度和地址相似度。
具体的,String(u)和String(v)的相似度计算公式为:
Sim11(string(u),String(v))
=ω11Sim111(Name(u),UName(v))
12Sim112(Place(v),Address(v))
其中,ωi为各个属性相似度的权值,ω12=1,ω1112=1,对于ωi的具体数值,本发明实施例不做限定。
对于真实对象u和虚拟对象v的姓名相似度Sim111(Name(u),UName(v))的计算之前,将字符串数据中的汉字转化为拼音,二是对用户名字符串进行处理,只保留字母,如果原用户名中含有数字,则将数字另存)乙Number(v)数据集中的Other(v)集中。
真实对象u和虚拟对象v的姓名相似度Sim111(Name(u),UName(v))的具体计算算法如下:
输入:两个名字字符串Name(u)和UName(v)记做Nu和Nv
输出:Nu和Nv的相似度
1.cn←0//cn为对比次数
2.while(Nu和Nv中存在相同字符)DO
3.lcsi←Nu和Nv中最长公共子字符串长度
4.cn++
5.删除检测到的Nu和Nv中的最长公共字符串
6.end while
7.if(cn==0)//当不存在相同字符时进行参数调整
8.cn←1
9.end if
10.return
其中,|Nu|和|Nv|为最终删除所有最长公共子字符串后字符串Nu和Nv的长度。
举例说明,若Nu为abcde,Nv为abcdf,则|Nu|=1,|Nv|=1,cn=1,则求出最终的Sim111=0.67,若Nu为abcd,Nv为abcd,|Nu|=0,|Nv|=0,/>cn=1,求出最终的Sim111=1。
对于真实对象u和虚拟对象v的地址相似度Sim112(Place(v),Address(v)),首先采用国家-省份-地市三段数据结构来表示,通过分层比较计算转换次数的方式来计算其相似度,Sim112(Place(v),Address(v))的具体计算公式为:
其中,ωai表示地理位置的权值,所有ωai相加之和为1,对于ωai的具体数值,本发明实施例不做限定。T(Place(u),Address(v))表示两个地理位置属性的转换次数,即分别比较真实对象u和虚拟对象v的地址中的国家、省份和地市是否相同,如果不同,则转换次数加1。若国家、省份和地市都相同,则转换次数为0,若国家、省份和地市都不同,则转换次数为3。
例如,终端获取到真实对象u和虚拟对象v之间需要对比的地址有3个,分别为当前所在地,户籍地,工作地址。则可以为当前所在地分配权值ωa1=0.5,户籍地权值ωa2=0.3,工作地址ωa3=0.2。且三个地址的国家和省份都相同,地市都不同,即T(Place(u),Address(v))=1,则Sim112(Place(v),Address(v))最终的计算结果为0.67。
对于真实对象u和虚拟对象v之间的数字数据Number(v)和Number(v),相似度可以根据他们的生日相似度和性别相似度来度量。
Sim12(Number(v),Number(v))
=ω21Sim121(Birth(u),Birth(v))+ω22Sim122(Sex(u),Sex(v))
其中,ω2122=1,Birth(u)和Birth(v)分别表示u和v的生日数据,Sex(v)和Sex(v)分别表示u和v的性别数据。
对于对象的生日数据,按年-月-日(YYYY-MM-DD)的格式记录8位数字,如1995-05-26表示对象的生日是1995年5月26日。对于生日的相似度计算,本发明实施例将分为两步计算,第一步完成对年份的相似度计算,第二步完成对月和日的相似度计算。
Sim121(Birth(u),Birth(v))
=ω23Sim123(Y(u),Y(v))+ω24Sim124(MD(u),MD(v))
第一步:因为不同年龄层的对象往往拥有不同的阅历和关注点,本发明实施例通过生日中的年份直接得出年龄。一般而言,年龄差越小,用户的相似度越高,但仅用年龄差不能准确描述年龄相似度,年龄差对年龄值的比也是重要的计算因素,则关于年份的相似度计算公式:
其中:m表示当年年份,如2018,Y(u)表示真实对象u的生日的年份,Y(v)表示虚拟用户v的生日的年份,MAX((m-Y(u)),(m-Y(v)))表示u和v之中年龄较大的年龄值。
对于月和日的部分(4位),本发明实施例采用编辑距离方法来计算相似度,编辑距离用于评价两个字符串间的相似度。编辑距离反映了两个字符串的绝对差异,而相似度以一个[0,1]之间的数值反应两个字符串的相似程度,数值越大表示相似程度越高。生日中月日的相似度的计算公式:
其中:MD(u)表示真实对象的生日的月日部分,MD(v)表示虚拟用户的生日的月日部分,T(MD(u),MD(v))表示转换次数。
基于生日的月日部分的相似度Sim124(MD(u),MD(v))的计算,本发明实施例提出的算法如下:
输入:两个生日月日部分的数字MD(u)和MD(v)记做Mu,Mv
输出:相似度;
1.定义
m=Mu的长度=4,n=Mv的长度=4,
d[m+1][n+1]//矩阵
temp//记录相同字符,在某个矩阵位置值的增量,非0即1;
整型变量i,j;字符型变量ch1,ch2;
2.d[i][0]=i d[0][j]=j//初始化第一行和第一列;
3.遍历Mu去匹配Mv
if(ch1==ch2) temp=0;
else temp=1;//ch1记录Mu的字符,ch2记录Mv的字符;
4.d[i][j]=min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+temp)
//矩阵上边+1,左边+1,左上+temp取最小;
5.T=d[m][n]//d[m][n]即为Mu转换为Mv需要编辑的次数;
6.return
对于对象的性别数据,当真实对象u和虚拟用户v的性别相同时,在性别这一维度的相似度为1,反之相似度为0(本发明实施例不考虑将虚拟用户的性别故意设置为与本人真实性别相反的情况)。性别相似度的计算公式为:
根据上述算法计算出背景数据中的各个子相似度值之后,将计算出的各个子相似度值带入背景数据相似度计算公式Sim1(Background(u),Node(v))中即可计算真实对象u与虚拟对象v的背景数据相似度,得到第一相似值S1
S304、终端根据第二相似度检测算法检测真实对象和虚拟对象的兴趣数据的相似度,并得到第二相似值。
本发明实施例中,终端构建了真实对象u和虚拟对象v的身份数据模型之后,可以进一步构建u和v的兴趣数据模型,并根据第二相似度检测算法检测真实对象u和虚拟对象v的兴趣数据的相似度,得到第二相似值。
具体的,终端构建真实对象u的兴趣数据模型Interest(u),本发明实施例在记录真实对象的兴趣数据时,获取到的兴趣数据的文档中可能包含是字、词、句、章等,因此采用空间向量模型VSM的表示法,将兴趣数据Interest(u)表示为:
Interest(u)=(ωu1u2,…ωun)
其中,i可以对应记录的对象感兴趣的特征词,ωui为i对应的特征词的权重。
其中,tfi(Interest(u))表示i对应的特征词在文档中的频率,log(N/ni+0.01)表示为i对应的特征词的逆文档频率。N表示全部训练集的文本数,ni表示训练文本中出现i对应的特征词的文本频数。
终端构建虚拟对象v的兴趣数据模型Tweet(v),具体的,Tweet(v)表示虚拟对象v在社交网络中发布的各个文本数据组成的长文本(其文本内容可能包含兴趣词、情感词、事件时间词、数字等)。本发明实施例将其表示为一个文本向量。过程如下:
第一步:文本预处理:对Tweet(v)进行过滤噪音数据、分词、词性标注、去除停用词等处理;
第二步:数字处理:把文本中出现的日期和数字存入Other(v)中;
第三步:特征提取:采用数据增益的特征选择算法提取Tweet(v)的特征词,对文本进行降维处理;
第四步:权重计算:Tweet(v)中的每个特征词tvi的权重ωvi
其中,tfi(Tweet(v))表示i对应的特征词在文档中的频率,log(N/ni+0.01)表示为i对应的特征词的逆文档频率。N表示全部训练集的文本数,ni表示训练文本中出现i对应的特征词的文本频数,取对数是为了平衡,避免N/ni值过大而占据主要作用,0.01的作用是为了避免当N=ni时对数为0。
第五步:向量表示:Tweet(v)=(ωv1v2,…ωvn),其中ωvi为虚拟对象v在社交网络中发布的各个文本数据中某个i对应的特征词的权重。
终端构建真实对象u和虚拟对象v的兴趣数据模型之后,将根据第二相似度检测算法检测真实对象和虚拟对象的兴趣数据的相似度,得到第二相似值。
具体的,对于真实对象u的兴趣文本可以表示为文本特征向量:
Interest(u)=(ωu1u2,…ωun)
对于虚拟用户v的兴趣文本可表示为文本特征向量:
Tweet(v)=(ωv1v2,…ωvn)
则真实对象u和虚拟对象v之间的兴趣数据相似度对应的第二相似度检测算法Sim2(Interest(u),Tweet(v))的计算公式为:
其对应的具体算法如下:
输入:两个兴趣向量Interest(u)和Tweet(v)记做arrayNum1[],arrayNum2[];输出:真实对象u和虚拟对象v之间的兴趣数据相似度;
1.定义
arrayNum1[],arrayNum2[]//1,2数组分别存放Interest(u),Tweet(v)
arrayKey[]//存放关键词合并后的数据
2.计算两个向量的点积
x=0 i=0
while
i<arrayKey[]的长度
x=x+arrayNum1[i]*arrayNum2[i]
i++
printx
3.计算两个向量的模
sq1=0 i=0
while
i<arrayKey[]的长度
sq1=sq1+pow(arrayNum1[i],2)//pow(a,2)=a*a
i++
sq2=0 j=0
while
j<arrayKey[]的长度
sq2=sq2+pow(arrayNum2[j],2)
j++
4.return
终端将计算出的i对应的特征词的权重ωui和ωv1带入上述相似度计算公式Sim1(Background(u),Node(v))中,即可计算真实对象u与虚拟对象v的兴趣数据相似度,得到第二相似值S2
S305、终端根据第三相似度检测算法检测所述真实对象和虚拟对象的社交数据的相似度,并得到第三相似值。
本发明实施例中,终端构建了真实对象u和虚拟对象v的身份数据模型之后,可以进一步构建u和v的社交数据模型,并根据第三相似度检测算法检测真实对象和虚拟对象的兴趣数据的相似度,得到第三相似值。
具体的,构建真实对象u的社交数据模型,Relative(u):表示u的社交数据,用树型结构来表示,对象u为根节点,其余对象为子节点,按与对象u的亲疏关系依次往下排列,其中每条边的权值为1,从该子节点出发到根节点的距离越远,数值越大,则两人关系越疏远,反之,若距离为1,则说明与对象u关系密切,一般为伴侣,父母,子女等。
构建虚拟对象v的社交数据模型,Relation(v),表示v的社交数据,包括2种属性(链接数据、互动数据),其中链接数据包括关注数据和粉丝数据,互动数据包括转发数据、评论数据和@数据。本发明实施例将它们分别表示为五个向量:关注向量Followee(v)、粉丝向量Follower(v)、转发向量Repost(v)、评论向量Comment(v),@(v),则Relation(v)可以表示为:
Relation(v)={Followee(v),Follower(v),Repost(v),Comment(v),@(v)}
终端构建虚拟对象v的社交数据模型之后,会在社交网络上寻找与虚拟对象相关联的其他虚拟对象v’,并计算根据v与v’的相似度。其中v与v’的相似度Relation(v,v′)的计算公式为:
Relation(v,v′)
=ω4Sim4(Link(v),Link(v’))
5Sim5(Interaction(v),Interaction(v’))
其中,Sim4(Link(v),Link(v’))表示v与v’链接数据相似度,v与v’的互动数据相似度表示为Sim5(Interaction(v),Interaction(v’)),ω45=1。对于ω4和ω5的具体数值,本发明实施例不做限定。
可选的,对于虚拟对象的链接数据相似度,本发明实施例提供了如下分析方法,用户的链接数据包含2种属性数据(关注数据和粉丝数据),表示为:
Link(v)={Followee(v),Follower(v)}
其对象链接数据相似度,可以根据(v,v’)之间的各种属性相似度而计算,链接数据相似度Sim4(Link(v),Link(v’))的计算公式为:
Sim4(Link(v),Link(v’))
=ω6Sim6(Followee(v),Followee(v’))
7Sim7(Follower(v),Follower(v’))
其中,
可选的,对于虚拟对象的互动数据相似度,本发明实施例提供了如下分析方法,用户的互动数据包含3种属性数据(转发数据、评论数据、@数据),表示为:
Interaction(v)={Repost(v),Comment(v),@(v)}
其对象互动数据相似度,可以根据(v,v’)之间的各种属性相似度而计算,链接数据相似度Sim5(Interaction(v),Interaction(v’))的计算公式为:
Sim5(Interaction(v),Interaction(v’))
=ω8Sim8(Repost(v),Repost(v’))
9Sim9(Comment(v),Comment(v’))+ω10Sim10(@(v),@(v’))
其中,ω8910=1,对于ω8、ω9和ω10的具体数值,本发明实施例不做限定。
具体的,
其中,Repost_num(v->v’)表示虚拟对象v是否转发对象v’在社交网络上发布的数据文本;Repost_num(v’->v)表示虚拟对象v’是否转发对象v在社交网络上发布的数据文本,若是,则为1,若否,则为0。
其中,Comment_num(v->v’)表示虚拟对象v是否评论对象v’在社交网络上发布的数据文本,Comment_num(v’->v)表示虚拟对象v’是否评论对象v在社交网络上发布的数据文本。若是,则为1,若否,则为0。
其中,@_num(v->v’)表示虚拟对象v是否@对象v’,@_num(v’->v)表示虚拟对象v’是否@对象v。若是,则为1,若否,则为0。
最终将上述公式计算得出的相似度带入Relation(v,v′)的计算公式中,即可得到虚拟对象v和v’的相似度。选取相似度排名前k位的虚拟对象v’即为与虚拟对象v相关联的虚拟对象,构成虚拟对象v的社交关系。
终端构建虚拟对象v的社交关系之后,可以根据第三相似度检测算法检测真实对象和虚拟对象的社交数据的相似度Sim3(Relative(u),Relation(v)),并得到第三相似值S3,第三检测算法的具体公式为:
其中,Relative(u)表示真实对象u的社交关系,包括多个与对象u有关联的真实对象,Relationk(v)表示与虚拟对象v相似度排名前k位的虚拟对象v’。
举例说明,若k个虚拟对象v’都与真实对象u的社交数据中的对象对应,则第三相似值S3=1,若k个虚拟对象v’都不与真实对象u的社交数据中的对象对应,则第三相似值S3=0。若有m个虚拟对象v’与真实对象u的社交数据中的对象对应,则S3=m/k,其中,m≤k。
S306、终端根据预设的加权规则对第一相似值、第二相似值和第三相似值进行加权处理。
本发明实施例中,根据相似度检测算法计算出第一相似值S1、第二相似值S2和第三相似值S3之后,会给计算出的相似值赋予一个加权系数,得到真实对象u和虚拟对象v的身份数据相似度
Sim(Profile(u),Profile(v))=β1Sim1(Background(u),Node(v))
2Sim2(Interest(u),Tweet(v))
3Sim3(Relative(u),Relation(v))
其中,β1、β2和β3为加权系数,β123=1,对于β1、β2和β3的具体数值,本发明实施例不做限定。
S307、终端将加权处理后的各个相似值进行汇总得到所述真实对象和虚拟对象的身份数据的相似度对应的相似值。
本发明实施例中,终端根据S306获取到各个相似值的加权系数之后,对各个相似值进行汇总处理即可得到真实对象u和虚拟对象v的身份数据相似度对应的相似值S。
S=β1S12S23S3
其中,S1为第一相似值,S2为第二相似值,S3为第三相似值。
可选的,当知道一个真实对象u,需要在社交网络上找到该真实对象u的虚拟身份时,可以根据上述相似度检测算法找到身份数据相似度排名前n位的虚拟对象v,根据数值大小对S(u)中的虚拟用户再进行降序排列,得到一个新的身份相似序列S’(u),最后根据真实对象u的其它数据(例如:文化水平、计算机操作能力、性格、气质、行为等)对比虚拟身份v的字符串风格、情感倾向、时间属性、设备持有情况、定位数据等。选择S’(u)中排名靠前的k位用户,来综合考虑虚拟用户v是不是真实对象u在社交网络上的虚拟身份。
本发明实施例中,终端获取真实对象和虚拟对象的身份数据之后,会根据身份数据构建背景数据模型、兴趣数据模型和社交数据模型,并计算出真实对象和虚拟对象的背景数据相似度、兴趣数据相似度和社交数据相似度,最后汇总得到真实对象和虚拟对象的身份数据相似度。通过本发明实施例,可以判断真实对象与虚拟对象的相似度,进而找到真实对象在社交网络上的虚拟身份,或者,通过知道社交网络上的虚拟身份,知道该虚拟身份对应的真实对象。
下面将结合附图4对本发明实施例提供的终端进行详细介绍。需要说明的是,附图4所示的终端,用于执行本发明图1-图3所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,经参照本发明图1-图3所示的实施例。
请参见图4,为本发明提供的一种终端的结构示意图;该终端40可包括:获取模块401、搜索模块402、检测模块403、确定模块404、计算模块405和排序模块406。
获取模块401,用于获取第一真实对象的身份数据;
搜索模块402,用于以所述第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的身份数据,并根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象;
所述搜索模块402,还用于以所述第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚拟对象;
所述搜索模块402,还用于以所述第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据,并根据所述关联真实对象的身份数据确定第二真实对象;
检测模块403,用于检测所述第一真实对象与所述第二真实对象的身份数据相似度;
确定模块404,根据所述身份数据相似度,确定所述第一真实对象与所述第二真实对象的关系。
可选的,本发明实施例所述的终端,还包括:
计算模块405,用于分别计算各个虚拟对象的背景数据与所述第一真实对象的背景数据相似度;
排序模块406,用于将所述虚拟对象按所述背景数据相似度从高到低的顺序降序排列;
所述计算模块405,还用于计算排序为前n位的虚拟对象与所述第一真实对象的兴趣数据相似度;
所述计算模块405,还用于计算排序为前n位的虚拟对象与所述第一真实对象的社交数据相似度;
所述计算模块405,还用于将所述排序为前n位的虚拟对象与所述第一真实对象的背景数据相似度、兴趣数据相似度和社交数据相似度进行加权汇总,得到所述排序为前n为的虚拟对象与所述第一真实对象的身份数据相似度;
所述排序模块406,还用于将所述排序为前n位的虚拟对象按所述身份数据相似度从高到低的顺序降序排列;
所述确定模块404,还用于将排序为第一位的虚拟对象确定为所述第一虚拟对象,其中,n为大于1的整数。
可选的,本发明实施例所述的终端,还包括:
所述获取模块401,还用于提取背景数据中的字符串数据和数字数据,所述字符串数据包括姓名数据和地址数据,所述数字数据包括生日数据和性别数据;
所述计算模块405,还用于分别计算所述第一真实对象和虚拟对象的姓名数据相似度和地址数据相似度;
所述计算模块405,还用于将所述姓名数据相似度和所述地址数据相似度进行加权汇总得到所述第一真实对象和所述虚拟对象的字符串数据相似度;
所述计算模块405,还用于分别计算所述第一真实对象和所述虚拟对象的生日数据相似度和性别数据相似度;
所述计算模块405,还用于将所述生日数据相似度和所述性别数据相似度进行加权汇总得到所述第一真实对象和所述虚拟对象的数字数据相似度;
所述计算模块405,还用于将所述字符串数据相似度和所述数字数据相似度进行加权汇总得到所述第一真实对象与所述虚拟对象的背景数据相似度。
可选的,本发明实施例所述的终端,还包括:
所述获取模块401,还用于提取所述第一真实对象和虚拟对象的兴趣数据中的兴趣关键词;
所述获取模块401,还用于获取所述兴趣关键词的在所述兴趣数据中的权重;
所述计算模块405,还用于将所述兴趣数据采用空间向量模型表示为兴趣向量,其第k个向量的值为第k个关键词对应的权重,其中,k为大于或等于1的整数;
所述计算模块405,还用于计算所述第一真实对象的兴趣向量与所述虚拟对象的兴趣向量的余弦值;
所述计算模块405,还用于将所述余弦值作为所述第一真实对象和所述虚拟对象的兴趣数据相似度。
所述获取模块401,还用于获取与所述第一真实对象有关联的第三真实对象集合和与虚拟对象有关联的第三虚拟对象集合;
所述检测模块403,还用于检测所述第三真实对象集合与所述第三虚拟对象集合的交集的人数;
所述计算模块405,还用于将所述交集的人数与所述第三虚拟对象集合中的人数的比值作为虚拟对象与所述第一真实对象的社交数据相似度。
若所述第一真实对象与所述第二真实对象的相似度大于第一预设阈值,则所述确定模块404确定所述第一真实对象与所述第二真实对象为同一个人;
若所述第一真实对象与所述第二真实对象的相似度介于第一预设阈值和第二预设阈值之间,则所述确定模块404确定所述第二真实对象与所述第一真实对象为亲密关系;
本发明实施例中,通过对真实对象与真实对象之间的相似度计算、真实对象与虚拟对象之间的相似度计算,可自动地进行虚拟身份数据的查找以及对象之间相似度的识别确定.
请参见图5,为本发明实施例提供了另一种终端的结构示意图。如图5所示,该终端包括:至少一个处理器501,输入设备503,输出设备504,存储器505,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,输入设备503可以是控制面板或者麦克风等,输出设备504可以是显示屏等。其中,存储器505可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图4所描述的终端,存储器505中存储一组程序代码,且处理器501,输入设备503,输出设备504调用存储器505中存储的程序代码,用于执行以下操作:
输入设备503获取第一真实对象的身份数据;
处理器501以所述第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的身份数据,输出设备504根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象
处理器501以所述第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数据,输出设备504根据所述关联虚拟对象的身份数据确定第二虚拟对象;
若处理器501以所述第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据,输出设备504根据所述关联真实对象的身份数据确定第二真实对象;
若处理器501检测所述第一真实对象与所述第二真实对象的身份数据相似度;
处理器501根据所述身份数据相似度,确定所述第一真实对象与所述第二真实对象的关系;
本发明实施例中,通过对真实对象与真实对象之间的相似度计算、真实对象与虚拟对象之间的相似度计算,可自动地进行虚拟身份数据的查找以及对象之间相似度的识别确定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (7)

1.一种身份关联方法,其特征在于,包括:
获取第一真实对象的身份数据;
以所述第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的身份数据,并根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象;
以所述第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚拟对象;
以所述第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据,并根据所述关联真实对象的身份数据确定第二真实对象;
检测所述第一真实对象与所述第二真实对象的身份数据相似度;
根据所述身份数据相似度,确定所述第一真实对象与所述第二真实对象的关系。
2.根据权利要求1任一项所述的方法,其特征在于,所述根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象,包括:
分别计算各个虚拟对象的背景数据与所述第一真实对象的背景数据相似度;
将所述虚拟对象按所述背景数据相似度从高到低的顺序降序排列;
计算排序为前n位的虚拟对象与所述第一真实对象的兴趣数据相似度;
计算排序为前n位的虚拟对象与所述第一真实对象的社交数据相似度;
将所述排序为前n位的虚拟对象与所述第一真实对象的背景数据相似度、兴趣数据相似度和社交数据相似度进行加权汇总,得到所述排序为前n位的虚拟对象与所述第一真实对象的身份数据相似度;
将所述排序为前n位的虚拟对象按所述身份数据相似度从高到低的顺序降序排列;
将排序为第一位的虚拟对象确定为所述第一虚拟对象,其中,n为大于1的整数。
3.根据权利要求2所述的方法,其特征在于,所述分别计算各个虚拟对象的背景数据与所述第一真实对象的背景数据相似度,包括:
提取背景数据中的字符串数据和数字数据,所述字符串数据包括姓名数据和地址数据,所述数字数据包括生日数据和性别数据;
分别计算所述第一真实对象和虚拟对象的姓名数据相似度和地址数据相似度;
将所述姓名数据相似度和所述地址数据相似度进行加权汇总得到所述第一真实对象和所述虚拟对象的字符串数据相似度;
分别计算所述第一真实对象和所述虚拟对象的生日数据相似度和性别数据相似度;
将所述生日数据相似度和所述性别数据相似度进行加权汇总得到所述第一真实对象和所述虚拟对象的数字数据相似度;
将所述字符串数据相似度和所述数字数据相似度进行加权汇总得到所述第一真实对象与所述虚拟对象的背景数据相似度。
4.根据权利要求2所述的方法,其特征在于,所述计算排序为前n位的虚拟对象与所述第一真实对象的兴趣数据相似度,包括:
提取所述第一真实对象和虚拟对象的兴趣数据中的兴趣关键词;
获取所述兴趣关键词的在所述兴趣数据中的权重;
将所述兴趣数据采用空间向量模型表示为兴趣向量,其第k个向量的值为第k个关键词对应的权重,其中,k为大于或等于1的整数;
计算所述第一真实对象的兴趣向量与所述虚拟对象的兴趣向量的余弦值;
将所述余弦值作为所述第一真实对象和所述虚拟对象的兴趣数据相似度。
5.一种身份关联方法,其特征在于,包括:
获取第一虚拟对象的身份数据;
以所述第一虚拟对象的身份数据作为搜索信息搜索得到关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚拟对象;
以所述第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据,并根据所述关联真实对象的身份数据确定第二真实对象;
获取第一虚拟对象对应的第一真实对象的身份数据;
检测所述第一真实对象与所述第二真实对象的身份数据相似度;
根据所述身份数据相似度,确定所述第一真实对象与所述第二真实对象的关系。
6.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。
CN201810105358.9A 2018-02-01 2018-02-01 一种身份关联方法及终端 Active CN110110218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810105358.9A CN110110218B (zh) 2018-02-01 2018-02-01 一种身份关联方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810105358.9A CN110110218B (zh) 2018-02-01 2018-02-01 一种身份关联方法及终端

Publications (2)

Publication Number Publication Date
CN110110218A CN110110218A (zh) 2019-08-09
CN110110218B true CN110110218B (zh) 2023-10-31

Family

ID=67483129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810105358.9A Active CN110110218B (zh) 2018-02-01 2018-02-01 一种身份关联方法及终端

Country Status (1)

Country Link
CN (1) CN110110218B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598126B (zh) * 2019-09-05 2023-04-18 河南科技大学 基于行为习惯的跨社交网络用户身份识别方法
CN110851661B (zh) * 2019-10-25 2023-04-21 北京深演智能科技股份有限公司 用户id映射关系的确定方法及装置、电子设备
CN111461186B (zh) * 2020-03-20 2022-11-04 支付宝(杭州)信息技术有限公司 数据相似度的处理方法、装置、存储介质和计算机设备
US11700234B2 (en) * 2021-01-26 2023-07-11 Cisco Technology, Inc. Email security based on display name and address

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968510A (zh) * 2012-12-21 2013-03-13 厦门市美亚柏科信息股份有限公司 互联网人物信息的搜索方法及***
CN103368917A (zh) * 2012-04-01 2013-10-23 阿里巴巴集团控股有限公司 一种网络虚拟用户的风险控制方法及***
CN103745014A (zh) * 2014-01-29 2014-04-23 中国科学院计算技术研究所 一种社交网络用户虚实映射方法和***
CN104899267A (zh) * 2015-05-22 2015-09-09 中国电子科技集团公司第二十八研究所 一种社交网站账号相似度的综合数据挖掘方法
CN104933139A (zh) * 2015-06-17 2015-09-23 中国科学院计算技术研究所 一种社交网络用户身份虚实映射的方法及装置
CN105376223A (zh) * 2015-11-02 2016-03-02 北京锐安科技有限公司 网络身份关系的可靠度计算方法
CN105550307A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种网民身份关系网络图的生成方法
CN105630978A (zh) * 2015-12-25 2016-06-01 曙光信息产业(北京)有限公司 信息收集方法和装置
US9554418B1 (en) * 2013-02-28 2017-01-24 F5 Networks, Inc. Device for topology hiding of a visited network

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593799B (zh) * 2012-08-16 2016-10-26 腾讯科技(深圳)有限公司 自然人信息设置方法、***及相应的好友推荐方法、***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368917A (zh) * 2012-04-01 2013-10-23 阿里巴巴集团控股有限公司 一种网络虚拟用户的风险控制方法及***
CN102968510A (zh) * 2012-12-21 2013-03-13 厦门市美亚柏科信息股份有限公司 互联网人物信息的搜索方法及***
US9554418B1 (en) * 2013-02-28 2017-01-24 F5 Networks, Inc. Device for topology hiding of a visited network
CN103745014A (zh) * 2014-01-29 2014-04-23 中国科学院计算技术研究所 一种社交网络用户虚实映射方法和***
CN104899267A (zh) * 2015-05-22 2015-09-09 中国电子科技集团公司第二十八研究所 一种社交网站账号相似度的综合数据挖掘方法
CN104933139A (zh) * 2015-06-17 2015-09-23 中国科学院计算技术研究所 一种社交网络用户身份虚实映射的方法及装置
CN105376223A (zh) * 2015-11-02 2016-03-02 北京锐安科技有限公司 网络身份关系的可靠度计算方法
CN105550307A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种网民身份关系网络图的生成方法
CN105630978A (zh) * 2015-12-25 2016-06-01 曙光信息产业(北京)有限公司 信息收集方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王玙 等.基于社交圈的在线社交网络朋友推荐算法.计算机学报.2014,第37卷(第4期),801-808. *

Also Published As

Publication number Publication date
CN110110218A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
Qi et al. Finding all you need: web APIs recommendation in web of things through keywords search
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110110218B (zh) 一种身份关联方法及终端
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110597962B (zh) 搜索结果展示方法、装置、介质及电子设备
US11461353B2 (en) Identifying and extracting addresses within content
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN110321291A (zh) 测试案例智能提取***及方法
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN111488524B (zh) 一种面向注意力的语义敏感的标签推荐方法
CN112016002A (zh) 融合评论文本层级注意力和时间因素的混合推荐方法
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
GB2569858A (en) Constructing content based on multi-sentence compression of source content
US20220164546A1 (en) Machine Learning Systems and Methods for Many-Hop Fact Extraction and Claim Verification
CN114330704A (zh) 语句生成模型更新方法、装置、计算机设备和存储介质
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质
CN111625722B (zh) 一种基于深度学习的人才推荐方法、***及存储介质
KR102335408B1 (ko) 영화 속성 언어 관리 방법 및 장치
CN113869038A (zh) 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法
Tian et al. Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge
CN113032567A (zh) 位置嵌入解释方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230607

Address after: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Applicant after: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Address before: Chongqing University of Posts and telecommunications, No.2 Chongwen Road, Nan'an District, Chongqing 400065

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240419

Address after: 310000, Room 1611, Building 1, Wanrong City, Gongshu District, Hangzhou City, Zhejiang Province (self declared)

Patentee after: Hangzhou Changshengbao Digital Technology Development Co.,Ltd.

Country or region after: China

Address before: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Patentee before: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right