CN111563526A - 嵌入向量评估方法、装置与电子设备 - Google Patents

嵌入向量评估方法、装置与电子设备 Download PDF

Info

Publication number
CN111563526A
CN111563526A CN202010230848.9A CN202010230848A CN111563526A CN 111563526 A CN111563526 A CN 111563526A CN 202010230848 A CN202010230848 A CN 202010230848A CN 111563526 A CN111563526 A CN 111563526A
Authority
CN
China
Prior art keywords
vector
embedded
actual measurement
specified attribute
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010230848.9A
Other languages
English (en)
Other versions
CN111563526B (zh
Inventor
刘敏
赵丽
袁彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN202010230848.9A priority Critical patent/CN111563526B/zh
Publication of CN111563526A publication Critical patent/CN111563526A/zh
Application granted granted Critical
Publication of CN111563526B publication Critical patent/CN111563526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种嵌入向量评估方法、装置与电子设备,其中方法包括:获取分别针对多个目标物生成的多个嵌入向量,并将所述嵌入向量进行两两配对;针对所有两两配对的嵌入向量,计算嵌入向量间的向量距离,并基于所述向量距离,获取所述目标物间相互关系的第一描述向量;确定所述目标物的指定属性特征的类型,并基于所述类型和所述第一描述向量,获取所述目标物间相互关系中关于所述指定属性特征的第二描述向量;获取所述目标物间关于所述指定属性特征的相互关系的实际度量向量,并基于所述实际度量向量和所述第二描述向量,对所述嵌入向量进行质量评估。本发明实施例能够有效提高对物品嵌入向量评估的准确性,并有效增强评估方案的适用性。

Description

嵌入向量评估方法、装置与电子设备
技术领域
本发明涉及计算机应用技术领域,更具体地,涉及一种嵌入向量评估方法、装置与电子设备。
背景技术
无监督嵌入向量技术是一种通过无监督的学习算法得到物品的向量表示的技术,也即生成物品的嵌入向量的技术。在无监督嵌入向量技术中,学习的目标和嵌入向量的使用目标之间通常会存在不一致的问题,因此学习的损失函数无法直接表示物品的嵌入向量在具体任务中是否有效,也即无法评估生成的嵌入向量的质量的优劣。
现有技术针对嵌入向量的评估具有很大的局限性。例如,在词向量有效性的评估中,通常是在语义理解数据集上评估词向量在该任务上的准确性。这种评估方法存在两大问题:其一,应用仅局限在自然语言处理(Natural Language Processing,NLP)领域,在其它很多业务领域无法复用;其二,并没有直接衡量词向量的效果,而是转化为其他任务效果的评估,结果不够准确。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种嵌入向量评估方法、装置与电子设备,用以有效提高对物品嵌入向量评估的准确性,并有效增强评估方案的适用性。
第一方面,本发明实施例提供一种嵌入向量评估方法,包括:
获取分别针对多个目标物生成的多个嵌入向量,并将所述嵌入向量进行两两配对;
针对所有两两配对的嵌入向量,计算嵌入向量间的向量距离,并基于所述向量距离,获取所述目标物间相互关系的第一描述向量;
确定所述目标物的指定属性特征的类型,并基于所述类型和所述第一描述向量,获取所述目标物间相互关系中关于所述指定属性特征的第二描述向量;
获取所述目标物间关于所述指定属性特征的相互关系的实际度量向量,并基于所述实际度量向量和所述第二描述向量,对所述嵌入向量进行质量评估。
其中可选的,若所述指定属性特征类型对应的指定属性特征为离散特征,则在所述对所述嵌入向量进行质量评估的步骤之前,本发明实施例的方法还包括:基于所述离散特征的各离散值分别对应的第二描述向量,计算所述离散特征间的平均距离,并利用所述平均距离更新所述第二描述向量;
相应的,对所述嵌入向量进行质量评估的步骤具体包括:
根据所述实际度量向量与更新后的第二描述向量中相同的指定属性特征维度,确定所述实际度量向量和所述更新后的第二描述向量的对应关系;
对于任一对具有对应关系的实际度量向量和更新后的第二描述向量,计算所述实际度量向量中实际度量值维度与所述更新后的第二描述向量中平均距离维度之间的皮尔逊相关系数或者卡方值;
基于所述皮尔逊相关系数或者卡方值,确定所述实际度量值与所述离散特征间的平均距离的相关性,相关性越大,则判定所述嵌入向量的质量越高,反之质量越低;
其中,所述实际度量值是基于不同目标物分别对应的所述指定属性特征的实际取值,在所述指定属性特征间作函数变换计算获取的。
进一步的,在所述计算所述离散特征间的平均距离的步骤之后,本发明实施例的方法还包括:对于两两配对的嵌入向量,以对应的两个目标物品中一个目标物品的指定属性特征为横坐标,另一个目标物品的指定属性特征为纵坐标,并以所述对应的两个目标物品的指定属性特征间的平均距离为方格取值,绘制方格图,以根据所述方格图展示并定性评估所述嵌入向量的有效性。
其中可选的,若所述指定属性特征类型对应的指定属性特征为连续特征,则所述对所述嵌入向量进行质量评估的步骤具体包括:
根据所述实际度量向量与所述第二描述向量中相同的指定属性特征维度,确定所述实际度量向量和所述第二描述向量的对应关系;
对于任一对具有对应关系的实际度量向量和第二描述向量,计算所述实际度量向量中实际度量值维度与所述第二描述向量中向量距离维度之间的皮尔逊相关系数;
基于所述皮尔逊相关系数,确定所述实际度量值与所述向量距离的相关性,相关性越大,则判定所述嵌入向量的质量越高,反之质量越低;
其中,所述实际度量值是基于不同目标物分别对应的所述指定属性特征的实际取值计算获取的。
进一步的,在所述确定所述实际度量值与所述向量距离的相关性的步骤之后,本发明实施例的方法还包括:以所述实际度量值为横坐标,所述相关性为纵坐标,绘制所述指定属性特征形成的折线图,以根据所述折线图,展示并定性评估所述嵌入向量的有效性。
其中可选的,若所述指定属性特征为多个,则所述获取所述目标物间关于所述指定属性特征的相互关系的实际度量向量的步骤具体包括:针对每个目标物,将所述目标物对应的所有所述指定属性特征构成一特征向量,并计算不同特征向量之间的距离,作为对应指定属性特征间的所述实际度量值,构成所述实际度量向量。
其中可选的,所述计算所述离散特征间的平均距离的步骤具体包括:对于根据所述两两配对的嵌入向量计算得到的离散特征间的距离,按照不同指定属性特征进行聚类,并根据聚类结果,计算获取所述离散特征对应的平均距离。
第二方面,本发明实施例提供一种嵌入向量评估装置,包括:
配对模块,用于获取分别针对多个目标物生成的多个嵌入向量,并将所述嵌入向量进行两两配对;
第一计算模块,用于针对所有两两配对的嵌入向量,计算嵌入向量间的向量距离,并基于所述向量距离,获取所述目标物间相互关系的第一描述向量;
第二计算模块,用于确定所述目标物的指定属性特征的类型,并基于所述类型和所述第一描述向量,获取所述目标物间相互关系中关于所述指定属性特征的第二描述向量;
评估输出模块,用于获取所述目标物间关于所述指定属性特征的相互关系的实际度量向量,并基于所述实际度量向量和所述第二描述向量,对所述嵌入向量进行质量评估。
其中可选的,若所述指定属性特征类型对应的指定属性特征为离散特征,则所述第二计算模块还用于:基于所述离散特征的各离散值分别对应的第二描述向量,计算所述离散特征间的平均距离,并利用所述平均距离更新所述第二描述向量;
相应的,所述评估输出模块具体用于:
根据所述实际度量向量与更新后的第二描述向量中相同的指定属性特征维度,确定所述实际度量向量和所述更新后的第二描述向量的对应关系;
对于任一对具有对应关系的实际度量向量和更新后的第二描述向量,计算所述实际度量向量中实际度量值维度与所述更新后的第二描述向量中平均距离维度之间的皮尔逊相关系数或者卡方值;
基于所述皮尔逊相关系数或者卡方值,确定所述实际度量值与所述离散特征间的平均距离的相关性,相关性越大,则判定所述嵌入向量的质量越高,反之质量越低;
其中,所述实际度量值是基于不同目标物分别对应的所述指定属性特征的实际取值,在所述指定属性特征间作函数变换计算获取的。
进一步的,所述评估输出模块还用于:对于两两配对的嵌入向量,以对应的两个目标物中一个目标物的指定属性特征为横坐标,另一个目标物的指定属性特征为纵坐标,并以所述对应的两个目标物的指定属性特征间的平均距离为方格取值,绘制方格图,以根据所述方格图展示并定性评估所述嵌入向量的有效性。
其中可选的,若所述指定属性特征类型对应的指定属性特征为连续特征,则所述评估输出模块具体用于:
根据所述实际度量向量与所述第二描述向量中相同的指定属性特征维度,确定所述实际度量向量和所述第二描述向量的对应关系;
对于任一对具有对应关系的实际度量向量和第二描述向量,计算所述实际度量向量中实际度量值维度与所述第二描述向量中向量距离维度之间的皮尔逊相关系数;
基于所述皮尔逊相关系数,确定所述实际度量值与所述向量距离的相关性,相关性越大,则判定所述嵌入向量的质量越高,反之质量越低;
其中,所述实际度量值是基于不同目标物分别对应的所述指定属性特征的实际取值计算获取的。
进一步的,所述评估输出模块还用于:以所述实际度量值为横坐标,所述相关性为纵坐标,绘制所述指定属性特征形成的折线图,以根据所述折线图展示并定性评估所述嵌入向量的有效性。
进一步的,若所述指定属性特征为多个,则所述评估输出模块还用于:针对每个目标物,将所述目标物对应的所有所述指定属性特征构成一特征向量,并计算不同特征向量之间的距离,作为对应指定属性特征间的所述实际度量值,构成所述实际度量向量。
进一步的,所述第二计算模块还用于:对于根据所述两两配对的嵌入向量计算得到的离散特征间的距离,按照不同指定属性特征进行聚类,并根据聚类结果,计算获取所述离散特征对应的平均距离。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的嵌入向量评估方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,所述计算机指令被计算机执行时,实现如上第一方面所述的嵌入向量评估方法的步骤。
本发明实施例提供的嵌入向量评估方法、装置与电子设备,通过对不同物品的嵌入向量进行两两配对计算向量距离,并进一步通过分析物品特征与该向量距离间的关系来评估嵌入向量,能够有效提高对物品嵌入向量评估的准确性,并有效增强评估方案的适用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的嵌入向量评估方法的流程示意图;
图2为本发明另一实施例提供的嵌入向量评估方法的流程示意图;
图3为根据本发明实施例提供的嵌入向量评估方法中计算两两物品向量间距离的示例流程图;
图4为根据本发明实施例提供的嵌入向量评估方法中绘制的二维色彩方格示例图;
图5为根据本发明实施例提供的嵌入向量评估方法中绘制的房源距离相关性折线示意图;
图6为本发明实施例提供的嵌入向量评估装置的结构示意图;
图7为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
本发明实施例针对现有技术准确性不高且适用性较差的问题,通过对不同物品的嵌入向量进行两两配对计算向量距离,并进一步通过分析物品特征与该向量距离间的关系来评估嵌入向量,能够有效提高对物品嵌入向量评估的准确性,并有效增强评估方案的适用性。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。
图1为本发明一实施例提供的嵌入向量评估方法的流程示意图,如图1所示,该方法包括:
S101,获取分别针对多个目标物生成的多个嵌入向量,并将嵌入向量进行两两配对。
可以理解为,对于多个不同的目标物,利用现有的学习算法,可提取各目标物分别对应的嵌入向量,而得到多个嵌入向量。之后,可将这些嵌入向量进行两两配对,得到多个嵌入向量对。其中可选的,可通过对多个嵌入向量计算其笛卡尔积,得到多个嵌入向量对。
S102,针对所有两两配对的嵌入向量,计算嵌入向量间的向量距离,并基于向量距离,获取目标物间相互关系的第一描述向量。
可以理解为,对于每组两两配对的嵌入向量,也即每个嵌入向量对而言,可计算其两个嵌入向量之间的距离,也即向量距离,如余弦距离、欧几里得距离等。于是,可将这两个嵌入向量分别对应的物体以及计算得到的向量距离,以向量的形式进行描述和记录,该向量即可作为目标物间相互关系的向量描述,即第一描述向量。以房产领域为例,假设房源i和房源j的嵌入向量构成一对配对的嵌入向量,则可计算得到这一对嵌入向量间的向量距离dij,并根据房源i、房源j以及向量距离dij,构成第一描述向量(房源i,房源j,距离dij)。
S103,确定目标物的指定属性特征的类型,并基于该类型和第一描述向量,获取目标物间相互关系中关于指定属性特征的第二描述向量。
可以理解为,对于嵌入向量对对应的两个目标物,可提取其对应的某属性特征,作为指定属性特征,并通过将上述用于描述和记录这两个目标物间相互关系的第一描述向量中的物品维度对应替换成其所对应的指定属性特征,将第一描述向量对中嵌入向量的距离转化为对应指定属性特征间的距离,从而获取这两个目标物间关于该指定属性特征的相互关系的向量描述,即第二描述向量。可以理解的是,对于提取的不同属性特征,其可能具有不同的格式类型,如离散类型或连续类型等。对于不同的指定属性特征,其对应的数据类型可能不同,因此计算方式也不尽相同。本发明实施例对于不同的指定属性特征的类型,对应采用不同的处理流程,因此需要先确定指定属性特征的类型,并按照不同类型分别对应的转换原则,利用第一描述向量得到第二描述向量。以上述房产领域为例,分别提取房源i和房源j的一个对应的指定属性特征,如居室,即可得到参数房源i的居室和房源j的居室,再利用其对应替换描述向量中的物品房源i和房源j,得到指定属性特征(居室)间距离的第二描述向量(房源i的居室,房源j的居室,距离dij),于是实现将向量距离转化为居室间的距离。
S104,获取目标物间关于指定属性特征的相互关系的实际度量向量,并基于实际度量向量和第二描述向量,对嵌入向量进行质量评估。
可以理解为,本发明实施例对于不同的指定属性特征的类型,对应采用不同的处理流程,根据不同目标物对应的指定属性特征的实际值,计算该不同目标物间相互关系的实际度量值,该实际度量值具体是关于该指定属性特征的实际度量值,并利用该指定属性特征和该实际度量值,确定该不同目标物间实际相互关系的向量表示,也即关于指定属性特征的相互关系的实际度量向量。
其中的实际度量值是不同目标物相应指定属性特征间的相互关系度量值,其可以是事先指定的度量值类别,可通过分别确定不同目标物相对应的相同指定属性特征的实际取值计算得到。如对于房产领域而言,不同目标物取为两处不同的房源,并分别取这两处房源的位置属性或者居室数属性作为指定属性特征,之后分别获取这两处房源的实际位置或者居室数,则可计算这两处不同房源的位置之间的距离值来作为该两处不同房源相互关系中关于位置的实际度量值,或者计算这两处不同房源的居室数之间的差值来作为该两处不同房源相互关系中关于居室数的实际度量值等。对于上述房产领域实例,则可得到房源i和房源j的关于居室数的实际度量向量为(房源i的居室,房源j的居室,居室数差Δnij),其中的居室数差Δnij)即为房源i和房源j关于居室数的相互关系实际度量值。
之后,以上述步骤计算得到的目标物间相互关系中关于指定属性特征的第二描述向量以及上述实际度量向量为基础,进行目标物的指定属性特征的实际度量值与对应向量距离之间相关性关系的判断,若向量距离与目标物实际度量值趋势一致,则说明嵌入向量是合理有效的,且上述相关性越大,对应的目标物嵌入向量质量越高。
本发明实施例提供的嵌入向量评估方法,通过对不同物品的嵌入向量进行两两配对计算向量距离,并进一步通过分析物品特征与该向量距离间的关系来评估嵌入向量,能够有效提高对物品嵌入向量评估的准确性,并有效增强评估方案的适用性。
其中,根据上述各实施例可选的,若指定属性特征为离散特征,则在对嵌入向量进行质量评估的步骤之前,本发明实施例的方法还包括:基于离散特征的各离散值分别对应的第二描述向量,计算离散特征间的平均距离,并利用平均距离更新第二描述向量。
相应的,对嵌入向量进行质量评估的步骤具体包括:根据实际度量向量与更新后的第二描述向量中相同的指定属性特征维度,确定实际度量向量和更新后的第二描述向量的对应关系;对于任一对具有对应关系的实际度量向量和更新后的第二描述向量,计算实际度量向量中实际度量值维度与更新后的第二描述向量中平均距离维度之间的皮尔逊相关系数或者卡方值;基于皮尔逊相关系数或者卡方值,确定实际度量值与离散特征间的平均距离的相关性,相关性越大,则判定嵌入向量的质量越高,反之质量越低。其中,实际度量值是基于不同目标物分别对应的指定属性特征的实际取值,在指定属性特征间作函数变换计算获取的。
可以理解为,如上述各实施例所述,对于一确定目标物,其指定属性特征的类型可能为离散特征也可能为连续特征,在进行物品指定属性特征的选择时,还可能同时选取物品的多个属性特征作为指定属性特征。因此在选取的物品的指定属性特征具体为离散特征时,本发明实施例按照设定好的处理流程来对得到的物品嵌入向量进行评估。
具体而言,在根据上述各实施例转化得到目标物间相互关系中关于指定属性特征的第二描述向量的基础上,根据该指定属性特征,计算该指定属性特征所对应的特征间平均距离,并用该平均距离替换原第二描述向量中的向量距离值。其中可选的,计算指定属性特征,也即离散特征间的平均距离的步骤具体包括:对于根据两两配对的嵌入向量计算得到的指定属性特征间的距离,按照指定属性特征进行聚类,并根据聚类结果,计算得到指定属性特征对应的特征间平均距离。
之后,在基于特征间距离进行嵌入向量的评估时,首先根据实际度量向量与更新后的第二描述向量中对应相同的指定属性特征维度,确定实际度量向量与更新后的第二描述向量的一一对应关系,进而可通过计算该实际度量向量与更新后的第二描述向量之间的相关性来确定目标物的嵌入向量表示质量高低。也就是说,是通过比较同一目标物对的嵌入向量之间的数学关系与该目标物对实际指定属性特征之间的数学关系的相关性,来确定目标物的嵌入向量质量高低,二者相关性越大,说明嵌入向量的质量越高。例如,对于上述房产领域实例,通过对比更新后的第二描述向量和实际度量向量中指定属性特征维度(房源i的居室,房源j的居室)来确定更新后的第二描述向量(房源i的居室,房源j的居室,平均距离meanij)与实际度量向量(房源i的居室,房源j的居室,居室数差Δnij)的对应关系。
对于具有对应关系的更新后的第二描述向量和实际度量向量,分别取出更新后的第二描述向量中的平均距离维度和实际度量向量中的实际度量值维度,根据两两配对的嵌入向量得到对应的两个目标物,再根据这两个目标物得到对应的两个指定属性特征并分别确定其实际取值,之后在这两个实际取值之间做函数变换,如计算二者差值等,得到这两个指定属性特征间的实际度量值,如度量差值。接下来,先计算这两个指定属性特征间的实际度量值与上述计算得到的特征间平均距离之间的皮尔逊相关系数或者卡方值,再根据计算得到的皮尔逊相关系数或者卡方值确定该实际度量值与特征间平均距离间的相关性,最终根据该相关性对得到的目标物嵌入向量进行评估。也即,得到的相关性取值越大,则可认为嵌入向量的质量越高,反之质量越低。
进一步的,在上述各实施例的基础上,在计算离散特征间的平均距离的步骤之后,本发明实施例的方法还包括:对于两两配对的嵌入向量,以对应的两个目标物中一个目标物的指定属性特征为横坐标,另一个目标物的指定属性特征为纵坐标,并以对应的两个目标物的指定属性特征间的平均距离为方格取值,绘制方格图,以根据方格图展示并定性评估嵌入向量的有效性。
可以理解为,上述实施例针对离散特征的评估过程可认为是对嵌入向量的定量性评估,本发明实施例在定量性评估之前,还可先进行嵌入向量的定性评估。具体而言,首先可通过绘制方格图(如二维色彩图)来展现离散的指定属性特征对的实际度量值与嵌入向量间距离之间的相关性。在根据上述各实施例得到离散的指定属性特征对对应的平均距离的基础上,以离散的指定属性特征对中的一个指定属性特征为横坐标,另一个指定属性特征为纵坐标,平均距离为值画二维色彩方格图,其中平均距离取值越大,表现在二维色彩方格图中的图块方格的颜色越深(图块中网格密度越大)。则可根据该二维色彩方格图中各图块方格的颜色对比,并结合目标物的实际业务逻辑,来展示和定性评估得到的目标物嵌入向量是否有效。
其中,根据上述各实施例可选的,若指定属性特征类型对应的指定属性特征为连续特征,则对生成的嵌入向量进行质量评估的步骤具体包括:根据实际度量向量与第二描述向量中相同的指定属性特征维度,确定实际度量向量和第二描述向量的对应关系;对于任一对具有对应关系的实际度量向量和第二描述向量,计算实际度量向量中实际度量值维度与第二描述向量中向量距离维度之间的皮尔逊相关系数;基于皮尔逊相关系数,确定实际度量值与指定属性特征间的距离的相关性,相关性越大,则判定嵌入向量的质量越高,反之质量越低。
可以理解为,本发明实施例在选取的目标物的指定属性特征具体为连续特征时,按照设定好的处理流程来对得到的目标物嵌入向量进行评估。具体而言,在根据上述各实施例转化得到目标物的指定属性特征间距离的基础上,首先根据实际度量向量与第二描述向量中对应相同的指定属性特征维度,确定实际度量向量与第二描述向量的一一对应关系,进而可通过计算该实际度量向量与第二描述向量之间的相关性来确定目标物的嵌入向量表示质量高低。也就是说,是通过比较同一目标物对的嵌入向量之间的数学关系与该目标物对实际指定属性特征之间的数学关系的相关性,来确定目标物的嵌入向量质量高低,二者相关性越大,说明嵌入向量的质量越高。例如,对于上述房产领域实例,通过对比第二描述向量和实际度量向量中指定属性特征维度(房源i的位置,房源j的位置)来确定第二描述向量(房源i的位置,房源j的位置,距离dij)与实际度量向量(房源i的位置,房源j的位置,位置差ΔDij)的对应关系。
对于具有对应关系的第二描述向量和实际度量向量,分别取出第二描述向量中的距离维度(如距离dij)和实际度量向量中的实际度量值维度(如位置差ΔDij),首先根据两两配对的嵌入向量得到对应的两个目标物,再根据这两个目标物得到对应的两个指定属性特征并分别确定其实际取值,之后根据这两个实际取值计算得到这两个指定属性特征间的实际度量值,如两指定属性特征间距离等。
接下来,先计算这两个指定属性特征间的实际度量值与上述得到的指定属性特征间距离之间的皮尔逊相关系数,再根据计算得到的皮尔逊相关系数,确定该实际度量值与指定属性特征间距离间的相关性,最终根据该相关性对得到的目标物嵌入向量进行评估。也即,得到的相关性取值越大,则可认为嵌入向量的质量越高,反之质量越低。
另外,在上述各实施例的基础上,在确定实际度量值与指定属性特征间的距离的相关性的步骤之后,本发明实施例的方法还包括:以实际度量值为横坐标,相关性为纵坐标,绘制指定属性特征形成的折线图,以根据折线图展示并定性评估嵌入向量的有效性。
可以理解为,上述实施例针对连续特征的评估过程可认为是对嵌入向量的定量性评估,本发明实施例在定量性评估之前,还可先进行嵌入向量的定性评估。具体而言,可先直接通过折线性图来展示和评估嵌入向量的有效性。在根据上述各实施例计算得到指定属性特征间的距离之后,直接计算特征之间的实际度量值。
以房产领域为例,假设选取的目标物的指定属性特征为房源的位置,然后计算这两个房源位置之间的距离(该距离可以是房源i、j位置的实际物理距离,也可以是位置等级上的距离等)。最后按照房源位置之间距离的升序排序,画出折线图。图中横坐标是房源特征之间的实际度量值距离,纵坐标是房源向量间距离与房源特征之间的实际度量值距离的相似性。
于是,可根据上述折线图中折线的趋势,并结合目标物的实际业务逻辑,来展示和定性评估得到的目标物嵌入向量是否有效。例如,如果房源特征之间的实际度量值距离越大,房源之间得到的相似性越小,则表示向量学习有效,反之则表示无效。
其中,根据上述各实施例可选的,若指定属性特征为多个,则获取目标物间关于指定属性特征的相互关系的实际度量向量的步骤具体包括:针对每个目标物,将目标物对应的所有指定属性特征构成一特征向量,并计算不同特征向量之间的距离,作为对应指定属性特征间的实际度量值,构成实际度量向量。
可以理解为,本发明实施例在选取的目标物的指定属性特征具体为多个特征时,按照设定好的处理流程来对得到的目标物嵌入向量进行评估。具体而言,在根据上述各实施例转化得到目标物的指定属性特征间距离的基础上,可通过直接计算多个特征的综合实际度量值与向量距离的相关性,来衡量学习得到嵌入向量的有效性。以房产领域为例,选取多个特征组成向量来表示房源((i的居室,i的面积,i的价格),(j的居室,j的面积,j的价格),dij),dij表示向量距离。然后,直接计算这些特征组成的向量之间的综合距离(可采用人工规则计算,也可以直接计算余弦距离),也即多个特征的综合实际度量值,得到(ij的距离,dij)。最后,计算出ij的距离和dij间的皮尔逊相关系数p。如果p很大,则表示房源特征之间的距离与dij有关系,则表示学习向量有效,反之则表示无效。
为进一步说明本发明实施例的技术方案,本发明实施例根据上述各实施例提供如下具体的处理流程,但不对本发明实施例的保护范围进行限制。
如图2所示,为本发明另一实施例提供的嵌入向量评估方法的流程示意图,主要包括如下处理步骤:
步骤1,计算两两目标物向量之间的距离。也就是说,首先可通过对目标物向量做笛卡尔积等运算,获得两两配对的目标物向量对。然后,对目标物向量对计算向量之间的距离,具体可以是嵌入向量之间的余弦距离或者欧几里得距离等。
如图3所示,为根据本发明实施例提供的嵌入向量评估方法中计算两两目标物向量间距离的示例流程图,对于目标物1到n(vi表示第i个目标物的嵌入向量),通过计算其笛卡尔积,可得到目标物向量对(i,j,(vi,vj))。然后,计算目标物向量对之间的距离(可以使用余弦、欧几里得距离等),得到(i,j,dij)。其中dij表示目标物i和目标物j的嵌入向量之间的距离。
以房产领域为例,假设事先已经获得了每个房源的向量表示,也即获得了每个房源的嵌入向量。则可计算两个房源向量之间的距离,记作(房源i,房源j,距离dij)。
步骤2,将两两目标物向量之间的距离转化为两两目标物特征对之间的距离。也就是说,将目标物对转化为特征对,具体将目标物向量之间的距离转化为目标物的某个特征之间的距离,该特征可以是预先指定的某些特定属性特征,可称作指定属性特征。在上一步中计算出了(i,j,dij),则经转化后得到(fi,fj,dij),其中fi表示目标物i的特征,fj表示目标物j的特征。
以房产领域为例,将步骤1中计算得到的房源向量间距离向量中的房源替换成房源的居室,得到(居室i,居室j,距离),于是可进一步得到房源的居室对之间的距离,即得到(房源i的居室数,房源j的居室数,dij)。
步骤3,这一步根据不同的特征属性类型,采用不同的处理流程,可分为离散特征、连续特征和多个特征三种情况分别具体说明。
对于离散特征,需要计算两两特征对之间的平均距离。也就是说,对(fi,fj,dij)先按照(fi,fj)进行聚类,再根据聚类的结果计算特征对(fi,fj)的平均距离,得到(fi,fj,mean_ij)。其中mean_ij表示特征对(fi,fj)对应的平均距离。以房产领域为例,计算出居室对之间的平均距离,这一步就获得了(房源i的居室数,房源j的居室数,mean_ij)。
对于连续特征,可不进行本步骤的平均距离的计算,而直接跳到下一处理步骤。
对于指定属性特征是包含多个特征的情况,根据该多个特征是离散特征还是连续特征的情况,对应按照上述处理流程计算两两特征对之间的平均距离,或者直接跳到下一处理步骤。
步骤4,通过判断特征对的实际度量值与嵌入向量间距离之间的关系,获取结论。具体而言,对于离散特征,首先可通过二维色彩图来展现特征对的实际度量值与嵌入向量间距离之间的相关性。在上一步中得到了特征对对应的平均距离(fi,fj,mean_ij),此处以fi为横坐标,fj为纵坐标,mean_ij为值画二维色彩方格图,其中mean_ij越大,图块方格的颜色越深(图块中网格密度越大)。以下以房产领域为例进行说明。
如图4所示,为根据本发明实施例提供的嵌入向量评估方法中绘制的二维色彩方格示例图,竖着看图4的左上部分,在横坐标为1居室的这一列,随着纵坐标的居室数增加,对应方格颜色越来越浅(图块中网格密度越来越小),说明居室之间差别越大,房源之间的相似性越小,符合业务上的逻辑,则可判断学习的房源向量是有效的,反之则是无效的。该评估过程可认为是定性评估。
此外,还可通过直接计算特征实际度量值与物体向量平均距离的相关性,来衡量学习到的嵌入向量的有效性。在上一步中计算得到了(fi,fj,mean_ij),通过给定函数来对fi和fj作变幻,让其成为一个标量值得到(fij_score,mean_ij),然后通过皮尔逊相关系数或者卡方值来计算(fij_score,mean_ij)的相关性。
以房产领域为例,计算居室之间的绝对值距离,得到(居室距离,mean_ij)。例如,1居室之间距离为|1-1|=0,1居室和三居室之间距离为|1-3|=2。然后,计算居室距离和mean_ij间的皮尔逊相关系数p。如果p很大,则表示居室之间的距离与mean_ij有关系,则表示学习向量有效,反之则表示无效。这种定量评估可以用来评估不同方法学习向量之间的优劣。
对于连续特征,则可先直接通过线性图来展示和评估。在连续特征中不需要计算向量平均距离,在步骤2中得到(fi,fj,dij)之后,直接计算特征之间的实际度量值。以房产领域为例,步骤2中选取的特征为房源的位置(i的位置,j的位置,dij),然后计算两个房源i、j位置之间的距离(ij的距离,dij)(该距离可以是房源i、j位置的实际物理距离,也可以是位置等级上的距离等)。最后按照(ij的距离)的升序排序,画出折线图如图5所示,为根据本发明实施例提供的嵌入向量评估方法中绘制的房源距离相关性折线示意图,图中横坐标是房源特征之间的实际度量值距离,纵坐标是房源向量间距离与房源特征之间的实际度量值距离的相似性。如果房源特征之间的实际度量值距离越大,房源之间得到的相似性越小,则表示向量学习有效,反之则表示无效。
此外,还可通过直接计算特征度量值与物体向量距离的相关性,来衡量学习向量的有效性。以房产领域为例,步骤2中选取的特征为房源的位置(i的位置,j的位置,dij),然后计算房源位置之间的距离得到(ij的距离,dij)。最后,计算出ij的距离和dij间皮尔逊相关系数p。如果p很大,则表示居室之间的距离与对应房源嵌入向量间距离dij有关系,则表示学习向量有效,反之则表示无效。这种定量评估可以用来评估不同方法学习向量之间的优劣。
对于指定属性特征是多个特征的情况,可通过直接计算多个特征的实际度量值与向量距离的相关性,来衡量学习向量的有效性。以房产领域为例,步骤2中选取多个特征组成向量,来表示房源((i的居室,i的面积,i的价格),(j的居室,j的面积,j的价格),dij)。然后,直接计算这些特征组成的向量之间的距离(可采用人工规则计算,也可以直接计算余弦距离),得到(ij的距离,dij)。最后,计算出ij的距离和dij间的皮尔逊相关系数p。如果p很大,则表示房源特征之间的距离与dij有关系,则表示学习向量有效,反之则表示无效。这种定量评估可以用来评估不同方法学习向量之间的优劣。
本发明实施例使得学习到的目标物向量的有效性有一个确定的评估指标,评估结果更准确,且适用范围更广。
基于相同的发明构思,本发明实施例根据上述各实施例提供一种嵌入向量评估装置,该装置用于在上述各实施例中实现对嵌入向量的评估。因此,在上述各实施例的嵌入向量评估方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。
根据本发明实施例的一个实施例,嵌入向量评估装置的结构如图6所示,为本发明实施例提供的嵌入向量评估装置的结构示意图,该装置可以用于实现上述各方法实施例中对嵌入向量的评估,该装置包括:配对模块601、第一计算模块602、第二计算模块603和评估输出模块604。其中:
配对模块601用于获取分别针对多个目标物生成的多个嵌入向量,并将嵌入向量进行两两配对;第一计算模块602用于针对所有两两配对的嵌入向量,计算嵌入向量间的向量距离,并基于向量距离,获取目标物间相互关系的第一描述向量;第二计算模块603用于确定目标物的指定属性特征的类型,并基于类型和第一描述向量,获取目标物间相互关系中关于指定属性特征的第二描述向量;评估输出模块604用于获取目标物间关于指定属性特征的相互关系的实际度量向量,并基于实际度量向量和第二描述向量,对生成的嵌入向量进行质量评估。
具体而言,对于多个不同的目标物,配对模块601利用现有的学习算法,可提取各目标物分别对应的嵌入向量,而得到多个嵌入向量。之后,配对模块601可将这些嵌入向量进行两两配对,得到多个嵌入向量对。其中可选的,配对模块601可通过对多个嵌入向量计算其笛卡尔积,得到多个嵌入向量对。
之后,对于每组两两配对的嵌入向量,也即每个嵌入向量对而言,第一计算模块602可计算其两个嵌入向量之间的距离,也即向量距离,如余弦距离、欧几里得距离等。于是,第一计算模块602可将这两个嵌入向量分别对应的目标物以及计算得到的向量距离,以向量的形式进行描述和记录,该向量即可作为目标物间相互关系的向量描述,即第一描述向量。以房产领域为例,假设房源i和房源j的嵌入向量构成一对配对的嵌入向量,则可计算得到这一对嵌入向量间的向量距离dij,并根据房源i、房源j以及向量距离dij,构成第一描述向量(房源i,房源j,距离dij)。
之后,对于嵌入向量对对应的两个目标物,第二计算模块603可提取其对应的某属性特征,作为指定属性特征,并通过将上述用于描述和记录这两个目标物间相互关系的第一描述向量中的目标物维度对应替换成其所对应的指定属性特征,将第一描述向量对中嵌入向量的距离转化为对应指定属性特征间的距离,从而获取这两个目标物间关于该指定属性特征的相互关系的向量描述,即第二描述向量。
可以理解的是,对于提取的不同属性特征,其可能具有不同的格式类型,如离散类型或连续类型等。对于不同的指定属性特征,其对应的数据类型可能不同,因此计算方式也不尽相同。本发明实施例对于不同的指定属性特征的类型,对应采用不同的处理流程,因此需要先确定指定属性特征的类型,并按照不同类型分别对应的转换原则,利用第一描述向量得到第二描述向量。。
以上述房产领域为例,分别提取房源i和房源j的一个对应的指定属性特征,如居室,即可得到参数房源i的居室和房源j的居室,再利用其对应替换描述向量中的物品房源i和房源j,得到指定属性特征(居室)间距离的第二描述向量(房源i的居室,房源j的居室,距离dij),于是实现将向量距离转化为居室间的距离。
最后,对于不同的指定属性特征的类型,评估输出模块604对应采用不同的处理流程,根据不同目标物对应的指定属性特征的实际值,计算该不同目标物间相互关系的实际度量值,该实际度量值具体是关于该指定属性特征的实际度量值,并利用该指定属性特征和该实际度量值,确定该不同目标物间实际相互关系的向量表示,也即关于指定属性特征的相互关系的实际度量向量。
其中的实际度量值是不同目标物相应指定属性特征间的相互关系度量值,其可以是事先指定的度量值类别,可通过分别确定不同目标物相对应的相同指定属性特征的实际取值计算得到。如对于房产领域而言,不同目标物取为两处不同的房源,并分别取这两处房源的位置属性或者居室数属性作为指定属性特征,之后分别获取这两处房源的实际位置或者居室数,则可计算这两处不同房源的位置之间的距离值等。来作为该两处不同房源相互关系中关于位置的实际度量值,或者计算这两处不同房源的居室数之间的差值来作为该两处不同房源相互关系中关于居室数的实际度量值等。对于上述房产领域实例,则可得到房源i和房源j的关于居室数的实际度量向量为(房源i的居室,房源j的居室,居室数差Δnij),其中的居室数差Δnij)即为房源i和房源j关于居室数的相互关系实际度量值。
之后,以上述计算得到的目标物间相互关系中关于指定属性特征的第二描述向量以及上述实际度量向量为基础,评估输出模块604进行目标物的指定属性特征的实际度量值与对应向量距离之间相关性关系的判断,若向量距离与目标物实际度量值趋势一致,则说明嵌入向量是合理有效的,且上述相关性越大,对应的目标物嵌入向量质量越高。
本发明实施例提供的嵌入向量评估装置,通过设置相应的执行模块,对不同目标物的嵌入向量进行两两配对计算向量距离,并进一步通过分析目标物特征与该向量距离间的关系来评估嵌入向量,能够有效提高对目标物嵌入向量评估的准确性,并有效增强评估方案的适用性。
可以理解的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的嵌入向量评估装置利用上述各程序模块,能够实现上述各方法实施例的嵌入向量评估流程,在用于实现上述各方法实施例中对嵌入向量的评估时,本发明实施例的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
其中可选的,若指定属性特征类型对应的指定属性特征为离散特征,则第二计算模块还用于:基于离散特征的各离散值分别对应的第二描述向量,计算离散特征间的平均距离,并利用平均距离更新第二描述向量;
相应的,评估输出模块具体用于:
根据实际度量向量与更新后的第二描述向量中相同的指定属性特征维度,确定实际度量向量和更新后的第二描述向量的对应关系;
对于任一对具有对应关系的实际度量向量和更新后的第二描述向量,计算实际度量向量中实际度量值维度与更新后的第二描述向量中平均距离维度之间的皮尔逊相关系数或者卡方值;
基于皮尔逊相关系数或者卡方值,确定实际度量值与离散特征间的平均距离的相关性,相关性越大,则判定嵌入向量的质量越高,反之质量越低;
其中,实际度量值是基于不同目标物分别对应的指定属性特征的实际取值,在指定属性特征间作函数变换计算获取的。
进一步的,评估输出模块还用于:对于两两配对的嵌入向量,以对应的两个目标物中一个目标物的指定属性特征为横坐标,另一个目标物的指定属性特征为纵坐标,并以对应的两个目标物的指定属性特征间的平均距离为方格取值,绘制方格图,以根据方格图展示并定性评估嵌入向量的有效性。
其中可选的,若指定属性特征类型对应的指定属性特征为连续特征,则评估输出模块具体用于:
根据实际度量向量与第二描述向量中相同的指定属性特征维度,确定实际度量向量和第二描述向量的对应关系;
对于任一对具有对应关系的实际度量向量和第二描述向量,计算实际度量向量中实际度量值维度与第二描述向量中向量距离维度之间的皮尔逊相关系数;
基于皮尔逊相关系数,确定实际度量值与向量距离的相关性,相关性越大,则判定嵌入向量的质量越高,反之质量越低;
其中,实际度量值是基于不同目标物分别对应的指定属性特征的实际取值计算获取的。
进一步的,评估输出模块还用于:以实际度量值为横坐标,相关性为纵坐标,绘制指定属性特征形成的折线图,以根据折线图展示并定性评估嵌入向量的有效性。
进一步的,若指定属性特征为多个,则评估输出模块还用于:针对每个目标物,将目标物对应的所有指定属性特征构成一特征向量,并计算不同特征向量之间的距离,作为对应指定属性特征间的实际度量值,构成实际度量向量。
进一步的,第二计算模块还用于:对于根据两两配对的嵌入向量计算得到的离散特征间的距离,按照不同指定属性特征进行聚类,并根据聚类结果,计算获取离散特征对应的平均距离。
作为本发明实施例的又一个方面,本实施例根据上述各实施例提供一种电子设备,该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,该处理器执行该计算机程序时,实现如上述各实施例所述的嵌入向量评估方法的步骤。
进一步的,本发明实施例的电子设备还可以包括通信接口和总线。参考图7,为本发明实施例提供的电子设备的实体结构示意图,包括:至少一个存储器701、至少一个处理器702、通信接口703和总线704。
其中,存储器701、处理器702和通信接口703通过总线704完成相互间的通信,通信接口703用于该电子设备与嵌入向量生成设备之间的信息传输;存储器701中存储有可在处理器702上运行的计算机程序,处理器702执行该计算机程序时,实现如上述各实施例所述的嵌入向量评估方法的步骤。
可以理解为,该电子设备中至少包含存储器701、处理器702、通信接口703和总线704,且存储器701、处理器702和通信接口703通过总线704形成相互间的通信连接,并可完成相互间的通信,如处理器702从存储器701中读取嵌入向量评估方法的程序指令等。另外,通信接口703还可以实现该电子设备与嵌入向量生成设备之间的通信连接,并可完成相互间信息传输,如通过通信接口703实现对待评估目标物嵌入向量的获取等。
电子设备运行时,处理器702调用存储器701中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取分别针对多个目标物生成的多个嵌入向量,并将嵌入向量进行两两配对;并基于向量距离,获取目标物间相互关系的第一描述向量;确定目标物的指定属性特征的类型,并基于类型和第一描述向量,获取目标物间相互关系中关于指定属性特征的第二描述向量;获取目标物间关于指定属性特征的相互关系的实际度量向量,并基于实际度量向量和第二描述向量,对生成的嵌入向量进行质量评估等。
上述的存储器701中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令被计算机执行时,实现如上述各实施例所述的嵌入向量评估方法的步骤,例如包括:获取分别针对多个目标物生成的多个嵌入向量,并将嵌入向量进行两两配对;并基于向量距离,获取目标物间相互关系的第一描述向量;确定目标物的指定属性特征的类型,并基于类型和第一描述向量,获取目标物间相互关系中关于指定属性特征的第二描述向量;获取目标物间关于指定属性特征的相互关系的实际度量向量,并基于实际度量向量和第二描述向量,对生成的嵌入向量进行质量评估等。
本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过执行上述各实施例所述的嵌入向量评估方法的步骤,对不同目标物的嵌入向量进行两两配对计算向量距离,并进一步通过分析目标物特征与该向量距离间的关系来评估嵌入向量,能够有效提高对目标物嵌入向量评估的准确性,并有效增强评估方案的适用性。
可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (10)

1.一种嵌入向量评估方法,其特征在于,包括:
获取分别针对多个目标物生成的多个嵌入向量,并将所述嵌入向量进行两两配对;
针对所有两两配对的嵌入向量,计算嵌入向量间的向量距离,并基于所述向量距离,获取所述目标物间相互关系的第一描述向量;
确定所述目标物的指定属性特征的类型,并基于所述类型和所述第一描述向量,获取所述目标物间相互关系中关于所述指定属性特征的第二描述向量;
获取所述目标物间关于所述指定属性特征的相互关系的实际度量向量,并基于所述实际度量向量和所述第二描述向量,对所述嵌入向量进行质量评估。
2.根据权利要求1所述的嵌入向量评估方法,其特征在于,若所述指定属性特征类型对应的指定属性特征为离散特征,则在所述对所述嵌入向量进行质量评估的步骤之前,还包括:
基于所述离散特征的各离散值分别对应的第二描述向量,计算所述离散特征间的平均距离,并利用所述平均距离更新所述第二描述向量;
相应的,所述对所述嵌入向量进行质量评估的步骤具体包括:根据所述实际度量向量与更新后的第二描述向量中对应相同的指定属性特征维度,确定所述实际度量向量和所述更新后的第二描述向量的对应关系;
对于任一对具有对应关系的实际度量向量和更新后的第二描述向量,计算所述实际度量向量中实际度量值维度与所述更新后的第二描述向量中平均距离维度之间的皮尔逊相关系数或者卡方值;
基于所述皮尔逊相关系数或者卡方值,确定所述实际度量值与所述离散特征间的平均距离的相关性,相关性越大,则判定所述嵌入向量的质量越高,反之质量越低;
其中,所述实际度量值是基于不同目标物分别对应的所述指定属性特征的实际取值,在所述指定属性特征间作函数变换计算获取的。
3.根据权利要求2所述的嵌入向量评估方法,其特征在于,在所述计算所述离散特征间的平均距离的步骤之后,还包括:
对于两两配对的嵌入向量,以对应的两个目标物中一个目标物的指定属性特征为横坐标,另一个目标物的指定属性特征为纵坐标,并以所述对应的两个目标物的指定属性特征间的平均距离为方格取值,绘制方格图,以根据所述方格图展示并定性评估所述嵌入向量的有效性。
4.根据权利要求1所述的嵌入向量评估方法,其特征在于,若所述指定属性特征类型对应的指定属性特征为连续特征,则所述对所述嵌入向量进行质量评估的步骤具体包括:
根据所述实际度量向量与所述第二描述向量中相同的指定属性特征维度,确定所述实际度量向量和所述第二描述向量的对应关系;
对于任一对具有对应关系的实际度量向量和第二描述向量,计算所述实际度量向量中实际度量值维度与所述第二描述向量中向量距离维度之间的皮尔逊相关系数;
基于所述皮尔逊相关系数,确定所述实际度量值与所述向量距离的相关性,相关性越大,则判定所述嵌入向量的质量越高,反之质量越低;
其中,所述实际度量值是基于不同目标物分别对应的所述指定属性特征的实际取值计算获取的。
5.根据权利要求4所述的嵌入向量评估方法,其特征在于,在所述确定所述实际度量值与所述向量距离的相关性的步骤之后,还包括:
以所述实际度量值为横坐标,所述相关性为纵坐标,绘制所述指定属性特征形成的折线图,以根据所述折线图展示并定性评估所述嵌入向量的有效性。
6.根据权利要求2或4所述的嵌入向量评估方法,其特征在于,若所述指定属性特征为多个,则所述获取所述目标物间关于所述指定属性特征的相互关系的实际度量向量的步骤具体包括:
针对每个目标物,将所述目标物对应的所有所述指定属性特征构成一特征向量,并计算不同特征向量之间的距离,作为对应指定属性特征间的所述实际度量值,构成所述实际度量向量。
7.根据权利要求2所述的嵌入向量评估方法,其特征在于,所述计算所述离散特征间的平均距离的步骤具体包括:
对于根据所述两两配对的嵌入向量计算得到的离散特征间的距离,按照不同指定属性特征进行聚类,并根据聚类结果,计算获取所述离散特征对应的平均距离。
8.一种嵌入向量评估装置,其特征在于,包括:
配对模块,用于获取分别针对多个目标物生成的多个嵌入向量,并将所述嵌入向量进行两两配对;
第一计算模块,用于针对所有两两配对的嵌入向量,计算嵌入向量间的向量距离,并基于所述向量距离,获取所述目标物间相互关系的第一描述向量;
第二计算模块,用于确定所述目标物的指定属性特征的类型,并基于所述类型和所述第一描述向量,获取所述目标物间相互关系中关于所述指定属性特征的第二描述向量;
评估输出模块,用于获取所述目标物间关于所述指定属性特征的相互关系的实际度量向量,并基于所述实际度量向量和所述第二描述向量,对所述嵌入向量进行质量评估。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至7中任一项所述的嵌入向量评估方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被计算机执行时,实现如权利要求1至7中任一项所述的嵌入向量评估方法的步骤。
CN202010230848.9A 2020-03-27 2020-03-27 嵌入向量评估方法、装置与电子设备 Active CN111563526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010230848.9A CN111563526B (zh) 2020-03-27 2020-03-27 嵌入向量评估方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010230848.9A CN111563526B (zh) 2020-03-27 2020-03-27 嵌入向量评估方法、装置与电子设备

Publications (2)

Publication Number Publication Date
CN111563526A true CN111563526A (zh) 2020-08-21
CN111563526B CN111563526B (zh) 2022-04-22

Family

ID=72074158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010230848.9A Active CN111563526B (zh) 2020-03-27 2020-03-27 嵌入向量评估方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN111563526B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423356A (zh) * 2017-05-31 2017-12-01 北京京东尚科信息技术有限公司 评价信息的处理方法及装置、计算机可读介质、电子设备
CN108985806A (zh) * 2017-05-31 2018-12-11 北京京东尚科信息技术有限公司 用于选择商品属性的方法和装置
CN109800822A (zh) * 2019-01-31 2019-05-24 北京卡路里信息技术有限公司 相似课程的确定方法、装置、设备和存储介质
CN110264343A (zh) * 2019-06-21 2019-09-20 山东浪潮商用***有限公司 一种基于税务大数据分析的信用评估方法
US20190340176A1 (en) * 2015-01-30 2019-11-07 NEC Laboratories Europe GmbH System and method for data mining and similarity estimation
CN110910209A (zh) * 2019-11-12 2020-03-24 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190340176A1 (en) * 2015-01-30 2019-11-07 NEC Laboratories Europe GmbH System and method for data mining and similarity estimation
CN107423356A (zh) * 2017-05-31 2017-12-01 北京京东尚科信息技术有限公司 评价信息的处理方法及装置、计算机可读介质、电子设备
CN108985806A (zh) * 2017-05-31 2018-12-11 北京京东尚科信息技术有限公司 用于选择商品属性的方法和装置
CN109800822A (zh) * 2019-01-31 2019-05-24 北京卡路里信息技术有限公司 相似课程的确定方法、装置、设备和存储介质
CN110264343A (zh) * 2019-06-21 2019-09-20 山东浪潮商用***有限公司 一种基于税务大数据分析的信用评估方法
CN110910209A (zh) * 2019-11-12 2020-03-24 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
CN111563526B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
Nishikawa et al. Concrete crack detection by multiple sequential image filtering
KR20190014211A (ko) 유사도 점수에 기초하여 결정된 거래사례 부동산을 이용한 부동산 시세 추정 시스템 및 방법
CN110119540B (zh) 一种用于生存风险分析的多输出梯度提升树建模方法
CN110991553A (zh) Bim模型对比方法
CN110866527A (zh) 一种图像分割方法、装置、电子设备及可读存储介质
CN107958068A (zh) 一种基于实体知识库的语言模型平滑方法
CN117131348B (zh) 基于差分卷积特征的数据质量分析方法及***
KR20150112832A (ko) 산출 프로그램, 산출 장치 및 산출 방법
CN114298299A (zh) 基于课程学习的模型训练方法、装置、设备及存储介质
CN111563526B (zh) 嵌入向量评估方法、装置与电子设备
CN110555853B (zh) 基于解剖学先验的分割算法评估的方法和装置
CN116977271A (zh) 缺陷检测方法、模型训练方法、装置及电子设备
CN116664265A (zh) 一种数据处理的方法、装置、电子设备及存储介质
CN111353525A (zh) 一种不均衡不完整数据集的建模及缺失值填补方法
Wang et al. Intelligent weight generation algorithm based on binary isolation tree
CN115114851A (zh) 基于五折交叉验证的评分卡建模方法及装置
CN114282657A (zh) 一种市场数据长期预测模型训练方法、装置、设备及存储介质
CN114970114A (zh) 一种基于增强现实的虚拟仿真模型动态优化方法及***
CN114722211A (zh) 网络优化知识图谱的质量评估方法、装置及电子设备
CN108960862B (zh) 虚假制造云服务识别方法
JP2014206382A (ja) 目標類識別装置
CN111984812A (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备
CN112016956A (zh) 基于bp神经网络的矿石品位估值方法及装置
CN116824305B (zh) 应用于云计算的生态环境监测数据处理方法及***
Omay et al. A Unit Root Test with Markov Switching Deterministic Components: A Special Emphasis on Nonlinear Optimization Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201029

Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 300 457 days Unit 5, Room 1, 112, Room 1, Office Building C, Nangang Industrial Zone, Binhai New Area Economic and Technological Development Zone, Tianjin

Applicant before: BEIKE TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant