CN112106067B

CN112106067B - 一种用于用户分析的***和方法

Info

Publication number: CN112106067B
Application number: CN201880092679.8A
Authority: CN
Inventors: 刘跃翔; 李奘; 曹利锋; 常智华; 凌宏博; 徐翔
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2024-07-02
Anticipated expiration: 2038-05-18
Also published as: CN112106067A; US20210034493A1; WO2019218334A1; US10990500B2

Abstract

提供了一种用于用户分析的***和方法。该方法可以包括获取至少两个正样本的至少两个第一特征向量和至少两个负样本的至少两个第二特征向量，并且基于所述至少两个第一特征向量和第二特征向量以及扩充第二特征向量生成至少两个扩充第一特征向量。每个第一特征向量可以包括描述相应的正样本的至少两个特征的第一特征信息。每个第二特征向量可以包括描述相应的正样本的至少两个特征的第二特征信息。该方法还可以包括基于训练的二元模型确定至少两个特征中的与至少两个正样本相关的一个或以上核心特征，这是通过使用至少两个扩充第一特征向量和扩充第二特征向量生成的。

Description

一种用于用户分析的***和方法

技术领域

本申请一般涉及用户分析，更具体地，涉及用于挖掘用户的特征并生成用户的虚拟简档的***和方法。

背景技术

在互联网技术中，用户特征挖掘通常是服务***开发和运行的关键。通过用户特征挖掘，可以识别和量化各种用户类型的特征，从而为用户分类、个性化服务和营销提供基础。仅作为示例，可以确定服务***中至少两个活动用户的核心特征，并且这样的核心特征可以用于识别具有与活动用户类似的特征的潜在活动用户。因此，可以对所识别的潜在活动用户采用活动营销策略。因此，期望提供用于挖掘用户特征的有效***和方法。

发明内容

根据本申请的一个方面，提供了一个***。该***可以包括至少一个存储介质和至少一个与该至少一个存储介质通信的处理器。存储介质可以包括用于用户挖掘的一组指令。当执行该组指令时，可以指示所述至少一个处理器获取至少两个正样本的至少两个第一特征向量和至少两个负样本的至少两个第二特征向量。每个第一特征向量可以包括描述至少两个正样本中相应的正样本的至少两个特征的第一特征信息。每个第二特征向量可以包括描述至少两个负样本中相应的负样本的至少两个特征的第二特征信息。所述至少一个处理器还可以用于基于至少两个第一特征向量和至少两个第二特征向量来生成至少两个扩充第一特征向量和至少两个扩充第二特征向量。至少一个处理器还可以用于在至少两个特征中，基于训练后的二元模型确定与至少两个正样本相关的一个或以上核心特征，训练后的二元模型通过使用至少两个扩充第一特征向量和至少两个扩充第二特征向量生成。

在一些实施例中，为了获取至少两个正样本的至少两个第一特征向量，所述至少一个处理器可以用于获取与一个或以上目标特征相关的一个或以上选择标准，并获取至少两个样本的一个或以上目标特征的第三特征信息。所述至少一个处理器可以进一步用于基于所述第三特征信息和所述一个或以上选择标准选择来自所述至少两个样本中所述至少两个正样本。

在一些实施例中，为了获取至少两个负样本的至少两个第二特征向量，可以指示至少一个处理器在至少两个样本中选择至少两个初始负样本。所述至少一个处理器还可以用于获取至少两个初始负样本的一个或以上目标特征的第四特征信息。所述至少一个处理器还可以用于基于所述第四特征信息和所述一个或以上选择标准在至少两个初始负样本中选择至少两个负样本。

在一些实施例中，为了确定至少两个扩充第一特征向量和至少两个扩充第二特征向量，所述至少一个处理器可以用于确定第一特征向量中的每一对第一特征向量之间的第一向量差，并将第一特征向量中的每一对第一特征向量之间的第一向量差指定为扩充第一特征向量之一。所述至少一个处理器还可以进一步用于确定第一特征向量和第二特征向量中的每一对之间的第二向量差，并将第一特征向量和第二特征向量中的每一对之间的第二向量差为指定扩充第二特征向量之一。

在一些实施例中，为了确定至少两个充满第一特征向量和至少两个第二特征向量，至少一个处理器可以用于标准化至少两个第一特征向量和至少两个第二特征向量。该至少一个处理器可以基于至少两个标准化的第一特征向量和至少两个标准化的第二特征向量进一步用于确定至少两个扩充第一特征向量和至少两个扩充第二特征向量。

在一些实施例中，为了确定与至少两个正样本相关的一个或以上核心特征，可以指示至少一个处理器基于训练后的二元模型确定至少两个特征的至少两个权重。该至少一个处理器还可以用于根据相应的权重对至少两个特征进行排名。至少一个处理器还可以用于基于排序结果确定特征中的一个或以上核心特征。

在一些实施例中，至少一个处理器可以进一步用于基于一个或以上核心特征和至少两个第一特征向量来生成至少两个正样本的虚拟简档。一个或以上核心特征中的每一个可以在虚拟简档中具有相应的第一参考值。

在一些实施例中，为了生成至少两个正样本的虚拟简档，可以指示所述至少一个处理器基于所述至少两个第一特征向量来确定所述一个或以上核心特征中的每一个的平均特征值。可以指示至少一个处理器将平均特征值指定为虚拟简档的相应核心特征的第一参考值。

在一些实施例中，为了生成至少两个正样本的虚拟简档，可以指示所述至少一个处理器基于所述至少两个第二特征向量来确定所述一个或以上核心特征中的每一个的第二参考值。所述至少一个处理器还可以用于基于所述一个或以上核心特征中的每一个的第二参考值过滤所述至少两个第一特征向量。所述至少一个处理器还可以被引导使用所述经过滤的第一特征向量来生成所述至少两个正样本的虚拟简档。

在一些实施例中，所述至少一个处理器可以进一步用于获取至少两个样本的一个或以上核心特征的第五特征信息，并基于正样本和第五特征信息的虚拟简档在至少两个样本中识别至少两个目标样本。

根据本申请的一个方面，提供了一个方法。该方法可以在具有至少一个处理器，至少一个计算机可读存储介质和连接到网络的通信平台的计算设备上实现。该方法可以包括获取至少两个正样本的至少两个第一特征向量和至少两个负样本的至少两个第二特征向量。每个第一特征向量可以包括描述至少两个正样本中相应的正样本的至少两个特征的第一特征信息。每个第二特征向量可以包括描述至少两个负样本中相应的负样本的至少两个特征的第二特征信息。该方法还可以包括基于至少两个第一特征向量和至少两个第二特征向量生成至少两个扩充第一特征向量和至少两个扩充第二特征向量。该方法还可以包括基于训练后的二元模型确定至少两个特征中的与至少两个正样本相关的一个或以上核心特征，训练后的二元模型通过使用至少两个扩充第一特征向量和至少两个扩充第二特征向量生成。

在本申请的另一方面，提供了一种体现计算机程序产品的非暂时性计算机可读介质。包含指令的计算机程序产品可以被配置用于使计算设备获取至少两个正样本和至少两个负样本的至少两个第二特征向量。每个第一特征向量可以包括描述至少两个正样本中相应的正样本的至少两个特征的第一特征信息。每个第二特征向量可以包括描述至少两个负样本中相应的负样本的至少两个特征的第二特征信息。包含指令的计算机程序产品可以进一步被配置为使计算设备基于至少两个第一特征向量和至少两个第二特征向量生成至少两个扩充第一特征向量和至少两个扩充第二特征向量。包括指令的计算机程序产品可以进一步被配置用于使计算设备基于训练后的二元模型确定至少两个特征中与至少两个正样本相关的一个或以上核心特征，训练后的二元模型通过使用至少两个扩充第一特征向量和至少两个扩充第二特征向量生成。

本申请的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的研究或者对实施例的生产或操作的了解，本申请的一部分附加特性对于本领域技术人员是明显的。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。

附图说明

本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。这些实施例是非限制性的示例性实施例，在这些实施例中，各图中相同的编号表示相似的结构，其中：

图1是根据本申请的一些实施例所示的示例性线上到线下(O2O)服务***的示意图；

图2是根据本申请的一些实施例所示的计算设备的示例性硬件和软件组件的示意图；

图3是根据本申请的一些实施例所示可在其上实现终端的移动设备的示例性硬件和/或软件组件的示意图；

图4是根据本申请的一些实施例所示的示例性处理引擎的框图；

图5是根据本申请的一些实施例所示的用于生成用户的虚拟简档的示例性过程的流程图；

图6是根据本申请的一些实施例所示确定扩充第一特征向量和扩充第二特征向量的示例性过程的流程图；和

图7是根据本申请的一些实施例所示的用于生成用户的虚拟简档的示例性过程的流程图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。然而，本领域技术人员应该明白，可以在没有这些细节的情况下实施本申请。在其他情况下，为了避免不必要地模糊本申请的一些方面，本申请已经以相对高级别概略地描述了公知的方法、程序、***、组件和/或电路。对于本领域的普通技术人员来讲，显然可以对所披露的实施例作出各种改变，并且在不偏离本申请的原则和范围的情况下，本申请中所定义的普遍原则可以适用于其他实施例和应用场景。因此，本申请不限于所示的实施例，而是符合与申请专利范围一致的最广泛范围。

本申请中所使用的术语仅用于描述特定的示例性实施例，并不限制本申请的范围。如本申请使用的单数形式“一”、“一个”及“该”可以同样包括复数形式，除非上下文明确提示例外情形。还应当理解，如在本申请说明书中，术语“包括”、“包含”仅提示存在所述特征、整体、步骤、操作、组件和/或部件，但并不排除存在或添加一个或以上其他特征、整体、步骤、操作、组件、部件和/或其组合的情况。

应当理解，这里使用的术语“***”、“引擎”、“单元”、“模块”和/或“块”是一种区分升级中不同层次的不同元件、元素、部分、部分或组件的方法。但是，如果这些术语达到同样的目的，则可能会被另一个术语所取代。

通常，这里使用的词语“模块”、“单元”或“块”是指体现在硬件或固件中的逻辑，或者是软件指令的集合。本文描述的模块，单元或块可以实现为软件和/或硬件，并且可以存储在任何类型的非暂时性计算机可读介质或其他存储设备中。在一些实施例中，可以编译软件模块/单元/块并将其链接到可执行程序中。应当理解，软件模块可以从其他模块/单元/块或从它们自身调用，和/或可以响应检测到的事件或中断来调用。配置用于在计算设备上执行的软件模块/单元/块可以在计算机可读介质上提供，例如光盘、数字视频光盘、闪存驱动器、磁盘或任何其他有形介质，或数字下载(并且最初可以以压缩或可安装的格式存储，在执行之前需要安装、解压缩或解密)。这里的软件代码可以被部分的或全部的储存在执行操作的计算设备的存储设备中，并应用在计算设备的操作之中。软件指令可以嵌入固件中，例如可擦除可编程只读存储器(EPROM)。还应当理解，硬件模块/单元/块可以包括在连接的逻辑组件中，例如门和触发器，和/或可以包括可编程单元，例如可编程门阵列或处理器。这里描述的模块/单元/块或计算设备功能可以实现为软件模块/单元/块，但是可以用硬件或固件表示。通常，这里描述的模块/单元/块指的是逻辑模块/单元/块，其可以与其他模块/单元/块组合或者分成子模块/子单元/子块，尽管它们的物理组织或存储。该描述可适用于***，引擎或其一部分。

应当理解，当单元、引擎、模块或块被称为“连接”、“连接到”或“耦合到”另一个单元、引擎、模块或块时，除非上下文另有明确说明，否则它可以直接在其他单元、引擎、模块或块上，连接或耦合到或与其通信，或者可以存在中间单元、引擎、模块或块。在本申请中，术语“和/或”可包括任何一个或以上相关所列条目或其组合。

根据以下对附图的描述，本申请的这些和其他的特征、特点以及相关结构元件的功能和操作方法，以及部件组合和制造经济性，可以变得更加显而易见，这些附图都构成本申请说明书的一部分。然而，应当理解的是，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例绘制的。

本申请中使用了流程图用来说明根据本申请的一些实施例的***所执行的操作。应当理解的是，流程图中的操作可以不按顺序执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将一个或以上其他操作添加到这些流程图中。也可以从流程图中删除一个或以上操作。

本申请的实施例可以应用于不同的运输***，该不同的运输***包括但不限于陆地、海洋、航空、航天等或其任意组合。所述运输***的车辆可以包括人力车、代步工具、出租车、专车、顺风车、公共汽车、轨道交通(例如，火车、动车、高铁、地铁)、船舶、飞机、飞船、热气球、无人驾驶车辆等或其任意组合。该运输***还可包括应用管理和/或分配的任何运输***，例如可以包括用于发送和/或接收快递的***。

本申请的不同实施例应用场景包括但不限于网页、浏览器插件、客户端、定制***、企业内部分析***、人工智能机器人等中的一种或几种的组合。应当理解，本文披露的***和方法的应用场景仅是一些示例或实施例。具有普通技能的本领域，没有进一步的创造性努力，可以将这些图纸应用于其他应用场景。例如，其他类似的服务器。

本申请中的术语“乘客”、“请求者”、“服务请求者”和“客户”可用于表示请求或订购服务的个人、实体或工具，并且可互换使用。同样地，本申请描述的“司机”、“提供者”、“服务提供者”与“供应者”是可以互换的，是指提供服务或者协助提供服务的个人、实体或工具。本申请中的词语“用户”可以指代可以请求服务、订购服务、提供服务或促进提供服务的个体、实体或工具。例如，用户可以是请求者、乘客、司机、操作员等，或其任何组合。在本申请中，“请求者”和“请求者终端”可以互换使用，“提供者”和“提供者终端”可以互换使用。

本申请中的术语“请求”、“服务”、“服务请求”和“订单”可用于表示由乘客、请求者、服务请求者、顾客、司机、提供者、服务提供者、供应者等或其任意组合发起的请求，并且可互换使用。该服务请求可被乘客、请求者、服务请求者、顾客、司机、提供者、服务提供者或者供应者接受。服务请求可以是计费的也可是免费的。

本申请涉及用于识别正样本的核心特征并生成正样本的虚拟简档的***和方法。正样本可以包括任何待分析的样本，其可以用一个或以上目标特征的某些值来识别。例如，正样本可以是其已经频繁地(例如，在预定时间段内超过某个数量)请求的至少两个服务请求者。该***和方法可以获取正样本的至少两个第一特征向量和至少两个负样本的至少两个第二特征向量。负样本可以包括除正样本之外的至少两个样本，其可以用作正样本的参考样本。在一些实施例中，为了扩大样本尺寸以识别正样本的核心特征，该***和方法可以基于第一和第二特征向量生成至少两个扩充第一特征向量和至少两个扩充第二特征向量。扩充第一特征向量和扩充第二特征向量可用于生成训练后的二元模型。该***和方法可以进一步基于训练后的二元模型确定正样本的核心特征，并且还基于第一特征向量确定正样本的每个核心特征的参考值。核心特征连同相应的参考值可以形成正样本的虚拟简档。正样本的虚拟简档还可以用于用户开发、用户分类、个性化服务和营销等。

图1是根据本申请的一些实施例所示的示例性O2O服务***100的框图。例如，O2O服务***100可以是用于运输服务的在线运输服务平台。O2O服务***100可以包括服务器110、网络120、请求者终端130、提供者终端140、车辆150、存储设备160和导航***170。

O2O服务***100可以提供至少两个服务。示例性的服务可以包括出租车呼叫服务、代驾服务、快车服务、拼车服务、公交车服务、司机租赁服务和班车服务。在一些实施例中，O2O服务可以是任何在线服务，例如预订餐、购物等，或其任何组合。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。所述服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式的***)。在一些实施例中，服务器110可以是本地的，也可以是远程的。例如，服务器110可以经由网络120访问存储在请求者终端130、提供者终端140和/或存储设备160中的信息和/或数据。又例如，服务器110可以直接连接到请求者终端130、提供者终端140和/或存储设备160以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实施。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中，服务器110可以在本申请中的图2描述的包含了一个或以上组件的计算设备200上执行。

在一些实施例中，服务器110可以包括处理引擎112。处理引擎112可以处理与服务请求相关的信息和/或数据以执行本申请描述的一个或以上功能。例如，处理引擎112可以分析至少两个服务请求者的特征信息，以确定服务请求者的一个或以上核心特征。在一些实施例中，所述处理引擎112可包括一个或以上处理引擎(例如，单芯片处理引擎或多芯片处理引擎)。仅作为范例，处理引擎112可包括一中央处理器(CPU)、特定应用集成电路(ASIC)、特定应用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理单元

(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或其任意组合。

网络120可以促进信息和/或数据的交换。在一些实施例中，O2O服务***100的一个或以上组件(例如，服务器110、请求者终端130、提供者终端140、车辆150、存储设备160和导航***170)可以经由网络120将信息和/或数据发送到O2O服务***100的其他组件。例如，服务器110可以通过网络120从请求者终端130接收服务请求。在一些实施例中，网络120可以为任意形式的有线或无线网络，或其任意组合。仅作为示例，网络120可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络等或其任意组合。在一些实施例中，网络120可以包括一个或以上网络接入点。例如，网络120可以包括有线或无线网络接入点，如基站和/或互联网交换点120-1、120-2、…，通过O2O服务***100的一个或以上部件可以连接到网络120以交换数据和/或信息。

在一些实施例中，乘客可以是请求者终端130的所有者。在一些实施例中，请求者终端130的所有者可以是除乘客之外的其他人。例如，请求者终端130的所有者A可以使用请求者终端130来发送针对乘客B的服务请求或者从服务器110接收服务确认和/或信息或指令。在一些实施例中，服务提供者可以是提供者终端140的用户。在一些实施例中，提供者终端140的用户可以为除该服务提供者之外的其他人。例如，提供者终端140的使用者C可以使用提供者终端140为服务提供者D接收服务请求，和/或来自服务器110的信息或指令。在一些实施例中，“乘客”和“乘客终端”可以交换使用，“服务提供者”和“提供者终端”可以交换使用。在一些实施例中，提供者终端可以与一个或以上服务提供者(例如，夜班服务提供者、或白班服务提供者)相关联。

在一些实施例中，请求者终端130可以包括移动设备130-1、平板计算机130-2、膝上型计算机130-3、车载设备130-4等或其任意组合。在一些实施例中，移动设备130-1可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器控制设备、智能监控设备、智能电视、智能摄像机、对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能服装、智能背包、智能配件等，或其任何组合。在一些实施例中，智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等或上述举例的任意组合。例如，虚拟现实设备和/或增强现实设备可以包括Google眼镜、Oculus Rift、HoloLens、Gear VR等。在一些实施例中，车载设备130-4可以包括车载计算机、车载电视等。在一些实施例中，请求者终端130可以是具有用来确定乘客和/或请求者终端130位置的定位技术的设备。

提供者终端140可以包括至少两个提供者终端140-1、140-2、...、140-n。在一些实施例中，提供者终端140可以是与请求者终端130相似，或与请求者终端130相同的设备。在一些实施例中，可以定制提供者终端140以能够实现按需运输服务100。在一些实施例中，提供者终端140可以是具有定位技术的设备，用于定位服务提供者、提供者终端140和/或与提供者终端140相关联的车辆150。在一些实施例中，请求者终端130和/或提供者终端140可以与另一个定位设备通信以确定乘客、请求者终端130、服务提供者和/或提供者终端140的位置。在一些实施例中，请求者终端130和/或提供者终端140可以周期性地将定位信息发送到服务器110。在一些实施例中，提供者终端140还可以周期性地将可用性状态发送到服务器110。该可用性状态可以表明与提供者终端140相关的车辆150是否可以接载乘客。例如，请求者终端130和/或提供者终端140可以每30分钟将定位信息和可用性状态发送到服务器110。又例如，每当用户登录到与按需运输服务100相关联的移动应用程序时，请求者终端130和/或提供者终端140可以将定位信息和可用性状态发送到服务器110。

在一些实施例中，提供者终端140可以对应于一个或以上的车辆150。车辆150可以接载乘客并送至目的地。车辆150可以包括至少两个车辆150-1、150-2、……、150-n。一种车辆可以对应于一种类型的服务(例如，出租车服务、司机服务、快车服务、拼车服务、公共汽车服务、司机租用服务或班车服务)。

存储设备160可以存储数据和/或指令。在一些实施例中，存储设备160可以存储从请求者终端130和/或提供者终端140获取的数据。在一些实施例中，存储设备160可以存储服务器110用来执行或使用来完成本申请中描述的示例性方法的数据和/或指令。在一些实施例中，存储设备160可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等，或其任何组合。示例性大容量存储器可包括磁盘、光盘、固态驱动器等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。示例性易失性读写存储器可以包括随机存取存储器(RAM)。示例性RAM可包括动态随机存取存储器(DRAM)、双倍数据速率同步动态随机存取存储器(DDR SDRAM)、静态随机存取存储器(SRAM)、晶闸管随机存取存储器(T-RAM)和零电容随机存取存储器(Z-RAM)等。示例性只读存储器可以包括掩模型只读存储器(MROM)、可编程只读存储器

(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)和数字多功能磁盘只读存储器等。在一些实施例中，所述存储设备160可在云端平台上执行。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储设备160可以连接到网络120以与O2O服务***100的一个或以上组件(例如，服务器110、请求者终端130或提供者终端140)通信。O2O服务***100的一个或以上组件可以经由网络120访问存储设备160中存储的数据或指令。在一些实施例中，存储设备160可以直接连接到O2O服务***100的一个或以上组件(例如，服务器110、请求者终端130、提供者终端140)或与之通信。在一些实施例中，存储设备160可以是服务器110的一部分。

导航***170可以确定与对象，例如，请求者终端130、提供者终端140、车辆150等的一个或以上相关联的信息。在一些实施例中，导航***170可以是全球定位***(GPS)、全球导航卫星***(GLONASS)、罗盘导航***(COMPASS)、北斗导航卫星***、伽利略定位***、准天顶卫星***(QZSS)等。该信息可以包括对象的位置、高度、速度或加速度，或当前时间。导航***170可以包括一个或以上卫星，例如，卫星170-1、卫星170-2和卫星170-3。卫星170-1至170-3可以独立地或共同地确定上述信息。卫星导航***170可以经由无线连接将上述信息发送到网络120、请求者终端130、提供者终端140或车辆150。

在一些实施例中，O2O服务***100的一个或以上组件(例如，服务器110、请求者终端130、提供者终端140)可以具有访问存储设备160的许可。在一些实施例中，当满足一个或以上条件时，O2O服务***100的一个或以上组件可以读取和/或修改与乘客、服务提供者和/或公众有关的信息。例如，一个服务结束后，服务器110可以读取和/或修改一个或以上乘客的信息。又例如，一个服务结束后，服务器110可以读取和/或修改一个或以上服务提供者的信息。

本领域中一个普通技术人员将理解，当O2O服务***100的元件(或组件)执行时，该元件可以通过电信号和/或电磁信号执行。例如，当请求者终端130向服务器110发送服务请求时，请求者终端130的处理器可以生成一个编码请求的电信号。然后，请求者终端130的处理器可以将电信号发送到输出端口。若请求者终端130经由有线网络与服务器110通讯，则输出端口可物理连接至电缆，其进一步将电信号传输给服务器110的输入端口。如果请求者终端130经由无线网络与服务器110通信，请求者终端130的输出端口可以是一个或以上天线，其将电信号转换为电磁信号。类似地，提供者终端130可以通过电信号或者电磁信号从服务器110接收指令和/或服务请求。在例如请求者终端130、提供者终端140和/或服务器110的电子设备中，当该电子设备的处理器处理指令时，处理器发送指令和/或执行动作，该指令和/或动作经由电信号传导。例如，当处理器从存储介质检索或获取数据时，可以将电信号发送给存储介质的读/写设备，该读/写设备可读取存储介质中的结构化数据或将结构化数据写入存储介质中。该结构数据可以通过电子设备的总线，以电信号的形式传输至处理器。此处，电信号可以指一个电信号、一系列电信号和/或至少两个不连续的电信号。

图2是根据本申请的一些实施例所示的示例性计算设备的示意图。计算设备可以是计算机，例如图1中的服务器110和/或具有特定功能的计算机，被配置用于实现根据本申请的一些实施例的任何特定***。计算设备200可以被配置用于实现执行本申请中披露的一个或以上功能的任何组件。例如，服务器110可以用计算设备200之类的计算机的硬件设备、软件程序、固件或其任何组合来实现。为简洁起见，图2仅描绘了一个计算设备。在一些实施例中，计算设备的功能，提供推荐上车位置可能需要的功能，可以由分布式模式中的一组类似平台来实现，以分散***的处理负荷。

计算设备200可以包括通信终端250，其可以与可以实现数据通信的网络连接。计算设备200还可以包括处理器220，其被配置为执行指令并包括一个或以上处理器。示意性计算机平台可包括内部通信总线210、不同类型的程序存储单元和数据存储单元(例如，硬盘270、只读存储器(ROM)230、随机存取存储器(RAM)240)，适用于计算机处理和/或通信的各种数据文件，以及可能由处理器220执行的一些程序指令。计算设备200还可以包括I/O设备260，其可以支持计算设备200与其他组件之间的数据流的输入和输出。此外，计算设备200可以通过通信网络接收程序和数据。

图3是根据本申请的一些实施例所示可在其上实现终端的示例性移动设备的示例性硬件和/或软件组件的示意图。如图3所示，移动设备300可以包括通信平台310、显示器320、图形处理单元(GPU)330、中央处理单元(CPU)340、I/O 350、内存360、移动操作***(OS)370、存储器390。在一些实施例中，任何其他合适的组件，包括但不限于***总线或控制器(未示出)，也可包括在移动设备300内。

在一些实施例中，操作***370(例如，iOS^TM、Android^TM、Windows Phone^TM等)和一个或以上应用程序380可从存储器390下载至内存360以及由CPU 340执行。应用程序380可以包括浏览器或任何其他合适的移动应用程序，用于从O2O服务***100接收和呈现与图像处理或其他信息有关的信息。用户与信息流的交互可以通过I/O 350实现，并提供给请求者终端130、服务器105和/或O2O服务***100的其他组件。在一些实施例中，移动设备300可以是与请求者终端130或提供者终端140相对应的示例性实施例。

为了实施本申请描述的各种模块、单元及其功能，计算机硬件平台可用作本文中描述的一个或以上组件的硬件平台。具有用户接口组件的计算机可用于实施个人计算机(PC)或任何其他类型的工作站或终端设备。如果适当编程，计算机也可以充当***。

图4是根据本申请的一些实施例所示的示例性处理引擎的框图。处理引擎112可包括获取模块401、确定模块402、训练模块403和生成模块404。这些模块可以是处理引擎112的全部或部分的硬件电路。这些模块也可以作为一个应用程序或一组由处理引擎112读取和执行的指令实现。此外，模块可以是硬件电路和应用/指令的任何组合。例如，当处理引擎执行应用程序/一组指令时，模块可以是处理引擎112的一部分。

获取模块401可以被配置为获取与O2O服务***100的一个或以上组件有关的信息。例如，获取模块401可以获取样本，例如，O2O服务***100的用户的特征向量。特征向量可以包括描述样本的至少两个特征的特征信息。又例如，获取模块401可以获取与样本的一个或以上某些特征相关的特征信息。在一些实施例中，获取模块401可以获取至少两个正样本的至少两个第一特征向量和至少两个负样本的至少两个第二特征向量。在一些实施例中，获取模块401可以从O2O服务***100中的一个或以上组件获取信息(例如，样本的特征向量或特征信息)，例如，诸如存储设备(例如，存储设备160)，或者一个或以上用户终端(例如，服务请求者终端130、服务提供者终端140)。附加地或替代地，获取模块401可以经由网络120从外部源获取信息。例如，获取模块401可以从例如但不限于一个或以上社交网站和/或用户简档数据库获取与样本相关的特征信息。

确定模块402可以被配置用于基于正样本的第一特征向量和负样本的第二特征向量来确定至少两个扩充第一特征向量和至少两个扩充第二特征向量。在一些实施例中，扩充第一特征向量可以是一对第一特征向量之间的向量差，并且扩充第二特征向量可以是一对第一特征向量和第二特征向量之间的向量差。关于确定扩充第一和第二特征向量的更多描述可以在本申请的其他地方找到。参见例如图6及其相关描述。

在一些实施例中，确定模块402可以进一步被配置用于从至少两个样本中选择正样本和/或负样本。例如，确定模块402可以基于与每个样本的目标特征相关的一个或以上目标特征和特征信息相关的一个或以上选择标准从样本中选择正样本。在一些实施例中，确定模块402可以基于训练后的二元模型确定正样本的一个或以上核心特征。可以使用(扩充)第一特征向量和(扩充)第二特征向量来生成训练后的二元模型。关于确定正样本的核心特征的细节可以在本申请的其他地方找到。例如参见图5中的操作540及其相关描述。

训练模块403可以被配置为训练模型。例如，训练模块404可以通过使用(扩充)第一特征向量和(扩充)第二特征向量训练初始二元模型来生成训练后的二元模型。受过训练后的二元模型可用于识别正样本的核心特征。关于训练后的二元模型的生成的细节可以在本申请的其他地方找到。例如，参见(例如，图5中的操作540及其相关描述)。

生成模块404可以被配置用于生成正样本的虚拟简档。虚拟简档可以包括对应于正样本的一个或以上核心特征的一个或以上第一参考值。在一些实施例中，生成模块404可以基于正样本的第一特征向量中的核心特征的特征值来确定核心特征的第一参考值。在一些实施例中，生成模块404可以基于选定的一组正样本生成虚拟简档。例如，生成模块404可以从正样本移除一个或以上异常值，然后基于剩余的正样本生成虚拟简档。关于虚拟简档的生成的更多描述可以在本申请的其他地方找到。参见例如图5中的操作550及其相关描述。

应当注意以上对处理引擎112的描述是出于说明的目的而提供的，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的变化和修改。然而，这些变化和修改不会背离本申请的范围。在一些实施例中，上述任何模块可以分为两个或以上单元。例如，确定模块402可以被分成两个单元，其中一个被配置用于确定扩充第一和第二特征向量，另一个被配置用于确定正样本的核心特征。在一些实施例中，处理引擎112还可包括一个或以上附加模块。例如，处理引擎112还可以包括存储模块(图4中未示出)，其被配置用于存储由处理引擎112的模块生成的数据。

图5是根据本申请的一些实施例所示的用于生成用户的虚拟简档的示例性过程的流程图。过程500的至少一部分可以在如图2所示的计算设备200或如图3所示的移动设备300上实现。在一些实施例中，过程500的一个或以上操作可以在O2O服务***100中实现，如图1所示。在一些实施例中，过程500中的一个或以上操作可以作为指令的形式存储在存储设备160和/或存储器(例如，ROM 230、RAM 240等)中，并且由服务器110(例如，服务器110中的处理引擎112、或服务器110中的处理引擎112的处理器220)调用和/或执行。在一些实施例中，指令可以以电子电流或电信号的形式传输。

在510中，处理引擎112(例如，获取模块401)可以获取至少两个正样本的至少两个第一特征向量。每个第一特征向量可以包括描述至少两个正样本中相应的正样本的至少两个特征的第一特征信息。

正样本可以包括一组待分析的样本。例如，正样本可以包括O2O服务***100中的O2O服务(例如，出租车服务、司机服务、快车服务、拼车服务、公共汽车服务、司机租用服务、班车服务、外卖服务等)的许多核心服务请求者。又例如，正样本可以包括在O2O服务***100中具有良好性能的多个服务提供者(例如，其性能分数超过阈值的服务提供者)。在一些实施例中，这样的正样本可以用一个或以上目标特征的某些值来识别(例如，在预定时间段内完成的行程的数量大于阈值)。在一些实施例中，可以分析正样本以识别正样本的一个或以上核心特征，并且可选地生成相应的虚拟简档。这里，O2O服务***用作示例以说明如何实现本发明。

在一些实施例中，正样本可以由O2O服务***100的用户提供。仅作为示例，用户可以经由用户终端(例如，请求者终端130、提供者终端140)在至少两个样本中输入正样本的列表或者选择正样本。

在一些实施例中，正样本可以由处理引擎112(例如，确定模块402)自动地或手动地从至少两个样本(例如所有样本、在固定的时间段内的样本、在地理区域内的样本等)中选择。可以根据与一个或以上目标特征相关的一个或以上选择标准来执行正样本的选择。目标特征可以是用于将正样本与至少两个样本区分开的特征。例如，历史服务订单的数量可以是目标特征，其可以区分核心服务请求者与O2O服务***100的所有服务请求者。在一些实施例中，核心服务请求者指的是经常请求O2O服务***100中提供的O2O服务的服务请求者，例如，他们在预定时间段内发出了超过一定数量的请求。又例如，投诉数量和/或饮酒历史可以是一个目标特征，可以区分表现不良的服务提供者与O2O服务***100的所有服务提供者。与目标特征相关的选择标准可以包括，例如但不限于，阈值和/或目标特征的期望值或范围。仅作为示例，与历史服务订单的数量相关的选择标准可以是“大于10”，并且与饮酒历史相关的选择标准可以是“具有酒后驾车历史”。在一些实施例中，与目标特征相关的一个或以上选择标准可以是存储设备(例如，存储设备160)中存储的默认设置，或者可以由O2O服务***100的用户经由终端设置。在一些实施例中，一个或以上选择标准可以基于默认设置并且可以由服务***100的用户经由终端调整。

在一些实施例中，为了从至少两个样本中选择正样本，确定模块402可以获取与目标特征相关的一个或以上选择标准，并获取至少两个样本的目标特征的第三特征信息。第三特征信息可以包括例如每个样本的目标特征的特征值。确定模块402还可以基于第三特征信息和选择标准从至少两个样本中选择正样本。例如，对于每个样本，确定模块402可以确定相应的第三特征信息是否满足与目标特征相关的选择标准。响应于确定样本的第三特征信息满足一个或以上选择标准，确定模块402可将样本指定为正样本。

在一些实施例中，正样本的第一特征向量可以包括第一特征信息，例如正样本的至少两个特征的特征值。在第一特征向量中编码的多个特征可以随着不同的场景而变化。以汽车服务平台为例，在一些实施例中，正样本可以是所有乘客或选定的一组乘客，相应的特征可包括，例如但不限于年龄、性别、职业、性格、爱好、教育程度、收入、消费指数、居住地、信用信息、历史服务订单的数量、行驶时间、行驶方式、历史起始位置和目的地等，或其任何组合。在一些实施例中，正样本可以是所有司机或选定的一组司机，并且相应的特征可包括，例如但不限于年龄、性别、职业、性格、爱好、教育程度、收入、居住地、信用信息、饮酒史、工作时间、乘客评估的性能分数、从乘客接收的投诉数量等，或其任何组合。

在一些实施例中，第一特征向量可以表示为具有一列或一行的向量。例如，第一特征向量可以是表示为1×N行列式(例如，1×108行列式)的行向量。在一些实施例中，第一特征向量可以对应于N维坐标系。N维坐标系可以与N个特征相关联。在一些实施例中，处理引擎112可以立即处理一个或以上第一特征向量。例如，第一特征向量m(例如，三行向量)可以被集成到1×mN向量或m×N矩阵中，其中m是整数。

在一些实施例中，获取模块401可以从O2O服务***100中的一个或以上组件，例如，存储设备160(例如，存储设备160)或用户终端(例如，服务请求者终端130、服务提供者终端140)获取第一特征向量。附加地或替代地，获取模块401可以经由网络120从外部源获取第一特征向量的至少一部分。例如，获取模块401可以从例如但不限于一个或以上社交网站和/或用户简档数据库获取第一特征信息的部分或全部。

在520中，处理引擎(例如，获取模块401)可以获取至少两个负样本的至少两个第二特征向量。每个第二特征向量可以包括描述至少两个负样本中的相应负样本的至少两个特征的第二特征信息。

在一些实施例中，正样本和负样本可以选自至少两个样本(例如，所有样本、在固定时间段内的样本、在地理区域中的样本等)。在一些实施例中，负样本可包括除正样本之外的至少两个样本中的任何样本。例如，在选择正样本之后，负样本可以是至少两个样本中的其余样本；或者可以基于一个或以上标准来选择负样本。在一些实施例中，负样本可以在正样本的分析中用作正样本的一组参考样本。仅作为示例，正样本可以包括至少两个活跃用户(例如，在预设时间段内已经请求超过特定次数的用户)，并且负样本可以包括至少两个不活跃用户和/或随机选择的用户。可以分析正样本和负样本的特征向量以识别活跃用户的至少两个核心特征。

如结合510所述，根据与目标特征相关的一个或以上选择标准和样本的目标特征的第三特征信息，可以从至少两个样本中选择正样本。在一些实施例中，处理引擎112(例如，确定模块402)也可以根据第三特征信息和一个或以上选择标准从样本中选择负样本。例如，确定模块402可以选择其第三特征信息不满足一个或以上选择标准的一个或以上样本作为负样本。以年龄为例，如果正样本年龄的选择标准小于50，确定模块402可以选择年龄等于或大于50的样本(例如，用户、司机、乘客等)作为负样本。

在一些实施例中，确定模块402可以从样本中随机选择至少两个初始负样本而不是正样本。初始负样本可以直接指定为负样本，或者在指定之前进一步选择。在一些实施例中，获取模块401可以获取初始负样本的目标特征的第四特征信息；然后，确定模块402可以选择其第四特征信息不满足一个或以上选择标准的一个或以上初始负样本作为负样本。在一些实施例中，负样本的数量可以与正样本的数量相同或不同。

负样本的第二特征向量可以包括第二特征信息，例如负样本的特征的特征值。在一些实施例中，正样本的第一特征向量和负样本的第二特征向量可包括识别正样本的核心特征的相同类型的特征。在一些实施例中，第一特征向量和/或第二特征向量可以分别进一步包括彼此不同的一个或以上特征。

在一些实施例中，获取模块401可以从O2O服务***100中的一个或以上组件，例如，存储设备160(例如，存储设备160)或用户终端(例如，服务请求者终端130、服务提供者终端140)获取第二特征向量。附加地或替代地，获取模块401可以经由网络120从外部源获取第二特征向量的至少一部分。例如，获取模块401可以从例如但不限于一个或以上社交网站和/或用户简档数据库获取第二特征信息的部分或全部。

在530中，处理引擎(例如，确定模块402)可以基于第一特征向量和第二特征向量生成至少两个扩充第一特征向量和至少两个扩充第二特征向量。

在一些实施例中，可以基于正样本的第一特征向量生成扩充第一特征向量。仅作为示例，确定模块402可以确定第一特征向量中的一对第一特征向量之间的第一向量差，并将第一向量差指定为扩充第一特征向量之一。对应于第一特征向量中的一对的扩充第一特征向量可以指示两个第一特征向量之间的特征信息的差异。

在一些实施例中，可以基于正样本的第一特征向量和负样本的第二特征向量来生成扩充第二特征向量。仅作为示例，确定模块402可以确定一对第一特征向量和第二特征向量之间的第二向量差，并将第二向量差指定为扩充第二特征向量之一。对应于一对第一特征向量和第二特征向量的扩充第二特征向量可以指示第一和第二特征向量之间的特征信息的差异。

在一些实施例中，确定模块402可以将第一特征向量和第二特征向量标准化，然后基于标准化的第一特征向量和标准化的第二特征向量确定扩充第一特征向量和扩充第二特征向量。关于扩充第一特征向量和扩充第二特征向量的确定的更多描述可以在本申请的其他地方找到。参见例如图6及其相关描述。

在一些实施例中，扩充第一特征向量的数量可以等于或大于第一特征向量的数量。例如，如果有M个第一特征向量并且所有第一特征向量完全用于确定扩充第一特征向量，可以相应地确定对第一特征向量和扩充第一特征向量。如果M是大于3的整数，则可以大于M。类似地，扩充第二特征向量的数量可以等于或大于第二特征向量的数量。例如，如果有M个第一特征向量和N个第二特征向量，并且所有第一特征向量和第二特征向量完全用于确定扩充第二特征向量，M＊N对第一特征向量和第二特征向量，和M＊N个扩充第二特征向量可以相应地确定。如果M和N是大于1的整数，则M×N可以等于或大于M和/或N。通过这种方法，可以扩大样本尺寸，从而提供正样本的核心特征的更准确和有效的识别。

应当注意样本尺寸，或特征向量的数量，可以通过各种方法扩展，以说明、保留或区分第一特征向量和第二特征向量之间的差异。例如，可以通过使用第一特征向量和第二特征向量的一部分而不是全部来确定扩充第一特征向量和第二特征向量。另外，可以省略530并且第一特征向量和第二特征向量直接用于确定核心特征。

在540中，处理引擎112(例如，确定模块402)可以基于训练后的二元模型确定至少两个特征中与至少两个正样本相关的一个或以上核心特征。

在一些实施例中，训练后的二元模型可以由处理引擎112(例如，训练模块403)通过使用扩充第一特征向量和扩充第二特征向量训练初始二元模型来生成。初始二元模型可以是逻辑回归模型、线性模型或任何其他二元模型。在训练后的二元模型的生成中，扩充第一特征向量和扩充第二特征向量可以被视为两个单独的分类。训练模块403可以将每个扩充第一和扩充第二特征向量输入到初始二元模型中以生成相应的预测分类。在一些实施例中，训练模块403可以进一步确定预测分类与扩充第一和扩充第二特征向量的已知分类之间的差异，其被简称为损失函数。根据损失函数，训练模块403可以进一步调整初始二元模型(例如，一个或以上模型参数)，直到损失函数达到期望值。在损失函数达到期望值之后，可以将调整后的初始二元模型指定为训练后的二元模型。

在一些实施例中，调整的模型参数可以包括扩充第一或扩充第二特征向量的特征的至少两个权重。特征的权重可以指示特征对扩充的特征向量是否可以被归类为扩充第一特征向量(或特征向量是否实际上是第一特征向量)的影响。换句话说，特征的权重可以指示特征对于正样本的重要性。因此，可以基于训练后的二元模型确定正样本的一个或以上核心特征。在一些实施例中，训练后的二元模型可以由训练模块403确定并存储在O2O服务***100中的存储设备中，例如存储设备160、ROM 230、RAM 240等。确定模块402可以从存储设备检索训练后的二元模型并相应地确定核心特征。

在一些实施例中，为了确定正样本的核心特征，确定模块402可以基于训练的二元模型确定特征的权重；并且确定模块402可以进一步根据相应的权重对特征进行排序，例如，以降序排列。在一些实施例中，确定模块402可以根据相应的权重为每个特征分配重要性分数，并基于重要性分数对特征进行排序。基于排序结果，确定模块402可以确定核心特征。例如，排序列表前面的功能，例如但不限于，可以选择前5个、前10个、20个或前50个特征，或前2％、前5％、前10％、前15％或前20％的特征并被指定为正样本的核心特征。

在550中，处理引擎112(例如，生成模块404)可以基于核心特征和第一特征向量生成正样本的虚拟简档。虚拟简档可以是描述正样本的核心特征的简档。每个核心特征可以在虚拟简档中具有对应的第一参考值。在一些实施例中，虚拟简档中的核心特征的第一参考值可以以向量、表格等的形式或其任何组合来表示或记录。

在一些实施例中，生成模块404可以基于第一特征向量中的核心特征的特征值来确定核心特征的第一参考值。在一些实施例中，核心特征的第一参考值可以是，例如但不限于第一特征向量中的核心特征的平均特征值、中间特征值、最大特征值、最小特征值或特征值范围。仅作为示例，年龄的第一参考值可以是正样本(例如，所选择的司机或乘客)的平均年龄，其基于第一特征向量中的年龄的特征值来确定。在一些实施例中，可以以相同方式或以不同方式确定不同核心特征的第一参考值。例如，每个核心特征的第一参考值可以是正样本的平均特征值。又例如，年龄的第一参考值可以是正样本的平均年龄，而收入的第一参考值可以是正样本的收入范围。

在一些实施例中，生成模块404可以基于选定的一组正样本生成虚拟简档。例如，生成模块404可以从至少两个正样本中移除一个或以上异常值，然后基于剩余的正样本生成虚拟简档。异常值可以包括一个或以上正样本，其一个或以上核心特征的特征值偏离整个正样本的一个或以上核心特征的总体水平。以年龄为例，正样本的整体年龄水平可以通过例如但不限于平均年龄或中间年龄，正样本的年龄范围来测量。年龄显著偏离总体年龄水平的正样本可被视为异常值。例如，如果他或她的年龄比中值年龄大30岁或多50％，则正样本可被视为异常值。附加地或替代地，异常值可包括一个或以上正样本，其一个或以上核心特征的特征值类似于负样本的一个或以上核心特征的总体水平。关于移除异常值的更多描述可以在本申请的其他地方找到。例如，参见图7及其相关描述。

在确定了正样本的核心特征和相应的第一参考值之后，处理引擎112可以进一步相应地识别至少两个样本中的至少两个目标样本。目标样本可具有与正样本的核心特征高度相似的特征值。或者，目标样本可具有与正样本的核心特征高度不同的特征值。出于说明目的，在下文中描述具有与正样本的核心特征高度相似的特征值的目标样本的确定作为示例。

在560中，处理引擎112(例如，获取模块401)可以获取所确定的至少两个样本的一个或以上核心特征的第五特征信息。在一些实施例中，第五特征信息可包括每个样本的一个或以上核心特征的特征值。在一些实施例中，第五特征信息可包括每个样本的所有核心特征的特征值。在一些实施例中，至少两个样本可以包括O2O服务***100的至少两个用户，例如，O2O服务的至少两个服务请求者或服务提供者。

在一些实施例中，获取模块401可以从O2O服务***100中的一个或以上组件，例如，诸如存储设备(例如，存储设备160)，或者一个或以上用户终端(例如，服务请求者终端130、服务提供者终端140)获取第五特征信息。附加地或替代地，获取模块401可以经由网络120从外部源(例如但不限于一个或以上社交网站)或用户简档数据库获取第五特征信息的至少一部分。

在570中，处理引擎112(例如，确定模块402)可以基于正样本和第五特征信息的虚拟简档在至少两个样本中识别至少两个目标样本。目标样本可以具有与正样本相似的核心特征的特征值。

在一些实施例中，确定模块402可以通过比较正样本的核心特征的第一参数值与第五特征信息(即，样本的核心特征的特征值)来识别目标样本。例如，对于样本，确定模块402可以确定每个核心特征的第一参考值与样本的对应特征值之间的差异。确定模块402还可以确定与每个核心特征相对应的差异是否小于与核心特征相对应的第一阈值。在一些实施例中，响应于确定对应于每个核心特征的差异小于对应于核心特征的第一阈值，确定模块402可以将样本指定为目标样本。在一些实施例中，响应于确定对应于核心特征的一部分的差异，例如，50％、60％、70％、80％、90％或95％的核心特征小于相应的第一阈值，确定模块402可以将样本指定为目标样本。在一些实施例中，对应于不同核心特征的第一阈值可以相同或不同。

在一些实施例中，对于样本，确定模块402还可以基于与每个核心特征对应的差异来确定核心特征的第一参考值与对应的第五特征信息之间的复合差异。复合差异可以是，例如但不限于与一个或以上核心特征中的每一个相对应的差值、权重和、平均值、中值。在一些实施例中，复合差异可以是基于与核心特征和核心特征的权重对应的差异确定的权重总和，如在操作540中基于训练后的二元模型确定的。然后，确定模块402可以确定复合差异是否小于第二阈值。响应于确定复合差异小于第二阈值，确定模块402可以将样本指定为目标样本。

关于过程500的以上描述的应当注意仅仅是出于说明的目的而提供的，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的变化和修改。然而，这些变化和修改不会背离本申请的范围。在一些实施例中，可以省略一个或以上操作和/或可以添加一个或以上附加操作。例如，530可以省略。在540中，可以基于通过使用第一和第二特征向量生成的训练后的二元模型来确定正样本的核心特征。又例如，550至570中的任何一个都可以省略。在一些实施例中，可以在550中生成的虚拟简档中仅描述正样本的核心特征的一部分。

图6是根据本申请的一些实施例所示的用于确定扩充第一特征向量和扩充第二特征向量的示例性过程的流程图。过程600的至少一部分可以在如图2所示的计算设备200或如图3所示的移动设备300上实现。在一些实施例中，过程600的一个或以上操作可以在O2O服务***100中实现，如图1所示。在一些实施例中，过程600中的一个或以上步骤可以作为指令的形式存储在存储设备160和/或存储器(例如，ROM 230、RAM 240等)中，并且由服务器110(例如，服务器110中的处理引擎112、或服务器110中的处理引擎112的处理器220)调用和/或执行。在一些实施例中，可以执行过程600的部分或全部以实现如结合图5所描述的操作530。

在610中，处理引擎112(例如，确定模块402)可以标准化至少两个第一特征向量。在620中，处理引擎112(例如，确定模块402)可以标准化至少两个第二特征向量。

如本文所使用的，特征向量的标准化可以指将特征向量的一些或所有特征的特征值标准化到特定间隔，例如但不限于[0，1]或[-1，1]。如结合图5所描述的，第一特征向量可以包括正样本的至少两个特征的特征值，并且第二特征向量可以包括负样本的至少两个特征的特征值。在一些实施例中，由于不同特征值的范围可以广泛变化，具有大数值的特征可能主导训练后的二元模型的生成，这可能导致正样本的核心特征的不准确识别。因此，第一特征向量和/或第二特征向量的特征值的范围可能需要标准化为均匀间隔。在一些实施例中，可以基于最小-最大标准化技术、Z分数标准化技术、非线性标准化技术等或其任何组合来执行第一或第二特征向量的标准化。在一些实施例中，第一和第二特征向量的特征的特征值可以标准化为区间[0，1]。

在630中，处理引擎112(例如，确定模块402)可以确定标准化的第一特征向量中标准化的第一特征向量的每一对之间的第一向量差。在640中，处理引擎112(例如，确定模块402)可以将标准化的第一特征向量中的每一对之间的第一向量差指定为扩充第一特征向量之一。可以通过从另一个标准化的第一特征向量中减去一个标准化的第一特征向量来确定一对标准化的第一特征向量之间的第一向量差。在一些实施例中，对于标准化的第一特征向量中的一对A和B，A和B之间的向量差可以包括(A-B)或(B-A)，其中只有一个可以被指定为扩充第一特征向量。

在650中，处理引擎112(例如，确定模块402)可以确定每一对标准化的第一特征向量和标准化的第二特征向量之间的第二向量差。在660中，处理引擎112(例如，确定模块402)可以将每一对标准化的第一特征向量和标准化的第二特征向量之间的第二向量差指定为扩充第二特征向量之一。在一些实施例中，可以通过从标准化的第二特征向量中减去标准化的第一特征向量来确定每对标准化的第一特征向量和标准化的第二特征向量之间的第二向量差。在一些实施例中，可以通过从标准化的第一特征向量中减去标准化的第二特征向量来确定每对标准化的第一特征向量和标准化的第二特征向量之间的第二向量差。

应当注意以上对过程600的描述仅仅是出于说明的目的而提供的，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的变化和修改。然而，这些变化和修改不会背离本申请的范围。在一些实施例中，可以省略一个或以上操作和/或可以添加一个或以上附加操作。例如，可以省略610和620。在630中，可以确定第一特征向量的第一特征向量中的每一对之间的第一向量差。在650中，可以确定第一和第二特征向量中的每一对之间的第二向量差。

图7是示出用于生成用户的虚拟简档的示例性过程的流程图。过程700的至少一部分可以在如图2所示的计算设备200或如图3所示的移动设备300上实现。在一些实施例中，过程700的一个或以上操作可以在O2O服务***100中实现，如图1所示。在一些实施例中，过程700中的一个或以上操作可以作为指令的形式存储在存储设备160和/或存储器(例如，ROM 230、RAM 240等)中，并且由服务器110(例如，服务器110中的处理引擎112、或服务器110中的处理引擎112的处理器220)调用和/或执行。在一些实施例中，可以执行过程700的部分或全部以实现如结合图5所描述的操作550。

在710中，处理引擎112(例如，生成模块404)可以基于至少两个第二特征向量来确定一个或以上核心特征中的每一个的第二参考值。

如结合550所描述的，在生成正样本的虚拟简档之前，生成模块404可以从正样本移除一个或以上异常值。在一些实施例中，具有与负样本相似的一个或以上核心特征的特征值的一个或以上正样本可被视为异常值并从正样本中移除。为了识别这样的正样本，可以基于负样本的第二特征向量来确定每个核心特征的第二参考值。基于第二特征向量确定的核心特征的第二参考值可以反映负样本的核心特征的总体水平。

在一些实施例中，核心特征的第二参考值可以是，例如但不限于第二特征向量的核心特征的平均特征值、中间特征值、最大特征值、最小特征值或特征值范围。仅作为示例，年龄的第二参考值可以是负样本的平均年龄，其基于第二特征向量中的年龄的特征值来确定。在一些实施例中，可以以相同方式或以不同方式确定不同核心特征的第二参考值。例如，每个核心特征的第二参考值可以是负样本的平均特征值。又例如，年龄的第二参考值可以是负样本的平均年龄，而收入的第二参考值可以是负样本的收入范围。

在720中，处理引擎112(例如，生成模块404)可以基于第二参考值来过滤至少两个第一特征向量。在一些实施例中，生成模块404可以通过将核心特征的第二参考值与第一特征向量的核心特征的对应特征值进行比较来过滤第一特征向量，并删除具有与负样本相似的核心特征值的第一特征向量。

仅作为示例，对于第一特征向量，生成模块404可以确定每个核心特征的第二参考值与第一特征向量的对应特征值之间的差异；然后，生成模块404可以确定与每个核心特征相对应的差异是否小于与核心特征相对应的第三阈值。在一些实施例中，响应于确定对应于每个核心特征的差异小于对应的第三阈值，生成模块404可以从至少两个第一特征向量过滤或移除第一特征向量。在一些实施例中，响应于确定对应于核心特征的一部分的差异，例如，核心特征的50％、60％、70％、80％、90％小于相应的第三阈值，生成模块404可以从至少两个第一特征向量过滤或移除第一特征向量。在一些实施例中，对应于不同核心特征的阈值可以相同或不同。

在一些实施例中，对于第一特征向量，确定模块402还可以基于与每个核心特征相对应的差异来确定核心特征的第二参数值与第一特征向量的对应特征值之间的复合差异。复合差异可以是，例如但不限于与一个或以上核心特征中的每一个相对应的差值、权重和、平均值、中值。在一些实施例中，复合差异可以是基于对应于核心特征和核心特征的权重的差异确定的权重和，如在操作540中基于训练后的二元模型确定的。然后，确定模块402可以确定复合差异是否小于第四阈值。响应于确定复合差异小于第四阈值，确定模块402可以从至少两个第一特征向量中移除第一特征向量。

在730中，处理引擎112(例如，生成模块404)可以使用经过滤的第一特征向量来生成至少两个正样本的虚拟简档。正样本的虚拟简档可以包括如结合550所描述的核心特征的一个或以上第一参考值。可以基于经过滤的第一特征向量的核心特征的特征值来确定核心特征的第一参考值。例如，核心特征的第一参考值可以是经过滤的第一特征向量的核心特征的平均特征值、中间特征值、最大特征值、最小特征值或特征值范围。

在一些实施例中，在生成虚拟简档之后，它可以用于基于虚拟简档识别目标样本(例如，用户)。在一些实施例中，目标样本可以与具有虚拟简档的虚拟正样本高度相似。在一些实施例中，目标样本可能与具有虚拟简档的虚拟正样本非常不同。虚拟配置文件的生成允许更精确地定位进一步的活动(例如，营销)。

应当注意以上对过程700的描述仅仅是出于说明的目的而提供的，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的变化和修改。然而，这些变化和修改不会背离本申请的范围。在一些实施例中，生成模块404可以基于第二特征向量确定核心特征的一部分的第二参考值，并且基于所确定的第二参考值来过滤第一特征向量。例如，可以仅选择具有高权重的核心特征，如在操作540中基于训练后的二元模型确定的，以确定对应的第二参考值。可以在虚拟简档的生成中移除具有所选核心特征的相似特征值作为负样本的第一特征向量。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特性。因此，应强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外，本申请的各方面可以采取体现在一个或以上计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

计算机可读信号介质可能包含一个内含有计算机程序代码的传播数据信号，例如在基带上或作为载波的一部分。此类传播信号可以有多种形式，包括电磁形式、光形式等或任何合适的组合。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行***、装置或设备以实现通信、传播或传输供使用的程序。位于计算机可读信号介质上的程序代码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF等，或任何上述介质的组合。

本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写，包括面向对象程序设计语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化程序设计语言如C程序设计语言、Visual Basic、Fortran1703、Perl、COBOL 1702、PHP、ABAP，动态程序设计语言如Python、Ruby和Groovy，或其他程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网络(LAN)或广域网路(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的***组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的***。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所声称的待扫描对象物质需要比每个权利要求中明确记载的更多特征的意图。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种***，包括：

至少一个存储介质，包括用于用户挖掘的一组指令；

至少一个处理器，与所述至少一个存储介质通信，其中，当执行所述一组指令时，所述至少一个处理器用于：获取至少两个正样本的至少两个第一特征向量，每个所述第一特征向量包括描述所述至少两个正样本中相应的正样本的至少两个特征的第一特征信息，所述正样本包括满足标准的服务请求者和/或具有良好性能的服务提供者；

获取至少两个负样本的至少两个第二特征向量，每个所述第二特征向量包括描述所述至少两个负样本中相应的负样本的所述至少两个特征的第二特征信息，所述负样本包括不满足标准的服务请求者和/或服务提供者；

基于所述至少两个第一特征向量和所述至少两个第二特征向量，生成至少两个扩充第一特征向量和至少两个扩充第二特征向量；以及

在所述至少两个特征中，基于训练后的二元模型确定与所述至少两个正样本相关的一个或以上核心特征，所述训练后的二元模型通过使用所述至少两个扩充第一特征向量和所述至少两个扩充第二特征向量生成。

2.根据权利要求1所述的***，其特征在于，为了获取所述至少两个正样本的所述至少两个第一特征向量，所述至少一个处理器用于：

获取与一个或以上目标特征有关的一个或以上选择标准；

获取至少两个样本的所述一个或以上目标特征的第三特征信息；以及

基于所述第三特征信息和所述一个或以上选择标准，选择来自所述至少两个样本的所述至少两个正样本。

3.根据权利要求2所述的***，其特征在于，为了获取所述至少两个负样本的所述至少两个第二特征向量，所述至少一个处理器还用于：

在所述至少两个样本中，选择至少两个初始负样本；

获取所述至少两个初始负样本的所述一个或以上目标特征的第四特征信息；以及

基于所述第四特征信息和所述一个或以上选择标准，在所述至少两个初始负样本

中，选择所述至少两个负样本。

4.根据权利要求1所述的***，其特征在于，为了确定所述至少两个扩充第一特征向量和所述至少两个扩充第二特征向量，所述至少一个处理器还用于：

确定所述第一特征向量中每一对第一特征向量之间的第一向量差；

将所述第一特征向量中每一对第一特征向量之间的所述第一向量差指定为所述扩充第一特征向量之一；

确定每一对第一特征向量和第二特征向量之间的第二向量差；以及

将每一对第一特征向量和第二特征向量之间的所述第二向量差指定为所述扩充第二特征向量之一。

5.根据权利要求4所述的***，其特征在于，为了确定所述至少两个扩充第一特征向量和所述至少两个扩充第二特征向量，所述至少一个处理器还用于：

标准化所述至少两个第一特征向量；

标准化所述至少两个第二特征向量；以及

基于至少两个标准化的所述第一特征向量和至少两个标准化的所述第二特征向量，确定所述至少两个扩充第一特征向量和所述至少两个扩充第二特征向量。

6.根据权利要求1所述的***，其特征在于，为了确定与所述至少两个正样本相关的所述一个或以上的核心特征，所述至少一个处理器还用于：

基于所述训练后的二元模型确定所述至少两个特征的至少两个权重；

根据所述对应的权重排列所述至少两个特征；以及

基于排列结果，确定所述特征中的所述一个或以上核心特征。

7.根据权利要求6所述的***，其特征在于，所述至少一个处理器还用于：

基于所述一个或以上核心特征和所述至少两个第一特征向量，生成所述至少两个正样本的虚拟简档，其中所述一个或以上核心特征中的每一个在所述虚拟简档中具有对应的第一参考值。

8.根据权利要求7所述的***，其特征在于，为了生成所述至少两个正样本的所述虚拟简档，所述至少一个处理器还用于：

基于所述至少两个第一特征向量，确定所述一个或以上核心特征中的每一个的平均特征值；以及

将所述平均特征值指定为所述虚拟简档的相应核心特征的所述第一参考值。

9.根据权利要求8所述的***，其特征在于，为了生成所述至少两个正样本的所述虚拟简档，所述至少一个处理器还用于：

基于所述至少两个第二特征向量，确定所述一个或以上核心特征中的每一个的第二参考值；

基于所述一个或以上核心特征中的每一个的所述第二参考值，过滤所述至少两个第一特征向量；以及

使用过滤后的第一特征向量来生成所述至少两个正样本的所述虚拟简档。

10.根据权利要求7至9任一项所述的***，其特征在于，所述至少一个处理器还用于：

获取至少两个样本的所述一个或以上核心特征的第五特征信息；以及

基于所述正样本的所述虚拟简档和所述第五特征信息，在所述至少两个样本中识别至少两个目标样本。

11.一种在计算设备上实现的方法，所述计算设备具有至少一个处理器、至少一个计算机可读存储介质和连接到网络的通信平台，所述方法包括：

获取至少两个正样本的至少两个第一特征向量，每个所述第一特征向量包括描述所述至少两个正样本中相应的正样本的至少两个特征的第一特征信息，所述正样本包括满足标准的服务请求者和/或具有良好性能的服务提供者；

获取至少两个负样本的至少两个第二特征向量，每个所述第二特征向量包括描述所述至少两个负样本中相应负样本的所述至少两个特征的第二特征信息，所述负样本包括不满足标准的服务请求者和/或服务提供者；

基于所述至少两个第一特征向量和所述至少两个第二特征向量，生成至少两个扩充第一特征向量和至少两个扩充第二特征向量；

12.根据权利要求11所述的方法，其特征在于，获取所述至少两个正样本的所述至少两个第一特征向量进一步包括：

获取与一个或以上目标特征有关的一个或以上选择标准；

13.根据权利要求12所述的方法，其特征在于，获取所述至少两个负样本的所述至少两个第二特征向量进一步包括：

在所述至少两个样本中，选择至少两个初始负样本；

中，选择所述至少两个负样本。

14.根据权利要求11所述的方法，其特征在于，确定所述至少两个扩充第一特征向量和所述至少两个扩充第二特征向量进一步包括：

将所述第一特征向量中的每一对第一特征向量之间的所述第一向量差指定为所述扩充第一特征向量之一；

15.根据权利要求14所述的方法，其特征在于，确定所述至少两个扩充第一特征向量和所述至少两个扩充第二特征向量进一步包括：

标准化所述至少两个第一特征向量；

标准化所述至少两个第二特征向量；以及

16.根据权利要求11所述的方法，其特征在于，确定与所述至少两个正样本相关的所述一个或以上的核心特征进一步包括：

根据所述对应的权重排列所述至少两个特征；以及

17.根据权利要求16所述的方法，其特征在于，还包括：

基于所述一个或以上的核心特征和所述至少两个第一特征向量，生成所述至少两个正样本的虚拟简档，其中所述一个或以上核心特征中的每一个在所述虚拟简档中具有对应的第一参考值。

18.根据权利要求17所述的方法，其特征在于，生成所述至少两个正样本的所述虚拟简档包括：

19.根据权利要求18所述的方法，其特征在于，生成所述至少两个正样本的所述虚拟简档进一步包括：

基于所述一个或以上的核心特征中的每一个的所述第二参考值，过滤所述至少两个第一特征向量；以及

20.根据权利要求17至19任一项所述的方法，还包括：

21.一种体现计算机程序产品的非暂时性计算机可读存储介质，所述计算机程序产品包括被配置为使计算设备执行以下操作的指令：