CN105550312B

CN105550312B - 一种上下文信息处理方法及装置

Info

Publication number: CN105550312B
Application number: CN201510929921.0A
Authority: CN
Inventors: 王书剑
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2020-10-13
Anticipated expiration: 2035-12-14
Also published as: CN105550312A

Abstract

本发明公开了一种上下文信息处理方法及装置。所述方法包括：分别对各维度的上下文信息做如下处理：根据该维度上下文信息所包括的各个向量之间的紧密程度，将所述各个向量划分到不同向量组；将所述各维度的上下文信息划分出的向量组的笛卡尔积，作为抽象向量，获得抽象维度的上下文信息；根据所述抽象向量之间的紧密程度，将所述抽象向量划分到不同应用场景，建立所述抽象向量与所述应用场景的映射关系。基于本发明方案，不仅有助于实现个性化推荐的客观性和准确性，还有助于简化个性化推荐过程。

Description

一种上下文信息处理方法及装置

技术领域

本发明涉及数据处理领域，具体地，涉及一种上下文信息处理方法及装置。

背景技术

随着信息技术的不断发展，为了更好的服务于用户，提高用户体验，个性化推荐技术应运而生，用于为用户提供符合其需求的个性化推荐内容。通常，个性化推荐技术以用户的兴趣特点、动作行为等用户数据为基础，再结合一定的数据分析方法，为用户生成个性化推荐内容。

进行个性化推荐时，可以结合用户数据，利用推荐算法计算用户对潜在物品的评分值，并将评分值较高的潜在物品作为推荐内容，提供给用户，其中，评分值较高可以理解为超过了预设值。也就是说，这种推荐方法主要研究的是如何将用户数据与潜在物品进行关联，建立用户与物品之间的二元关系，以便进行个性化推荐。

在实际应用过程中，人们意识到用户数据所对应的上下文信息，对于提高个性化推荐的准确性也十分重要。举例来说，抓取用户点击行为时，还可同时获得点击行为对应的上下文信息，如，时间、地点、用户所用设备类型、设备联网方式等等。其中，每种类型的上下文信息可以视为一种维度，每种类型的上下文信息的一个具体取值可以视为该维度下的一个向量。举例来说，时间维度下，可以包括上午、中午、下午、傍晚和深夜5个向量。

如何对多维度的上下文信息进行合理处理，以便基于此为用户进行较为客观和准确的个性化推荐，成为一个亟待解决的问题。

发明内容

本发明的目的是提供一种上下文信息处理方法及装置，综合考虑每个维度的上下文信息，将多维度上下文信息降阶处理为单维度的抽象维度上下文，并建立抽象向量与应用场景间的映射关系，基于本发明方案，不仅有助于实现个性化推荐的客观性和准确性，还有助于简化个性化推荐过程。

本发明实施例提供了一种上下文信息处理方法，所述方法包括：

分别对各维度的上下文信息做如下处理：根据该维度上下文信息所包括的各个向量之间的紧密程度，将所述各个向量划分到不同向量组；

将所述各维度的上下文信息划分出的向量组的笛卡尔积，作为抽象向量，获得抽象维度的上下文信息；

根据所述抽象向量之间的紧密程度，将所述抽象向量划分到不同应用场景，建立所述抽象向量与所述应用场景的映射关系。

可选地，针对各维度上下文信息，预先建立有物品、向量和评分值三者之间的对应关系，则，所述根据该维度上下文信息所包括的各个向量之间的紧密程度，将所述各个向量划分到不同向量组，包括：

利用所述物品在任两个向量下的评分值进行欧式距离计算，获得所述任两个向量之间的距离；

利用所述任两个向量之间的距离，通过聚类分析，将所述各个向量划分到不同向量组。

可选地，根据所述物品，确定该维度上下文信息中向量的划分粒度。

可选地，所述通过聚类分析，将所述各个向量划分到不同向量组，包括：

获得向量组划分指令，所述向量组划分指令包括指定向量组数目；

按照所述指定向量组数目，调整聚类分析划分出的向量组数目，将所述各个向量划分到不同向量组。

可选地，建立应用场景与推荐内容的对应关系，所述方法还包括：

获取用户数据对应的多维度上下文信息，查找与所述多维度上下文信息相匹配的抽象向量，确定出所述多维度上下文信息对应的应用场景；

将确定出的应用场景对应的推荐内容发送给用户。

本发明实施例还提供了一种上下文信息处理装置，所述装置包括：

向量组划分单元，用于分别对各维度的上下文信息做如下处理：根据该维度上下文信息所包括的各个向量之间的紧密程度，将所述各个向量划分到不同向量组；

抽象维度获得单元，用于将所述各维度的上下文信息划分出的向量组的笛卡尔积，作为抽象向量，获得抽象维度的上下文信息；

映射关系建立单元，用于根据所述抽象向量之间的紧密程度，将所述抽象向量划分到不同应用场景，建立所述抽象向量与所述应用场景的映射关系。

可选地，针对各维度上下文信息，预先建立有物品、向量和评分值三者之间的对应关系，则所述向量组划分单元包括：

距离计算单元，用于利用所述物品在任两个向量下的评分值进行欧式距离计算，获得所述任两个向量之间的距离；

聚类分析单元，用于利用所述任两个向量之间的距离，通过聚类分析，将所述各个向量划分到不同向量组。

可选地，所述向量组划分单元还包括：

粒度确定单元，用于根据所述物品，确定该维度上下文信息中向量的划分粒度。

可选地，所述聚类分析单元，具体用于获得向量组划分指令，所述向量组划分指令包括指定向量组数目；按照所述指定向量组数目，调整聚类分析划分出的向量组数目，将所述各个向量划分到不同向量组。

可选地，建立应用场景与推荐内容的对应关系，所述装置还包括：

查找单元，用于获取用户数据对应的多维度上下文信息，查找与所述多维度上下文信息相匹配的抽象向量，确定出所述多维度上下文信息对应的应用场景；

发送单元，用于将确定出的应用场景对应的推荐内容发送给用户。

本发明技术方案中，针对抓取用户数据过程中获取的多维度上下文信息，可以将多维度上下文信息降阶处理为单维度的抽象维度上下文信息，然后再对抽象维度上下文信息进行聚类分析，获得抽象维度上下文信息包括的抽象向量与应用场景间的映射关系。本发明方案综合考虑每个维度的上下文信息，最终获得所述映射关系，处理过程不受人为因素的影响，故基于该映射关系进行个性化推荐时，有助于实现个性化推荐的客观性和准确性。另外，基于本发明映射关系，主要通过查表方式实现个性化推荐，还有助于简化个性化推荐过程。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明上下文信息处理方法的流程图；

图2是本发明上下文信息处理装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

参见图1，示出了本发明一种上下文信息处理方法的流程图，可包括：

S101，分别对各维度的上下文信息做如下处理：根据该维度上下文信息所包括的各个向量之间的紧密程度，将所述各个向量划分到不同向量组。

为了提高个性化推荐的准确性，在抓取用户数据的同时，还可以抓取该用户数据对应的上下文信息。举例来说，针对用户A点击观看网页上的视频A，用户数据可体现为观看视频A，该用户数据对应的上下文信息可体现为：时间为20:30、地点为北京、设备类型为pad、视频播放来源为优酷、联网方式为wifi连接。上述示例中包括时间、地点、设备类型、视频播放来源、联网方式5个维度的上下文信息。

需要说明的是，除了用户数据和上下文信息之外，还可抓取用户A对视频A的评分值。举例来说，评分值可以为用户A观看视频A后打出的分数，如1～5分中用户A点击了3分，则该用户对视频A的评分值即为3分。或者，评分值还可以为用户A对视频A的喜爱程度，如喜欢表示1分、不喜欢表示0分，若用户A点击了喜欢，则该用户对视频A的评分值即为1分。本发明实施例对评分值的具体设定方式、抓取评分值的方式等均不做具体限定，可由实际应用情况而定。

综上，针对用户A点击观看网页上的视频A，便可获得如下一组信息：用户A—视频A—20:30—北京—pad—优酷—wifi连接—评分值为3，针对该组信息可以简化理解为：用户user—物品item—多维度上下文信息context_n—评分值value，其中，n表示上下文信息的维度数目。

按照上述过程，还可获取用户A在全天其他时间段观看视频的信息，以及其他用户在全天观看视频的信息。举例来说，除上述用户A观看视频A抓取到的一组信息之外，还抓取到用户B观看视频A的一组信息：用户B—视频A—20:10—沈阳—pad—优酷—wifi连接—评分值为4，用户C观看视频A的一组信息：用户C—视频A—20:15—北京—phone—优酷—wifi连接—评分值为5，等等，此处不再其他举例说明。

上述示例中，通过抓取大量用户观看视频的信息，便可得到一个5维度的上下文信息，且每个维度的上下文信息中包括很多向量。举例来说，时间维度可定义为C1，且包括n_C1个时间向量；地点维度可定义为C2，且包括n_C2个地点向量；以此类推，设备类型、视频播放来源、联网方式可依次定义为C3、C4、C5，且每个维度对应包括的向量数目依次为n_C3、n_C4、n_C5。

举例来说，每个维度上下文信息中向量的划分粒度可以为最小粒度；或者，还可以根据物品，确定每个维度上下文信息中向量的划分粒度。举例来说，如果物品为随时间维度变化较慢的类型，例如对于服饰类物品的购买行为分析，可将时间维度的向量粒度划分为1day；如果物品为随时间维度变化较快的类型，例如对于视频物品的观看行为，可将时间维度的向量粒度划分为30min，等等。通常，向量粒度越细，所含向量数目越多，越有助于通过聚类分析找到向量的客观分组，但计算量也会随之增大，对此，可结合实际应用而定，本发明实施例对向量粒度的划分方式可不做具体限定。

本发明方案旨在通过处理，将多维度上下文信息降阶为单维度上下文信息，有助于简化基于本发明方案进行个性化推荐的过程。

基于此，可先对每个维度的上下文信息进行分组处理，找到各维度下的向量的合理分组。具体地，可以计算各维度上下文信息的两两向量之间的紧密程度，并根据该紧密程度实现向量分组。举例来说，两两向量之间的紧密程度可以体现为向量间的相似度，通常，相似度取值越大表示两个向量越相近；或者，两两向量之间的紧密程度还可以体现为向量间的距离，通常，距离取值越小表示两个向量越相近。

若以向量间的相似度来表示紧密程度，则可通过线性回归的方式进行聚类分析，获得向量组。

若以向量间的距离来表示紧密程度，则可通过以下方式进行向量分组：利用物品在任两个向量下的评分值进行欧式距离计算，获得所述任两个向量之间的距离；利用所述任两个向量之间的距离，通过聚类分析，将该维度上下文信息包括的各个向量划分到不同向量组。举例来说，可通过K-means、K-medoids等方式实现聚类分析，本发明实施例对此可不做具体限定。

以时间维度为例，可以获得不同用户针对物品1在时间向量1下的评分值1、不同用户针对物品1在时间向量2下的评分值2，然后对这两个时间向量下的评分值进行欧式距离计算，获得时间向量1和时间向量2之间的距离。以此类推，便可得到时间维度下任两个时间向量之间的距离，再通过聚类分析，将距离较近的向量划分到一个向量组中。作为一种示例，可以采用皮尔森相关系数，计算向量间的距离r，以时间向量为例，可体现为下述公式。

其中，N表示评分值的数目；x_i表示时间向量1下的评分值；

表示时间向量1下的平均评分值；y_i表示时间向量2下的评分值；

表示时间向量2下的平均评分值。

本发明实施例中，物品1在时间向量1下的评分值1可以理解为，在抓取到的user—item—context_n—value中，忽略其他维度的上下文信息，将value作为时间维度的评分值，即，user—item—context_time—value。

举例来说，时间维度以1h为向量粒度，针对在20:00～21:00抓取到的用户观看视频A时的信息、在21:00～22:00抓取到的用户观看视频A时的信息，可得到下表所示数据。

则时间向量T1与T2之间的紧密程度r：

综上，便获得了T1与T2之间的紧密程度r＝0.866。

上文仅以时间向量的紧密程度为例，对计算过程进行了解释说明，结合实际应用，还可参照上述方式计算获得其他维度的向量紧密程度，此处不再举例说明。

另外，本发明实施例中，距离较近可以理解为两个向量之间的距离不超过预设距离值。可选地，可以结合应用情况，设定所述预设距离值，并在聚类分析过程中，依据该预设距离值进行向量分组；或者，可以结合应用情况，设定指定向量组数目，并在聚类分析过程中，依据指定向量组数目和计算出的两两向量间的距离，确定一个合适的预设距离值，进而实现向量分组，本发明实施例对此可不做具体限定。

举例来说，若时间维度的向量划分粒度为1h，经由上述聚类分析过程后，可能将时间向量8:00～9:00、11:00～13:00、17:00～18:00划分到一个向量组中，表示这些时间段内用户的行为习惯较为相似，可进行聚类合并。对此我们可以理解为，上述时间段属于非工作时间，用户行为趋向一致。相比人为将时间维度划分为上午、中午、下午、晚上的分组方式，本发明方案得到的分组，更能客观准确的反映用户行为习惯，基于对用户行为习惯的准确把握，使得在本发明方案基础上进行的个性化推荐的准确性也会有所提高。

如此，还可针对地点、设备类型、视频播放来源、联网方式这4个维度的上下文信息，进行向量分组，具体可参照上文介绍，此处不再详述。举例来说，时间维度聚类分组后得到K_C1个向量组，地点、设备类型、视频播放来源、联网方式这4个维度聚类分组后依次得到K_C2、K_C3、K_C4、K_C5个向量组。通常，聚类分析得到的向量组数目要少于该维度上下文信息所包括的向量数目。

需要说明的是，关于通过聚类分析将向量划分到不同向量组的具体过程，可参照下文所做介绍，此处暂不详述。

S102，将所述各维度的上下文信息划分出的向量组的笛卡尔积，作为抽象向量，获得抽象维度的上下文信息。

S103，根据所述抽象向量之间的紧密程度，将所述抽象向量划分到不同应用场景，建立所述抽象向量与所述应用场景的映射关系。

S101获得各维度上下文信息的聚类分组后，可利用得到的向量组建立一个单维度的上下文信息，即，本发明实施例中的抽象维度的上下文信息。具体地，为了获得多维度上下文信息的向量组之间的任意组合，可以将各维度的上下文信息划分出的向量组的笛卡尔积，作为抽象维度的上下文信息的抽象向量。通常，该抽象向量包括每个维度上下文信息中的至少一个向量。

举例来说，针对抽象向量1可能存在如下一组关系：物品—时间向量组1—地点向量组1—设备类型向量组1—视频播放来源向量组1—联网方式向量组1—评分值1，对此可以简化理解为：物品—抽象向量1—评分值1。

抽象维度上下文信息作为单维度上下文信息，可参照S101处所做介绍，计算两两抽象向量间的紧密程度，进而依据紧密程度进行抽象向量分组，每个抽象向量组对应一个应用场景，如此，便可建立抽象向量与应用场景之间的映射关系。举例来说，映射关系可以体现为：抽象向量组1—应用场景1，通常，每个抽象向量组包括至少一个抽象向量。

与S101处所做介绍相似，本发明中两两抽象向量间的紧密程度可以体现为抽象向量间的相似度，或者还可以体现为抽象向量间的距离，本发明实施例对此可不做具体限定。

另外，本发明实施例中，应用场景可以体现为实际场景，如时事类场景、娱乐类场景等等；或者，应用场景还可以体现为场景编号，如应用场景1、应用场景2等等，本发明实施例对应用场景的具体表现形式可不做限定。

综上，便实现了本发明对多维度上下文信息的处理过程。针对抓取用户数据过程中获取的多维度上下文信息，可以将多维度上下文信息降阶处理为单维度上下文信息，然后再对单维度上下文信息进行聚类分析，获得上下文信息与应用场景间的映射关系，有助于简化基于本发明方案进行个性化推荐的过程。

进一步地，本发明方案基于向量紧密程度以及聚类分析，实现各维度上下文信息所包括向量的分组，该分组不依赖于任何人为因素，能真实反映用户的行为习惯，具有客观性，同时还有助于发现隐式的分组可能，有助于提高分组的合理性。

进一步地，本发明方案基于抽象向量紧密程度以及聚类分析，实现抽象维度上下文信息所包括抽象向量的分组，还有助于实现可复用的应用场景。也就是说，在多数用户的行为习惯不发生较大变动的情况下，本发明方案获得映射关系可在一段时间内都维持有效，无需频繁进行映射关系调整。

本发明实施例中，可通过多种方式将向量划分到不同向量组，具体可参见如下说明。

方式一，根据预设距离值，对各维度上下文信息所包括的向量进行分组。举例来说，针对各维度上下文信息可以设置同一个预设距离值，或者，针对不同维度上下文信息可以设置不同预设距离值，对此可结合实际应用而定，本发明实施例可不做具体限定。本方式中，只要两个向量间的距离不超过预设距离值，即可将这两个向量划分到一个向量组中，基于这一原则，可以实现各维度上下文信息所包括向量的分组，且通过该方式获得的向量组数目不定。

方式二，根据指定向量组数目，对各维度上下文信息所包括的向量进行分组。举例来说，针对各维度上下文信息可以设置相同的指定向量组数目，或者，针对不同维度上下文信息可以设置不同的指定向量组数目，对此可结合实际应用而定，本发明实施例可不做具体限定。另外，可以通过外部输入的向量组划分指令获得指定向量组数目，或者，可以通过预配置的方式将指定向量组数目保存于本地，并在需要时从本地读取，本发明实施例对此亦可不做具体限定。本方式中，可以根据计算出的两两向量间的距离、指定向量组数目，先确定出一个合适的预设距离值，然后再基于该预设距离值进行向量分组，通过该方式可以控制上下文信息分组后的向量组数目。

方式三，方式一和方式二相互配合，对各维度上下文信息所包括的向量进行分组。具体地，可以先通过方式一所示过程对各维度上下文信息所包括的向量进行分组，若如此得到的向量组不合理，如向量组数目过多，说明向量组之间还可能进一步聚类，则可通过方式二适当减少所分向量组的数目，使其更为合理；或者，向量组数目过少，可能会在聚类过程中掩盖某些分组，则可通过方式二适当增多所分向量组的数目。

在具体应用过程中，可以结合实际情况选取合适的方式进行向量分组，本发明实施例对此并不做具体限定。此外，针对抽象向量的分组过程亦可参考上述方式实现，此处不再赘述。

作为一种示例，按照图1所示方案获得抽象向量和应用场景的映射关系后，可以利用该映射关系实现个性化推荐。举例来说，可以预先建立应用场景与推荐内容的对应关系，如此便可获得这样一组关系：抽象向量—应用场景—推荐内容。作为一种示例，可以通过协同过滤技术建立应用场景与推荐内容的对应关系：基于抓取到的user—item—context_n—value，利用协同过滤算法计算潜在物品在应用场景下的预估评分值，若预估评分值较高，则可将潜在物品作为该应用场景的推荐内容。

具体地，需要进行个性化推荐时，可以获取用户数据对应的多维度上下文信息，查找与所述多维度上下文信息相匹配的抽象向量，确定出所述多维度上下文信息对应的应用场景；将确定出的应用场景对应的推荐内容发送给用户。

目前，传统方案基于协同过滤算法进行个性化推荐方案时，获得用户U的多维度上下文信息后，可以利用对活跃用户的分析结果，预测潜在物品在用户U的每个维度上下文信息中的评分值，然后再结合各维度上下文信息的预设权重，计算潜在物品对于用户U来说的预估评分值，若该预估评分值较高，则可将潜在物品作为推荐内容发送给用户U。

与上述传统方案相比，本发明提供的个性化推荐方案只需要查表即可确定出与多维度上下文信息相匹配的推荐内容，实现过程简单，计算量少，有助于提高个性化推荐的效率。另外，在实际应用过程中，受抓取技术或者用户隐私设置的限制，可能获取不到用户在某些维度的上下文信息，导致该维度上下文信息中出现空值，即出现上下文信息稀疏性的问题，如用户隐私设置为禁止获取地理位置信息，则可能抓取不到地点维度的上下文信息。针对于此，传统个性化推荐方案只能将这部分空值舍弃掉，如此势必会影响利用对活跃用户的分析结果，预测潜在物品在该维度上下文信息中的评分值，进而影响预估评分值的计算准确性，严重情况下还会进行不适合用户需求的个性化推荐，影响用户体验。相对于此，本发明进行多维度上下文信息处理时，考虑到了多维度上下文信息中的每个维度，也就是说，抽象向量与应用场景之间的映射关系，是综合各维度上下文信息的情况后得到的，即使针对特定用户U进行个性化推荐时出现稀疏性问题，考虑到映射关系中已涉及所有维度的上下文信息，基于该映射关系得到的推荐内容的准确性，相对传统方案亦会有多提高，有助于解决上下文信息稀疏性的问题。此外，若抓取用户数据时获得新的维度的上下文信息，经过本发明方案处理，该新的维度的上下文信息可能会被归类到现有的应用场景下，无需为该新的维度的上下文信息建立一个新的应用场景，同样有助于解决上下文信息稀疏性的问题。

与图1所示方法相对应，本发明实施例还提供一种上下文信息处理装置200，参见图2所示示意图，所述装置可包括：

向量组划分单元201，用于分别对各维度的上下文信息做如下处理：根据该维度上下文信息所包括的各个向量之间的紧密程度，将所述各个向量划分到不同向量组；

抽象维度获得单元202，用于将所述各维度的上下文信息划分出的向量组的笛卡尔积，作为抽象向量，获得抽象维度的上下文信息；

映射关系建立单元203，用于根据所述抽象向量之间的紧密程度，将所述抽象向量划分到不同应用场景，建立所述抽象向量与所述应用场景的映射关系。

可选地，所述向量组划分单元还包括：粒度确定单元，用于根据所述物品，确定该维度上下文信息中向量的划分粒度。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种上下文信息处理方法，其特征在于，所述方法包括：

根据所述抽象向量之间的紧密程度，将所述抽象向量划分到不同应用场景，建立所述抽象向量与所述应用场景的映射关系；

将确定出的应用场景对应的推荐内容发送给用户，其中所述应用场景与推荐内容的对应关系为预先建立的。

2.根据权利要求1所述的方法，其特征在于，针对各维度上下文信息，预先建立有物品、向量和评分值三者之间的对应关系，则，所述根据该维度上下文信息所包括的各个向量之间的紧密程度，将所述各个向量划分到不同向量组，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述物品，确定该维度上下文信息中向量的划分粒度。

4.根据权利要求2所述的方法，其特征在于，所述通过聚类分析，将所述各个向量划分到不同向量组，包括：

5.一种上下文信息处理装置，其特征在于，所述装置包括：

映射关系建立单元，用于根据所述抽象向量之间的紧密程度，将所述抽象向量划分到不同应用场景，建立所述抽象向量与所述应用场景的映射关系；

发送单元，用于将确定出的应用场景对应的推荐内容发送给用户，其中所述应用场景与推荐内容的对应关系为预先建立的。

6.根据权利要求5所述的装置，其特征在于，针对各维度上下文信息，预先建立有物品、向量和评分值三者之间的对应关系，则所述向量组划分单元包括：

7.根据权利要求6所述的装置，其特征在于，所述向量组划分单元还包括：

8.根据权利要求6所述的装置，其特征在于，

所述聚类分析单元，具体用于获得向量组划分指令，所述向量组划分指令包括指定向量组数目；按照所述指定向量组数目，调整聚类分析划分出的向量组数目，将所述各个向量划分到不同向量组。