CN108733686A

CN108733686A - 信息处理方法和设备

Info

Publication number: CN108733686A
Application number: CN201710250544.7A
Authority: CN
Inventors: 代洪涛; 张磊; 黄坤武; 陈超; 刘晶晶
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2018-11-02
Also published as: US10860590B2; US20180307689A1

Abstract

本公开提供了信息处理方法和设备。一种用于信息处理的方法包括：响应于来自第一用户的针对第一信息的请求，搜索数据库以获取第二信息；确定与所述第二信息相关联的第二用户和所述第一用户之间的第一相关度；基于所述第一相关度来确定所述第二信息与所述第一信息之间的第二相关度；以及至少部分地基于所述第二相关度而向所述第一用户呈现所述第二信息。

Description

信息处理方法和设备

技术领域

本公开涉及信息处理领域，特别地涉及用于提高信息相关度的信息处理方法和信息处理设备。

背景技术

随着信息搜索技术的普及，越来越多的企业提供了用于全文搜索的企业搜索引擎。针对全文搜索引擎，用户关注的是搜索到的信息与用户期望的信息之间的相关度，即，从数据库获取的文档或文档表示的信息相对于用户期望的信息是相关的还是不相关的。从数据库获取并呈现给用户的相关的信息可能有很多条，然而这些信息与用户期望的信息的相关的程度会彼此不同。相关的程度通常利用量化的相关度来表示，相关度的值越高，搜索到的信息与用户期望的信息相关的程度越高。像传统搜索引擎一样，企业搜索引擎利用各种全文搜索理论来计算搜索结果的相关度。进一步提高搜索到的信息与用户期望的信息之间的相关度是有利的。

发明内容

本公开的实施例提供了信息处理方法和信息处理设备。

在一个方面，提供了一种用于信息处理的方法。该方法包括：响应于来自第一用户的针对第一信息的请求，搜索数据库以获取第二信息；确定与所述第二信息相关联的第二用户和所述第一用户之间的第一相关度；基于所述第一相关度来确定所述第二信息与所述第一信息之间的第二相关度；以及至少部分地基于所述第二相关度来向所述第一用户呈现所述第二信息。

在另一个方面，提供了一种电子设备。该设备包括：处理单元；和存储器，其耦合至所述处理单元并且具有存储于其中的指令，所述指令在被所述处理单元执行时使所述电子设备执行动作，所述动作包括：响应于来自第一用户的第一信息的请求，搜索数据库以获取第二信息；确定与所述第二信息相关联的第二用户和所述第一用户之间的第一相关度；基于所述第一相关度来确定所述第二信息与所述第一信息之间的第二相关度；以及至少部分地基于所述第二相关度来向所述第一用户呈现所述第二信息。

在又一个方面，提供了一种计算机程序产品。该计算机程序产品有形地存储在计算机可读存储介质上并且包括指令，该指令在至少一个处理器上被执行时使所述至少一个处理器执行上述的方法。

与传统的全文引擎搜索不考虑搜索者和文档用户之间的相关度相比，根据本公开的实施例的信息处理方法和信息处理设备能够进一步提高搜索到的信息与期望的信息之间的相关度。

附图说明

图1示出了根据本公开的实施例的信息处理方法可以实现于其中的环境；

图2示出了根据本公开的实施例的信息处理方法的流程图；

图3示出了根据本公开的实施例的用于表示多个用户之间的相关度的树的示意图；

图4示出了根据本公开的实施例的用于表示多个用户之间的相关度的树的示意图；

图5示出了根据本公开的实施例的装置的框图；以及

图6示出了适于用来实现本公开的实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

人们在其所属的组织中的彼此关系(以下简称为关系)是特定领域的，该关系可以用来提高搜索到的信息与用户期望的信息之间的相关度(以下简称为信息相关度)。一个用户最感兴趣的很可能是该用户所属的团队或该用户所关注的小组的成员编写的文档信息。对于该用户来说，由其他团队或非关注小组的成员编写的文档信息可能不太有用，而由其他不同部门的成员编写的文档信息可能根本没有用。

传统的企业全文搜索引擎简单地基于TF-IDF(词频-逆向文档频率)来计算全文搜索中的信息相关度。传统的全文搜索引擎的技术方案不考虑搜索者和文档作者之间的关系或彼此相关的程度(也可以被称为相关度)，并且可能以高优先级返回来自其他团队或部门的不相关的文档信息。

根据本公开的信息处理方法引入用于全文搜索中的信息相关度的新的提高因子，基于搜索者和文档作者之间的关系或相关度来衡量文档的重要性，从而提高搜索者期望的信息和搜索到的信息之间的相关度。这种关系或相关度可以被量化，量化的值越高，搜索者和文档作者之间的关系越紧密或者相关度越高。换句话说，量化的值越高，搜索者和文档作者所涉及的领域或关注点可能越接近，并且该搜索者期望的信息和该作者编写的文档信息之间的相关度可能越高。

这种量化可以通过树来实现。例如，公司中的组(诸如团队、部门和组织)可以被认为是树的内部节点，而公司中的人们可以被认为是树的叶节点。在某一树中，搜索者位于一节点，文档作者位于另一节点，在此情况下，搜索者和文档作者之间的关系或相关度可以通过在树中的两个节点之间的距离(以下简称为距离)来表示。该距离越小，搜索者和文档作者之间的关系越紧密或者相关度越高。因此，考虑搜索者和文档作者之间的距离可以提高信息相关度，并且可以基于搜索者和文档作者之间的距离来衡量文档的重要性或信息相关度。

图1示出了根据本公开的实施例的信息处理方法可以实现于其中的环境。如图1所示，环境100包括用户终端101、通信链路102、网络103和数据104。用户终端101可以被配置为接收用户的期望的信息的请求，并且经由通信链路102耦合至网络103。响应于该请求，搜索引擎搜索网络103上的数据104来获取搜索到的信息。搜索引擎将搜索到的信息返回给用户终端101。用户终端101将该信息呈现给用户。搜索引擎可以设置在用户终端101中，或者可以设置在网络103上。数据104可以以任何公知的形式存在于网络103上。

图2示出了根据本公开的实施例的信息处理方法200的流程图。在框202，响应于来自搜索者(称为“第一用户”)的针对期望的信息(称为“第一信息”)的请求，搜索数据库以获取搜索到的信息(称为第二信息)。例如，第一用户搜索的第一信息可以是关于其关注点的最新研究报告、技术进展、市场动态等。根据第一用户所提供的搜索条件，通过在数据库中搜索，可以获取与该条件相关联的第二信息。将会理解，在框202处获取的第二信息可能包含多条信息，这些信息与用户提供的搜索条件至少部分地匹配，但是未必都是第一用户希望得到的第一信息。例如，第二信息可以包括会议课件、学术论文、调查报告等。

在框204，确定与搜索到的信息相关联的用户(称为“第二用户”)和第一用户之间的关系或相关度(称为“第一相关度”)。这里，两个用户之间的相关度表示这两个用户所关注内容的匹配程度、所涉及领域的相符程度等。

在某些实施例中，第二用户可以包括搜索到的信息的作者、发布者或所有者。此外，第二用户和第一用户之间的关系或相关度可以如上所述地基于两者在树中的距离来确定。

在某些实施例中，响应于第一用户的全文搜索请求，搜索数据库中的文档。针对搜索到的每个文档，计算第一用户和第二用户在树中的节点之间的距离。基于计算得到的距离来确定第一用户和第二用户之间的相关度，以作为用于最终信息相关度的一个因子或权重。

下面将参照图3和图4来描述在框204处计算第一用户和第二用户之间的距离的示例实施例。

图3示出了根据本公开的实施例的用于表示多个用户之间的相关度的树。在图3所示的实施例中，多个用户可以属于不同的组。这些组可以根据任何适当的关系来划分。例如，分组可以根据一个机构内部的部门组织结构来确定，属于相同部门的人员被划分到同一组中。又如，可以按照用户的亲属关系、朋友关系、社交网络关系等任何关系来将用户分组。

在图3所示的实施例中，用户分组通过树300来表示，树中的非叶子节点表示用户组，而叶子节点表示用户。在此示例中，多个用户首先被分为两个组，该两个组织分别为组311和组314。组311包括组312和组313，用户321、用户322和用户323属于组312，并且用户324和用户325属于组313。此外，用户321、用户326和用户327属于组314。

树300基于多个用户所在的组织的结构图而生成。根据本公开的实施例，表示多个用户之间的相关度的树不仅适用于组织结构图，而且适用于企业内容管理***。

在某些实施例中，两个用户之间的距离可以被定义为在树中从表示一个用户的节点到表示另一个用户的节点的距离。在实施例中，该距离可以通过树中的一个节点到另一个节点所经过的最小边数来确定。下文中，将表示用户或组的节点简称为用户或组的节点。

例如，在树300中，用户321的节点和组312的节点之间通过一个边来连接。也就是说，从用户321的节点到组312的节点要经过一个边。因此，用户321的节点与组312的节点之间的距离为1。

下面的表1示出了用于示出图3的树300中的各个用户与各个组之间的距离。

表1

用户	组和距离列表
		用户321	组312(1)、组311(2)、组314(1)
用户322	组312(1)、组311(2)
		用户323	组312(1)、组311(2)
用户324	组313(1)、组311(2)
		用户325	组313(1)、组311(2)
用户326	组314(1)
		用户327	组314(1)

在表1中，每个组右侧括号中的值表示对应用户到该组之间的距离。例如，用户323所在行的组311(2)表示用户323到组311之间的距离为2。

根据表1所示，可以得出各个用户之间的距离。在一个实施例中，当计算两个用户的节点之间的距离时，可以先确定两个用户的共同组或共同节点，然后相加各个用户的节点到共同节点之间的距离。例如，用户321和用户322属于组312，用户321的节点与用户322的节点之间的距离为2。此外，用户321和用户324属于组311，用户321的节点与用户324的节点之间的距离为4。

在一个实施例中，用户和其所属的组之间的距离是用户到达该组所经过的最小边数。在确定两个用户的共同组或共同节点之后，相加各个用户的节点到共同节点之间的最小距离。例如，用户321和用户323属于组312和组311二者。从用户321的节点通过组312的节点到用户323的节点的距离为2，而从用户321的节点通过组311的节点到用户323的节点的距离为4。在该实施例中，最小距离2被选择为用户321和用户323之间的距离。

在企业全文搜索引擎中，公司可能具有数目众多的团体和人员。可以创建后台服务来计算用户所属的组和用户与组之间的距离。后台服务可以遍历深度优先搜索(DFS)之后的所有组。

图4示出了根据本公开的实施例的用于表示多个用户之间的相关度的树。如图4所示，树400示出了一个总组织的树，即，组411的树。组411包括组412、组414和组416，组412包括组413，组414包括组415，用户421、用户422和用户423属于组413，用户424和用户425属于组415，并且用户421、用户424和用户427属于组416。参照图3所述的用于计算各个用户的节点之间的方法也适用于图4所示的树。

在某些实施例中，当计算各个用户之间的距离时，确定两个用户是否属于机构中的同一组，并且在树中定位与该组对应的子树。然后计算两个节点在子树中的距离。

例如，在图4的树400中，用户421属于组413，用户424属于组415，并且用户421和用户424还属于另一个组，即，组416。在此情况下，除了作为总组织的组411之外，用户421和用户424被确定为属于同一组组416。相应地，用户421的节点与用户424的节点之间的距离如上所述被确定为2。

下文中，将说明基于如上所述地计算得到的距离来确定第二用户和第一用户之间的关系或相关度。

在一个示例中，可以利用以距离为变量的幂函数来计算用户之间的关系或相关度，以用于最终信息相关度的因子或权重。例如，可以根据如下所示的幂函数来计算该因子Rweight：

Rweight＝1+x^-2 (1)

其中x是第一用户和第二用户之间的距离。

在该示例中，例如，在图3所示的树中，当响应于用户321的请求而搜索文档时，用户322编写的文档的Rweight的值为1.25(因为用户321与用户322之间的距离为2)，而用户324编写的文档的Rweight的值为1.0625(因为用户321与用户324之间的距离为4)。第一用户与第二用户之间的距离越近，因子Rweight的值越大。应当理解的是，幂函数也可以定制，可以采用与关系式(1)不同的幂函数，以在不同的场景中产生不同的因子或权重。

继续参考图2，在框206，基于第一相关度来确定第二信息与第一信息之间的最终信息相关度(也称为第二相关度)。在该框处，基于在框204处确定的第一相关度来确定搜索到的信息与期望的信息之间的第二相关度。

在某些实施例中，基于第一用户和第二用户之间的第一相关度来调整第二信息与第一信息之间的初始信息相关度，以获得第二相关度作为最终信息相关度。初始信息相关度是以传统方式计算的搜索到的信息与期望的信息之间的信息相关度。

在一个示例中，可以根据以下关系式来计算最终信息相关度：

Relevance(用户,文档)＝Rweigh×Cweight (2)

其中Relevance(用户,文档)表示第一用户所期望的信息与搜索到的文档信息之间的最终信息相关度，Cweight表示上述的初始信息相关度。

在该示例中，Rweight的值乘以Cweight的值，以获得最终信息相关度。第一用户与第二用户之间的距离越近，因子Rweight的值越大，最终信息相关度的值越大。在该示例中，如果其他因素相同，第一用户与第二用户之间的距离越近，第一信息与第二信息之间的最终信息相关度越高。

例如，在图3的树中，当响应于用户321的请求进行搜索时，用户322编写的文档的Rweight为1.25，而用户324编写的文档的Rweight为1.0625，用户322编写的文档与用户321期望的信息之间的最终信息相关度较高。

例如，在图4的树中，当响应于用户321的请求进行搜索时，用户324与用户321之间的最小距离为2，则用户324编写的文档的Rweight为1.25，用户324编写的文档与用户321期望的信息之间的最终信息相关度较高。

在上述示例中，最终信息相关度表示为Rweight与Cweight乘积，如关系式(2)所示。然而，应当理解的是，可以采用Rweight与Cweight之间的其他关系式，只要Rweight用于调整或修改Cweight以获得基于Rweight的最终信息相关度即可。

继续参考图2，在框208，至少部分地基于第二相关度向第一用户呈现第二信息。在该框处，基于在框206处获得的最终信息相关度来将搜索到的信息呈现给第一用户。

在某些实施例中，基于最终信息相关度来确定搜索到的信息在将要呈现给第一用户的多条信息中的位置。在实施例中，具有较高的最终信息相关度的搜索到的信息以较高的优先级返回给第一用户。

例如，在图3的树中，当响应于用户321的请求进行搜索时，如果其他因素相同，相比于用户324编写的文档，用户322编写的文档将以更高的优先级返回给用户321。

可以理解的是，在其他实施例中，与搜索到的信息相关联的用户也可以是上述的各个组。在此情况下，基于搜索者与各个组之间的距离来确定搜索到的信息与期望的信息之间的最终信息相关度。

图5示出了根据本公开的实施例的装置的框图。可以理解，图5所示的装置500可以实施在图1所示的用户终端101和/或网络103。如图5所示，装置500可以包括搜索模块501、计算模块502、确定模块503和呈现模块504。搜索模块501可以配置为响应于来自第一用户的针对第一信息的请求，搜索数据库以获取第二信息。计算模块502可以配置为确定与第二信息相关联的第二用户和第一用户之间的第一相关度。确定模块503可以配置为基于第一相关度来确定第二信息与第一信息之间的第二相关度。呈现模块504可以配置为至少部分地基于第二相关度来向第一用户呈现第二信息。

在某些实施例中，计算模块502可以进一步配置为在表示多个用户之间的相关度的树中，确定表示第一用户的第一节点和表示第二用户的第二节点，以及通过计算第一节点与第二节点之间的距离来确定第一相关度。

在某些实施例中，计算模块502可以包括距离计算模块，其配置为计算从第一节点到第二节点所经过的最少边数作为所述距离。

在某些实施例中，距离计算模块可以进一步配置为响应于确定第一用户和第二用户是否属于机构中的同一组，在树中定位与所述组对应的子树，以及计算第一节点和第二节点在所述子树中的距离。

在某些实施例中，计算模块502可以包括树生成模块，其配置为基于多个用户所在的组织的结构图来生成树。

在某些实施例中，计算模块502可以包括相关度计算模块，其配置为基于以所述距离为变量的幂函数来确定第一相关度。

在某些实施例中，确定模块503可以进一步配置为基于第一相关度来调整第一信息与第二信息之间的初始相关度，以获得第二相关度。

在某些实施例中，呈现模块504可以进一步配置为基于所述第二相关度确定所述第二信息在将要呈现给所述第一用户的多条信息中的位置。

装置500中所包括的模块可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。在一个实施例中，一个或多个模块可以使用软件和/或固件来实现，例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代，装置500中的部分或者全部模块可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制，可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上***(SOC)、复杂可编程逻辑器件(CPLD)等。

应当理解，尽管在上文提及了设备的若干模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

图6示出了根据本公开的实施例的信息处理设备的结构示意图。图6所示的信息处理设备600可以用于实施图2的信息处理方法200。

如图6所示，信息处理设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储信息处理设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

信息处理设备600中的多个部件连接至I/O接口605，该部件包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

中央处理单元601例如执行信息处理方法600。例如，在一些实施例中，信息处理方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU 601执行时，可以执行上文描述的信息处理方法200的一个或多个框。可替代地，在其他实施例中，CPU 601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息处理方法200。

本领域的技术人员应当理解，上述本公开的方法的各个操作可以通过通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上。可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块制作成单个集成电路模块来实现。这样，本公开不限制于任何特定的硬件和软件结合。

根据本公开的实施例的信息处理方法和信息处理设备中，引入了用于全文搜索信息相关度的新的提高因子，基于搜索者和与搜索到的信息相关联的用户之间的相关度(例如，基于树中的距离确定)来衡量搜索到的信息的重要性或相关度，从而与搜索者的关注点更相关的信息更有可能以高优先级返回。与传统的全文引擎搜索不考虑搜索者和文档用户之间的相关度相比，避免了以高优先级返回不太感兴趣的不相关文档。

尽管已经在此示出并描述了具体实施例，本领域技术人员应当理解的是，在不脱离本公开的范围的情况下，各种替换和/或等价实施方式可以替代所示和所述的具体实施例。本公开意在覆盖在此所述具体实施例的任意改变或变形。

Claims

1.一种用于信息处理的方法，包括：

响应于来自第一用户的针对第一信息的请求，搜索数据库以获取第二信息；

确定与所述第二信息相关联的第二用户和所述第一用户之间的第一相关度；

基于所述第一相关度来确定所述第二信息与所述第一信息之间的第二相关度；以及

至少部分地基于所述第二相关度来向所述第一用户呈现所述第二信息。

2.根据权利要求1所述的方法，其中确定所述第一相关度包括：

在表示多个用户之间的相关度的树中，确定表示所述第一用户的第一节点和表示所述第二用户的第二节点；以及

通过计算所述第一节点与所述第二节点之间的距离来确定所述第一相关度。

3.根据权利要求2所述的方法，其中计算所述距离包括：

计算从所述第一节点到所述第二节点所经过的最少边数作为所述距离。

4.根据权利要求2所述的方法，其中计算所述距离包括：

响应于确定所述第一用户和所述第二用户是否属于机构中的同一组，在所述树中定位与所述组对应的子树；以及

计算所述第一节点和所述第二节点在所述子树中的距离。

5.根据权利要求2所述的方法，其中所述树基于所述多个用户所在的组织的结构图而生成。

6.根据权利要求2所述的方法，其中通过计算所述第一节点与所述第二节点之间的距离来确定所述第一相关度包括：

基于以所述距离为变量的幂函数来确定所述第一相关度。

7.根据权利要求1至6中任一项所述的方法，其中确定所述第二相关度包括：

基于所述第一相关度来调整所述第一信息与所述第二信息之间的初始相关度，以获得所述第二相关度。

8.根据权利要求7所述的方法，其中呈现所述第二信息包括：

基于所述第二相关度确定所述第二信息在将要呈现给所述第一用户的多条信息中的位置。

9.一种电子设备，包括：

处理单元；和

存储器，其耦合至所述处理单元并且具有存储于其中的指令，所述指令在被所述处理单元执行时使所述电子设备执行动作，所述动作包括：

响应于来自第一用户的第一信息的请求，搜索数据库以获取第二信息；

10.根据权利要求9所述的设备，其中确定所述第一相关度包括：

11.根据权利要求10所述的设备，其中计算所述距离包括：

12.根据权利要求10所述的设备，其中计算所述距离包括：

计算所述第一节点和所述第二节点在所述子树中的距离。

13.根据权利要求10所述的设备，其中所述树基于所述多个用户所在的组织的结构图而生成。

14.根据权利要求10所述的设备，其中通过计算所述第一节点与所述第二节点之间的距离来确定所述第一相关度包括：

基于以所述距离为变量的幂函数来确定所述第一相关度。

15.根据权利要求9至14中任一项所述的设备，其中确定所述第二相关度包括：

16.根据权利要求15所述的设备，其中呈现所述第二信息包括：

17.一种计算机程序产品，其有形地存储在计算机可读存储介质上并且包括指令，该指令在至少一个处理器上被执行时使所述至少一个处理器执行根据权利要求1至8中任一项所述的方法。