CN107533574A

CN107533574A - 基于随机索引模式匹配的电子邮件关系查找器***

Info

Publication number: CN107533574A
Application number: CN201680023542.8A
Authority: CN
Inventors: 卡洛林娜·索敏恩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-09-03
Filing date: 2016-08-25
Publication date: 2018-01-02
Also published as: WO2017036341A1; US10936638B2; US20180189298A1; EP3139327A1

Abstract

用于识别相似电子消息的装置包括：处理器，用于：检测第一电子消息；检测所述第一电子消息中的一个或多个有效词的词集；将检测到的所述第一电子消息中的一个或多个有效词的词集与来自多个其他电子消息的一个或多个有效词的一组或多组词集进行比较；并呈现至少一个来自所述多个其他电子消息的第二电子消息，其中，所述多个其他电子消息包括与所述检测到的所述第一电子消息中的一个或多个有效词的词集相似的一个或多个有效词的词集。

Description

基于随机索引模式匹配的电子邮件关系查找器***

技术领域

所公开的实施例的方面大体涉及电子邮件或消息程序，尤其涉及在电子通信程序中识别电子消息之间的相似度。

背景技术

移动通信或计算设备，例如智能电话、平板电脑或者平板手机等，可以包括存储在其上的任意数量的应用或程序。这些应用可以包括一个或多个电子通信应用，例如电子邮件(electronic mail，简称email)应用。移动操作***中的传统电子邮件应用通常实现一个或多个用户定义的过滤器，将文本分类成文件夹或者将其自动分类为预定义的类别。结构化预定义类别，使得可以使用机器学习算法中的监督学习来将属于这些类别之一的电子邮件分类。

电子邮件应用的典型用户界面不能查找可能与当前打开的电子邮件主题有关的电子邮件。电子邮件应用的收件箱中进行的任何有关信息的搜索都留待用户执行。当电子邮件收件箱中有很多电子邮件时，这可能是一项乏味且耗时的工作。电子邮件收件箱中有成千上万的电子邮件是很常见的。因此，能够容易地、自动地识别电子邮件应用中的电子邮件之间的关系是有利的。

将文本按未预定义的类别分类是个问题。机器学习中的解决方案通常基于为问题中的任务处理创建的预定义模型。作为示例，一些电子邮件应用可以将电子邮件归类，例如，按照“主用、社交、更新和论坛”分类。然而，这种类型的电子邮件应用不会以某种方式自动查找彼此相关的电子邮件。对以某些方式相关的电子消息(如电子邮件)进行自动识别并归类是有利的。

因此，需要改进的装置和方法，识别相关电子消息。

发明内容

本发明的目的在于提供一种装置和方法，用于在电子通信应用中改进对相似或相关电子消息的识别。独立权利要求主旨是解决该目的。附属权利要求中可以找到进一步有利的修改。

根据本发明的第一方面，上述和进一步的目的和优点是通过用于识别相似电子消息的装置获得的。所述装置包括：处理器，用于：检测第一电子消息；检测第一电子消息；检测所述第一电子消息中的一个或多个有效词的词集；将检测到的所述第一电子消息中的一个或多个有效词的词集与来自多个其他电子消息的一个或多个有效词的词集进行比较；并呈现至少一个来自所述多个其他电子消息的第二电子消息，其中，所述多个其他电子消息包括与所述检测到的所述第一电子消息中的一个或多个有效词的词集相似的一个或多个有效词的词集。所公开的实施例的方面自动地将文本或文档减至一组关键词。剩余的一组关键词可以与其他电子消息中的关键词词集相匹配，以识别相似之处。这为消息之间关系的计算提供了更快的方式。

根据第一方面，在所述装置的第一种可能的实现方式中，所述处理器用于：通过以下方式检测所述第一电子消息中的一个或多个有效词的词集：识别所述第一电子消息中的一个或多个单词；从所识别的一个或多个单词中减去普通语言单词，形成剩余词集，其中，所述剩余词集包括所述一个或多个有效词的词集。将消息的内容减至有效词或关键词的词集，该词集识别表示特定消息或使文档唯一的单词。消除常用词，提供更简单的模型，使得更快更容易地计算消息内容之间的相似模式和关系。

根据第一方面或根据第一方面的所述装置的第一种可能的实现方式，在所述装置的第二种可能的实现方式中，所述处理器用于将所述第一电子消息中的一个或多个有效词的词集转化为机器可读格式。将原始数据转化为机器可理解语言有利于基于文本的分类和分析。这是有利的，因为所公开的实施例的***应该不限制此描述，允许以可靠的方式处理单词或参数。

根据第一方面或根据第一方面的所述装置的任意一种前述可能的实现方式，在所述装置的第三种可能的实现方式中，所述处理器用于：将所述第一电子消息中的一个或多个有效词的词集以及所述其他电子消息中的每组一个或多个有效词的词集作为向量呈现；计算表示所述第一电子消息中的一个或多个有效词的词集的向量与所述其他电子消息中的每个向量之间的余弦距离；并使用所计算的余弦距离来识别与所述第一电子消息相似的其他电子消息。所公开的实施例的方面将该词集转化为向量。确定不同向量之间的相似关系，并且可以用于形成用于识别相似关系的依据。

根据第一方面或根据第一方面的所述装置的任意一种前述可能的实现方式，在所述装置的第四种可能的实现方式中，所述处理器用于：通过以下方式检测所述第一电子消息中的一个或多个有效词的词集：检测所述第一电子消息中的单词；识别检测到的单词对应的向量，或者如果没有识别出所检测到的单词对应的向量，则为检测到的单词生成新向量；使用所述第一电子消息中的每个单词对应的向量为所述第一电子消息编码转换矩阵；从为所述第一电子消息编码的转换矩阵中减去普通语言转换矩阵，其中，减法的结果对应于所述第一电子消息中的一个或多个有效词的词集。由于矩阵中的每行表示一个单词，所以有效词的向量表示之间的相似度的计算更简单和更快。

根据第一方面或根据第一方面的所述装置的任意一种前述可能的实现方式，在所述装置的第五种可能的实现方式中，所述处理器用于通过随机索引***检测所述第一电子消息中的一个或多个有效词的词集。随机索引***的使用提供了可靠的文本分类***，并且能够识别当前词集和先前生成的词集之间的相似性。

随机索引算法已用于自然语言处理和文本分类。Magnus Sahlgren的名为《TheWord-Space Model》的论文中使用分布分析法表示高维向量空间中的单词间的语义和范式关系描述了随机索引在文本分类中的使用。然而，Sahlgren仅描述了文本分类。没有在移动设备上或使用移动设备预测用户动作相关的启示。根据所公开的实施例的方面，使用随机索引算法使得电子邮件消息之间的关系能够基于文本分析来确定，而不需要程序员显式编程活动模型。

根据第一方面的所述装置的第四种和第五种可能的实现方式中的任意一种可能的实现方式，在所述装置第一种可能的实现方式中，所述处理器用于：将减法的结果编码为向量表示；将所述向量表示与向量表示的矩阵进行比较，其中所述矩阵中的每个向量表示与标识符相关联；将标识符与所述向量表示相关联，其中，如果所述向量表示与所述矩阵中的现有向量表示不相似，则所述标识符包括新标识符，或者如果所述向量表示与所述矩阵中的现有向量表示相似，则将所述向量表示与所述矩阵中的相似的现有向量表示的标识符相关联；识别具有相同标识符的其他电子消息，其中，所述具有相同标识符的其他电子消息包括所述相似电子消息。这是有利的，因为每个单词都有一个向量且在该转换矩阵中有一行。通过将转换矩阵中的向量与该向量进行比较，确定呈现的相似消息。相似向量对应的矩阵的行中的单词形成识别相似消息和文本的依据。可以将标识符映射回实际消息，为计算和识别相关消息和文本提供了更简单、更快速的方式。

根据第一方面或根据第一方面的所述装置的第四种和第五种可能的实现方式中的任意一种可能的实现方式，在所述装置第一种可能的实现方式中，所述处理器用于通过余弦相似度度量来确定所述向量表示是否与所述矩阵中的现有向量表示相似。向量表示为计算相似度提供了可靠且更快速的方法。

根据第一方面或根据第一方面的所述装置的任意一种前述可能的实现方式，在所述装置的第六种可能的实现方式中，所述装置包括用户界面，且所述处理器用于在所述用户界面的第一部分中呈现所述第一电子消息，并在所述用户界面的第二部分中呈现所述第二电子消息。所公开的实施例的方面提供了一种自动化方式，在设备的显示器上以易于识别的方式呈现相似消息。

根据第一方面或根据第一方面的所述装置的任意一种前述可能的实现方式，在所述装置的第七种可能的实现方式中，所述第一电子消息包括电子通信应用上或电子通信应用中打开或选择的电子消息。当选择消息时，例如打开消息，所公开的实施例的方面可以自动识别和呈现与打开或选择的消息相似的其他消息，而不需要额外的步骤或搜索参数。

根据第一方面的所述装置的第七种可能的实现方式，在所述装置的第一种可能的实现方式中，所述电子通信应用是电子邮件应用、聊天应用或社交媒体应用中的一个或多个。所公开的实施例的方面适用于任何基于电子或基于文本的通信应用或程序。

根据第一方面或根据第一方面的所述装置的任意一种前述可能的实现方式，在所述装置的第八种可能的实现方式中，所述第一电子消息是电子邮件、聊天消息、博客记录，或社交媒体记录。所公开的实施例的方面可以基于文本分析各种不同类型的消息的内容，并以快速且可靠的方式识别相似消息。

根据本发明的第二方面，上述和进一步的目的和优点是通过用于识别相似电子消息的方法获得的。所述方法包括：检测第一电子消息；检测所述第一电子消息中的一个或多个有效词的词集；将检测到的所述第一电子消息中的一个或多个有效词的词集与多个其他电子消息中的一个或多个有效词的一组或多组词集进行比较；呈现至少一个来自所述多个其他电子消息的第二电子消息，其中，所述多个其他电子消息包括与所述检测到的所述第一电子消息中一个或多个有效词的词集相似的一个或多个有效词的词集。所公开的实施例的方面自动地将文本或文档减少到一组有效词或关键词。可以将该组关键词与应用或程序中的其他词集进行匹配，以识别不同消息之间的模式。这为消息之间关系的识别和计算提供了更快的方式。

根据第二方面，在所述方法的第一种实现方式中，所述方法包括通过以下方式检测所述第一电子消息中一个或多个有效词的词集：识别所述第一电子消息中的一个或多个单词；从所识别的一个或多个单词减去普通语言单词，形成剩余词集，其中，所述剩余词集包括所述一个或多个有效词的词集。将消息的内容减至有效词或关键词的词集，该词集识别表示特定消息或使文档唯一的单词。消除常用词，提供更简单的模型，使得更快更容易地计算不同消息内容之间的相似模式和关系。

根据本发明的第三方面，上述和进一步的目的和优点是通过一种计算机程序产品获得的，该计算机程序产品包括非瞬时性计算机程序指令，其中，所述非瞬时性计算机程序指令在被处理器执行时能够使所述处理器执行根据第二方面的方法。上述和其他目的通过独立权利要求的特征来实现。根据附属权利要求、描述以及附图，进一步的实现方式是显而易见的。

通过下文中结合附图对实施例进行的描述，示例性实施例的这些和其他方面的实现方式和优点显而易见。然而，应当理解的是，此类描述和附图仅仅用于说明的目的，而不能作为对本发明的限制；对本发明的任何限制，应参考所附权利要求书。本发明的附加方面和优点将在随后的说明书阐述，并且，部分方面和优点在说明书中显而易见，或者可以通过实施本发明而了解。此外，本发明的方面和优点可通过所附权利要求书中特别指出的手段或结合方式实现和获得。

附图说明

在本公开内容的以下详述部分中，将参看附图中所展示的示例性实施例来更详细地解释本发明，其中：

图1示出了适于实践本发明实施例的一种计算设备的方框图；

图2示出了传统电子邮件程序的用户界面的示例；

图3示出了传统电子邮件程序的用户界面的另一示例；

图4示出了综合公开实施例各方面的计算设备的示例性用户界面的方框图；

图5示出了综合公开实施例各方面的装置的方框图；

图6示出了综合公开实施例各方面的随机索引***的示例性结构的方框图；

图7为综合公开实施例各方面的描述示例性过程的流程图。

具体实施方式

这里公开方法和装置提供一种电子消息关系查找器***，用于自动识别与所选的或打开的电子消息相关或相似的有关消息，尤其是电子消息。然后可以将具有与打开的电子消息相似的文本模式的电子消息作为相似电子消息呈现。

电子消息，例如电子邮件消息(这里通常被称为“电子邮件”)通常会包括文本或文本内容等。这样的文本或文本内容在本文中通常会被称为“一个单词”，“多个单词”或“词集”。电子消息的文本内容通常会包括一个或多个常用词和有效词的组合，有效词也称为关键词。常用词可能是那些经常出现在不同的电子消息中的单词，但是不区分一个电子消息与其他电子消息(例如，and、the、I、me、you、or、as、of)。有效词或关键词是那些可以用于将一个消息与其他消息区分开的词。有效词可以很少出现，也可以经常出现。

在一实施例中，识别电子消息中的有效词，例如电子邮件应用中打开的电子邮件。确定打开的电子消息中的有效词和其他电子消息的有效词之间的相似度。然后将具有与打开的电子消息的有效词的词集相似的有效词的词集的其他电子消息作为相似电子消息识别并呈现。

为了本发明的目的，电子消息通常可以被称为“一封电子邮件”，“多封电子邮件”或“文档”。然而，所公开的实施例的方面不限于此，并且可以包括任何类型的基于电子的消息、应用或包括或具有文本内容的文档。这些电子消息或文档可以包括但不限于短消息业务(short message service，简称SMS)、电子文档、社交媒体应用、博客应用或即时通信应用等。

所公开的实施例的方面利用随机索引***自动创建和匹配不同电子邮件的文本模式。随机索引***可以用于学习或了解普通英语语言或者电子通信应用所基于的任何其他语言等。例如，所公开的实施例的随机索引***可以在语料库上训练来学习电子通信应用的特定语言，并且生成相应的语言随机索引矩阵。在一实施例中，随机索引***可以从纯文本文档学习语言，并且不需要预定义的字典或停用词列表。字典或词汇列表是自动创建的且***是自适应的。

创建每个不同电子消息中的有效词的向量表示。如果可以识别随机索引矩阵中的相似向量，则将与相似向量相关联的电子消息识别为有关的、相似的或相关的电子消息。这里也可以称为模式匹配。然后可以以本文大体描述的方式呈现这些相似电子消息。

图1示出了适于实现综合公开实施例各方面的装置或设备100的方块图。本发明实施例所示装置100包括耦合到计算机存储器104的处理器102、可选射频(radio frequency，简称RF)单元106、用户界面(user interface，简称UI)108，以及可选显示器110。所述装置100适于作为计算或通信设备使用，且该计算或通信设备上可以操作电子邮件或通信应用或程序。在一实施例中，所述装置100可以是或可以包括蜂窝电话、智能电话和平板设备等各种类型的无线通信用户设备中的任何一个或多个。

处理器102可以是单个处理设备，也可以包括多个处理设备，例如专用设备，如数字信号处理(digital signal processing，简称DSP)设备、微处理器、专用处理设备或通用计算机处理器等。如本发明大体描述的，处理器102用于进行电子消息模式匹配、分类、索引和呈现。

处理器102耦合到存储器104，其中，存储器104可以是各种类型的易失性和非易失性计算机存储器的组合，例如只读存储器(read-only memory，简称ROM)、随机存取存储器(random access memory，简称RAM)、磁盘或光盘，或其他类型的计算机存储器等。存储器104存储可由处理器102访问和执行的计算机程序指令，以使处理器执行各种理想的计算机实现过程或方法。

将存储器104中存储的程序指令组织成一系列或一组程序指令，这些程序指令参考行业中各种术语，例如程序、软件组件、软件模块和单元等。每个程序可以为识别类型，例如操作***、应用、设备驱动程序或是其他常规认可的软件组件类型。存储器104中还包括由计算机程序指令存储和处理的程序数据和数据文件。在一实施例中，电子通信/邮件应用或程序120是存储器104的一部分，或与存储器104耦合。

RF单元106耦合到处理器102，用于基于与处理器102交换的数字数据发送和接收RF信号。RF单元106用于发送和接收无线信号，该无线信号可以符合一个或多个现在使用的无线通信标准，例如由第三代合作伙伴计划(3rd Generation Partnership Project，简称3GPP)开发的GSM、UMTS、长期演进(Long Term Evolution，简称LTE)和LTE-Advanced(LTE-Advanced，简称LTE-A)，基于电气和电子工程师学会(Institute of Electrical andElectronics Engineers，简称IEEE)802.11标准，以及许多其他标准等。在某些实施例中，RF单元106包括接收机，能够接收和解释从全球定位***(Global Positioning System，简称GPS)中的卫星发送的消息，且该消息与从其他发射机接收的信息一起工作，获得与设备100的位置相关的定位信息。

UI 108可以包括一个或多个用户界面元件，例如触摸屏、键盘、按钮、语音命令处理器以及适于与用户交换信息的其他元件。UI 108还可以包括或连接到显示单元110。显示单元110用于显示适用于计算设备、移动计算设备或移动用户设备的各种信息，并且可以通过任何合适的显示类型来实现。显示类型可以包括有机发光二极管(organic lightemitting diode，简称OLED)、液晶显示屏(liquid crystal display，简称LCD)以及较不复杂的元件，如LED或指示灯等。在某些实施例中，显示单元110包括触摸或近触摸屏，用于从用户接收信息。

上文描述的图1中示出的装置100适于实现本文公开的任何装置和方法。特别地，处理器102可以用于执行前述和以下描述的方法。

图2示出了用户界面200的示例，描述传统电子邮件程序的电子邮件项或消息在电子设备上的呈现。如该示例所示，可以被称为电子邮件应用“收件箱”的用户界面200提供预定义的静态电子邮件类别的集合202。集合202中的这些预定义的类别对某些电子邮件按照这些类别进行分类和组织。另外，未分类电子邮件204以未分类方式呈现。虽然电子邮件可以被置于图2所示的类别集合202中，但是这些电子邮件程序不会以如本文所描述的方式自动地找到并识别电子邮件收件箱中彼此相关或相似的电子邮件。虽然本文中经常提到电子邮件收件箱，但是应当理解，除了所述收件箱，所公开的实施例的方面可以应用于通信或电子邮件应用的任何部分或文件夹。

图3示出了传统电子邮件程序中的打开的电子邮件的示例。如该示例所示，电子邮件的正文302在设备(例如图1的设备100)的用户界面300上呈现。在该示例中，该设备是移动通信设备。如该示例所示，仅显示了包括文本的电子邮件的内容。不识别与正在显示的电子邮件相关或相似的电子邮件。

图4是根据所公开的实施例的方面呈现了示例性电子邮件410的用户界面400的图示。虽然图4中示出了电子邮件，但是应当理解，用户接口400可用于呈现任何电子文档，例如网页、文档或***文档等。用户界面400可以在计算设备上实现，例如图1所示的设备100。在该示例中，电子邮件410的正文或内容在用户界面400的第一部分402中呈现。如通常所理解的那样，该示例中的电子邮件410还包括“发件人”部分404和“主题”部分406。在可替代实施例中，电子邮件410可以包括任何适用的部分。

如图4所示，电子邮件410仅包括文本或单词。在可替代实施例中，可以理解，电子邮件410还可以包括其他元素和对象，如图像和图形对象。这些其他元素和对象还可以包括文本。如本文大体上描述的，可以对该文本进行分析和分类，识别相似模式。

用户接口400包括第二部分420，其中，所述第二部分420在该示例中指示“该电子邮件的相关电子邮件”部分。所述第二部分420用于以如本文所述的方式呈现识别出的与打开的电子邮件410相似的一个或多个其他电子邮件422。在图4所示的示例中，一个或多个其他电子邮件422作为可选链接呈现或包括可选链接。如果以通常所理解的方式选择或激活该链接，则会使实际或潜在的电子邮件呈现或显示。因此，以通常理解的方式点击链接，使潜在电子邮件在用户界面400的可视区的同一窗口或另一窗口中打开。

尽管图4中有五个其他电子邮件422作为相似电子邮件示出，但是在可替代实施例中，可以呈现任意适量的相似电子邮件。在一实施例中，用户界面400上呈现的相似电子邮件的数量可以由用户预定义或预设。例如，用户可能只想在用户界面400上看到与所选或所打开的电子邮件相似的置顶的2封、5封或10封电子邮件。所公开的实施例的方面允许用户设置所期望的数量。

进一步的，与图4所示的其他电子邮件422相关的识别信息或细节可以包括任何合适的信息。例如，在一实施例中，其他电子邮件422的识别信息可以包括主题、标题或日期中的一个或多个。所公开的实施例的方面可以允许用户指定提供的信息。

图5示出了综合所公开的实施例的各方面的表示电子通信模式匹配和分类***500的方框图。所公开的实施例的电子通信模式匹配和分类***500可以识别与打开的电子消息相似或相关的其他电子消息。在图5的示例中，电子通信模式匹配和分类***500包括电子邮件/通信应用或引擎502(这里通常被称为电子邮件引擎502)、显着性检测器504和随机索引***506。在可替代实施例中，***500可以包括用于识别和显示与打开的电子消息相关或相似的电子消息的其他组件、设备或***。

电子通信模式匹配和分类***500通常配置有图1所示的示例性设备100或配置成图1所示的示例性设备100的一部分。在一实施例中，***500是设备100的操作***的一部分。无需像其他***那样将个人数据从设备100传输到服务器或云，所公开的实施例的方面不需要任何这类数据传输。个人用户内容和用户数据安全性在本地维护，提供更为强劲和安全的***。

所公开的实施例的方面用于检测或识别电子消息，如电子邮件。将该电子邮件的文本与电子邮件引擎502中或与电子邮件引擎502相关联的其他电子邮件的文本等进行比较。为达到本文描述的目的，会将该电子邮件称为所选电子邮件。所选电子邮件可以在电子邮件应用的任何合适的部分或文件夹中，或者来自任何合适的部分或文件夹，例如收件箱或已发送项文件夹。可以理解的是，接收电子邮件并存储在电子邮件引擎502中的一些存储库(例如文件夹)中的任何一个中。所公开的实施例的方面并不限于可能存储在电子邮件引擎502中的电子邮件。在可替代实施例中，电子邮件可以被保存或存储在与电子邮件引擎502相关联或可由电子邮件引擎502访问的任何合适的存储库中。

根据所公开的实施例的方面，当在电子邮件引擎502中打开或识别所选电子邮件时，将所选电子邮件的内容传送给显着性检测器504或由显着检测器504以其他方式获得。在一实施例中，显着性检测器504耦合到电子邮件引擎502，并用于解析或扫描所选电子邮件，获得文本内容。在识别出文本内容之后，显着性检测器502用于将所选电子邮件的文本内容减至一个或多个有效词。有效词在这里也称为“关键词”。所选电子邮件中的一个或多个有效词是所选电子邮件独有的那些单词，或者是可用于区分所选电子邮件与其他电子邮件。在一实施例中，显着性检测器502用于丢弃电子邮件的文本中标识的常用词，仅留下有效词。

显着性检测器504通常用于识别与电子邮件引擎502已处理或存储的所有其他电子邮件相比，所选电子邮件所独有的文本内容。在一实施例中，显着性检测器504用于学习或“了解”形成电子邮件引擎502的依据的普通语言的普通图像或模式。这可以包括英语语言或任何其他语言。

在一实施例中，丢弃电子邮件中经常出现但不区分电子邮件的常用词。显着性检测器504用于以算法形式丢弃电子邮件中那些频繁出现但不特殊或不唯一的单词。不特殊或不唯一的单词通常是那些不能用于将一封电子邮件的文本与另一个电子邮件的文本区分开的单词。

在一实施例中，***500用于通过语料库进行训练，并且基于语料库创建可被称为普通语言模型的语言特定随机索引矩阵。将语言上下文转换(单词A→单词B)编码成稀疏转换矩阵。为每个新发现的单词生成索引向量，并且将索引向量存储在存储器中，如图1的存储器104。下面将更详细地描述，该学习过程可以在用户开始使用电子邮件引擎502之前进行，确保分类从一开始就涵盖大量知识且智能化。

本文所使用的术语“索引向量”通常是指代表输入模式的随机索引中的向量，例如总是相同的单词。例如，存在一本字典，其中每个单词对应一个稀疏向量。本文使用的术语“稀疏向量”通常是指稀少输入的向量，例如，一个向量有10000个存储位置，其中仅有少量索引被占用。在该字典中，每个单词对应于一个稀疏向量，每个稀疏向量是一个索引向量，它说明了哪些索引表示这种模式(例如一个单词)。

随机索引是由某种稀疏向量(稀疏矩阵)组成的矩阵。索引是随机输入的，这意味着索引向量中的索引是随机生成器生成的。随机索引矩阵是由随机索引构成的稀疏矩阵。

训练中用于创建普通语言模型的文档的性质可以包括任何合适的文档。***500需要能够从这些文档中学习足够的“单词”经验以扩展普通语言模型。例如，可以用适当的方式将纯文本格式的小说输入到***500，从而训练***500。

在一实施例中，显着性检测器504用于学习语言的一般模式，其通常描述该语言的文本中的经常出现的单词。阈值仅允许常用词进入该模式。如上所述，常用词是那些可能经常出现但不独有的词，或是那些不能用于区分一个文档/消息与另一个文档/消息的词。在一实施例中，显着性检测器504用于从电子消息的文本中以算法形式丢弃常用词。

作为示例，在学习或预训练周期内，对文档中用于学习的单词进行加权。这些单词的权重相乘，使得有效词的词集中不太可能包括语言模型中出现更频繁的单词。加权是为了当索引向量相加形成文档的稀疏矩阵时，增加权重(即，索引中的数字)。在一实施例中，在查找表中不需要单独加权单词。相反，单词加权发生在稀疏矩阵自身中。文档中，对每个单词的语言上下文用其之前的一个或多个单词进行编码(即单词之间的转换)。将某个单词之前的单词当作该单词的上下文。例如，“Car is white”和“Cat is white”都包含单词“white”。然而，上下文是不同的，因为一个是指汽车，另一个是猫。“转换”是指单词之间的变化。短语“Car is white”转换成car→is→white。所公开的实施例的方面形成该词的数学表示，并且按照“car”之后是“is”，“is”之后是“white”等对该词进行编码。当存在多个转换时，对这些字进行远比1大的加权(使用从0到2^32的整数值)。

普通语言中最常见的单词通常是文档中不重要的单词。频繁出现在文档中但是不那么频繁出现在普通语言中的单词通常是文档中那些重要的单词。这样可以从文档中提取特定单词。这些特定单词往往描述或者通常表示这是关于什么的文档。例如，文档可以包括例如“the、a、an、to、in、I”等单词。然而，这些词通常并不指示这是关于什么的文档。然而，使用这种提取方法将文档减至有效词或关键词，会产生如“Mars、Colony、Elon、Musk、SpaceX”的关键词的词集。这些单词可以为这个是关于什么的文档或者为上下文提供更好的认知，而不是由词集“if、the、a、an、in、this、but、and、its”描述文档。

在一实施例中，消除常用词可以包括应用逆对数函数对单词加权，以得到减少的词集或有效词的词集。如下所述，对普通语言模型中的单词加权，以使罕见或不常见的单词不会处于普通语言模型的转换矩阵中。相反，普通语言模型的转换矩阵中只有常用词。

如上所述，创建的普通语言模型或模式也由转换矩阵表示。将所选电子邮件的转换矩阵与普通语言模型的转换矩阵进行比较，例如，从所选电子邮件的转换矩阵中减去普通语言模型的转换矩阵。在一实施例中，通过将为所选电子邮件生成的转换矩阵乘以与相同单词的向量的饱和度相乘的逆指数函数，所选电子邮件的文本内容可以减至一个或多个有效词(饱和度的范围是0到100％，因此乘数是0.0和1.0之间的浮点值)。

这样，就删除了所选电子邮件的文本内容中的常用词，并且减少了所选电子邮件的文本内容。所公开的实施例的方面还减少了所谓的“停用词”，没有指定停用词字典(即在该分类目的中对于电子邮件没有重要意义的关键词列表)。结果是关键词列表使所选电子邮件具有独有的文本内容。

通过将有效词的词集中的单词的索引向量加到稀疏向量中，可以将电子邮件中的单词减至有效词的词集这一结果编码成稀疏向量。最终结果是稀疏向量包含了组合成一个稀疏向量的几个索引向量。如果一个索引向量识别一个单词，该索引向量由20个随机索引组成，并且在有效词的词集中有20个有效词，则所得到的稀疏向量具有20×20＝400个索引，均匀分布在稀疏向量中。现在，所得到的向量具有400个从具有10000个或更多个维度的稀疏向量处随机分配的索引。

如果是新模式，则可以将所得到的向量添加到模式向量的矩阵中。如果是旧模式，则不需要修改下面进一步描述的模式向量的矩阵。在一实施例中，矩阵中的每个模式向量具有其自己的唯一标识符。此处称为“类别标识符”的唯一标识符可以被返回给电子邮件引擎502，其中电子邮件引擎502可以维护电子邮件引擎502中的类别标识符到电子邮件的映射。

如上所述，在一实施例中，显着性检测器504用于通过从所选电子邮件的文本内容中减去从普通语言模型确定的普通语言单词来确定所选电子邮件中的有效词。词集中的剩余单词包含有效词的词集。在一实施例中，在所选电子邮件中创建有效词的词集的向量表示，以减少所选电子邮件的文本内容。该向量表示也称为稀疏矩阵。稀疏矩阵的行对应于有效词的词集中的单词。当检测到新的有效词时，生成索引向量。当有效词的词集中的有效词不是新词时，使用稀疏矩阵中与该有效词对应的索引向量。

在一实施例中，随机索引***506用于将所选电子邮件的有效词的词集与电子邮件引擎502中的其他电子邮件的一组或多组有效词的词集比较，找到相似或相关的电子邮件。例如，在一实施例中，电子邮件引擎502中每次接收电子邮件时，将接收的电子邮件的文本内容减至一组有效词的词集。这组有效词的词集与其他有效词的词集一起存储，然后可以将其用作比较的依据，以查找相似或相关的电子邮件。

随机索引***506用于计算所选电子邮件的一个或多个有效词的词集和电子邮件引擎502中当前保存的或存在的其他电子邮件的一个或多个有效词的词集之间的相似度，例如语义相似度。在一实施例中，如上所述，为了计算一个或多个有效词的不同词集之间的相似度，将一个或多个有效词的词集转化为向量，也称之为索引向量。不同的索引向量通过索引向量之间的并集连接在一起。使用诸如随机索引矩阵等的模式索引来存储不同的索引向量。随机索引矩阵中每一行表示一个有效词，并且通过向量求和更新向量。

所选电子邮件的有效词的词集对应形成的索引向量用于识别随机索引中的相似索引向量。这包括识别用于表示用于表示所选电子邮件的一个或多个有效词的词集的索引向量以及电子邮件引擎502中用于表示其他电子邮件的一个或多个有效词的词集的向量之间的接近度或相似度。

在一实施例中，可以使用不同索引向量之间的余弦距离或点积计算等中的一个或多个来计算接近度或相似度。当用索引向量之间的余弦相似度度量来确定相似度时，来自与所选电子邮件的有效词对应的索引矢量相似的随机索引的索引向量会具有高余弦相似度度量。

如果在足够相似的随机索引中找到现有的模式向量，返回现有模式向量的类别标识符。随机索引中的相应行的类别标识符用于标识电子邮件引擎502中的其他电子邮件。如上所述，电子邮件引擎502维护类别标识符到相应的电子邮件的映射。因此，一旦确定了类别标识符，电子邮件引擎502中的具有与该类别标识符相匹配的类别标识符的其他电子邮件是那些与所选电子邮件相似的电子邮件。然后可以类似于图4所示的方式将其他一封或多封电子邮件呈现在设备100的用户界面108上。尽管在上文可替代实施例中提到了一封电子邮件，但在可以确定有多封电子邮件与所选电子邮件相似。

用于识别相似电子邮件的接近程度可以由***500或设备100的用户预定义。尽管接近程度不需要精确或准确，但标准越松，造成的误报也就越多。

当随机索引中的相似索引向量未被识别时，在随机索引中添加新行。生成新的类别标识符并且与包含新生成的模式向量的随机索引中添加的新行相关联。所选电子邮件的有效词的索引向量形成新行，该新行具有新的类别标识符。

在一实施例中，在所选电子邮件的未缩减的内容或模式中使用转换矩阵。减少的内容不再是转换矩阵，而是表示一个或多个有效词的词集的共现的向量。减少所选电子邮件内容的副作用是会缩小时域(即因果关系)。这可能是必要的，因为讲述同一件事的电子邮件中的单词转换并不总是相似。有多种方法措辞句子和句子序列，而不改变句子的含义。因此，讨论相同或相似主题的不同电子邮件可能会有相同的单词共现，但这些单词顺序可能不完全相同。根据所公开的实施例的方面，将文本内容减至一个或多个有效词的词集并不取决于单词和句子的顺序或者说单词和句子的顺序并不重要。

索引向量是单词唯一的向量表示。从字到索引向量1:1映射。从向量方面来看，如果该词的索引向量存在于稀疏向量中，则可以计算该向量。***500中有20次冗余。因此，识别单词的索引向量不需要稀疏向量中的索引1:1映射或100％匹配。

如上所述，类别标识符可以映射到随机索引的一行。如上所述，所公开的实施例的方面允许通过利用所选电子邮件的向量的索引计算随机索引矩阵中的每个索引向量的余弦距离确定相似电子邮件。在可替代实施例中，可以确定一行中存在的索引向量的百分比。

由于随机索引矩阵中的稀疏向量是稀疏的，所以添加到随机索引的索引向量中的随机索引向量间的冲突在所公开的实施例的***500中不构成问题。例如，使用从0到999的少量索引和每个索引向量的4个索引进行图解：使用索引和值，我们得到：

索引向量：

cat：5、–1、137、1、445、1、655、–1

eats：220、1、333、–1、445、–1、800、1

cat food：24、–1、79、1、200、–1、980、–1

用于一组或多个有效词的词集或短语“cat eats cat food”的稀疏向量变为：

cat的索引向量+eats的索引向量+cat food的索引向量＝5、–1、24、–1、79、1、137、1、200、–1、220、1、333、–1、445、0、655、–1、800、1、980、–1。

在该示例中，统计中存在一个随机发生的重叠。“eats”的索引向量与“cat”的索引向量中有一个索引重叠。重叠不是问题，因为索引向量之间余弦距离的计算受其影响不严重。因此，将稀疏向量相加没有问题，因为它们几乎没有索引重叠。

如上述示例中所指出的，在一个类别中的有效词有20个表示的情况下，比如有10000个维度向量的可用空间，仅有400个索引被占用，则导致填充率只有4％。填充率通常描述稀疏向量(例如长度为10000)中被占用的存储位置在可用空位置中的百分比。这意味着如果随机索引中的稀疏向量完全饱和(填充率达约达100％)，则会出现问题。当索引(例如0和9999之间)中有数字不为零时，向量是完全饱和的。

作为示例，所选电子消息包括来自***的有关“savannah cats”的文档。***上savannah cats文章的网址为http://en.wikipedia.org/wiki/Savannah_cat。另一电子消息包括提供关于“Bengal cats”信息的网页。输入：Wikipedia article of Bengalcat:http://en.wikipedia.org/wiki/Bengal_cat。

使用所公开的实施例的显着性检测器504减少所选电子消息在savannah cats上的输出，得到的词集为：“savannah savannahs cats domestic breed cat generation”。使用所公开的实施例的显着性检测器504减少有关Bengal cats的其他电子消息的输出，得到的词集为：“cat bengal cats breed spotted domestic bengals”。这两个示例文档都是有关猫的文档。然而，它们也是不同的，分别谈论着猫的不同品种。人们会发现，如本文所述，这两个词集的余弦相似度是相似的，但是不完全相同。所公开的实施例的方面允许调整余弦相似度阈值，确定按照什么相似度进行分类。因此，根据所公开的实施例的方面，虽然因为包含不同的单词、短语、句子和词序，导致这两个电子消息的文本内容不同，但是仍然可以确定两个电子消息彼此相似。

在上述示例中，有关“savannah cats”的***文档的缩减表示的索引向量与另一电子消息(Bengal cat网页)的索引向量之间的余弦差将识别它们是相似还是相关的关系。如本文大体上描述的，根据所公开的实施例的方面，Bengal cat网页的链接，即***有关Bengal cat文章：http：//en.wikipedia.org/wiki/Bengal_cat，可以在设备100的用户界面400上呈现给用户。

在一实施例中，本文所述的有效词的词集中的单词通常可以是机器可理解语言的形式。例如，W3C URI格式是这种机器可理解语言。下面的表1示出了作为W3C符号的词集。

表1

flat：//on

utc：//2013-08-20T12：23：44

gps：//60.1954075/24.9484521

proximity：//NEAR

timezone：//EET

lighting：//LIGHT

timeOfDay：//AFTERNOON

orientation：//FACE UP

motion：//STILL

wifiNetwork：//ssid/AndroidAPks

wifiNetwork：//ssid/HWFBCPE

wifiNetwork：//ssid/NTPC02

address：//Plkneentie 14，00510 Helsinki

appStarted：//com.android.phone/null

wifiNetwork：//ssid/AndroidAP

timestamp：//2013-08-20T15：23：44

wifiNetwork：//ssid/E17-19

dayOfWeek：//TUESDAY

wifiNetwork：//ssid/Vallila Interior Visitor

wifiNetwork：//ssid/sipulinet

month：//August

location：//zonel

wifiNetwork：//ssid/jmkn4

wifiNetwork：//ssid/Mobile Pirates

wifi：//connected/AndroidAPks

wifiNetwork：//ssid/matetuuba

stability：//UNSTABLE

appNavigated：//com.android.phone/com.android.phone.InCallScreen

charger：//connected

wifiNetwork：//ssid/wlanaccessv2.0

wifiNetwork：//ssid/everest

network：//Saunalathti

所公开的实施例的方面对所选电子消息的当前的词集的转换矩阵进行编码。这就形成了多组单词的顺序稀疏转换矩阵。通过将当前词集与先前生成的词集进行比较，可以识别有效词。

在一实施例中，随机索引***506将如上述表1所示的词集中出现的每个单词转变成索引向量。索引向量是随机产生多个较小正负值的稀疏向量。在该示例性实施例中，初始值为-1和+1(例如，有10个-1和10个+1分布在10000个存储位置长度向量的随机索引中)。所公开的实施例的方面在0和9999之间的随机索引中使用10个负值和10个正值。生成的索引向量是为单词随机生成的稀疏哈希。

随机索引***506不用于限制此描述。因此，输入单词或当前词集的格式并不重要。这里描述的W3C格式是实用的，因为它能够在相似度确定阶段中使用标签。如参考图4所述，这可以将相似电子邮件识别为可以用于访问潜在的电子邮件的统一资源定位符(uniform resource locator，简称URL)。

在一实施例中，随机索引保存或备份在移动设备100的存储器104上，例如闪存。在重新启动的情况下，随机索引从存储器104处加载，并且***500重新联机以便累积更多数据并执行如本文所述的电子邮件比较。

图6示出了图5的随机索引***506的高级架构。在该示例中，随机索引***506的功能分为学习部分610和查询部分620两部分。学习部分610从新的事件或事件链中学习。例如，学习部分610确定普通语言模型。然后将该数据存储在数据结构630中。数据结构630包括每个单词的上下文向量的集合632和索引向量的集合634。在一实施例中，可以将数据结构630中存储的数据在图1的设备100的文件或存储***640中序列化，并将索引向量的集合634写入文件***640，以后将单词编码成稀疏表示时使用。

在构建索引向量的并集稀疏向量时，对从其他电子邮件识别的相同的有效词，索引向量的集合634使用相同的表示。这样就不会超过设备100的存储能力。因此，虽然每个有效词具有唯一且随机的稀疏表示或索引向量，但在以后的事件中，相同的稀疏表示总是用于相同的有效词。

随机索引***506的查询部分620使用用于每个有效词的索引向量的集合632和索引向量的集合634。词集或词袋表示有效词，并且通过结合在索引向量的集合634中找到的各个有效词的索引向量表示编码成稀疏表示。然后，使用余弦相似度度量等将所选电子邮件的索引向量与索引向量的集合632中的每个索引向量进行比较。

图7是示出了综合所公开的实施例的方面过程的一实施例的流程图，其可以由装置(例如，由所述装置的处理器)执行。在该示例中，选择电子邮件(702)。如前所述，所选电子邮件可以是设备100接收的电子邮件、正在读取的电子邮件，或能够被选择的或任何能在电子邮件引擎502上操作的其他电子邮件。

将电子邮件的文本内容减至一个或多个有效词的词集(704)。这通常包括从所选电子邮件中减去普通语言或常用语言。剩余文本包括一个或多个有效词的词集。

创建一个或多个有效词的词集的向量表示(706)。例如，将一个或多个有效词的词集中每个单词转变成索引向量之后，这些单词通过索引向量间的并集连接到一起。在一个或多个有效词的词集中没有重复的单词，因为一个或多个有效词的词集是一组字符串。索引向量的并集是稀疏向量，有在0到9999之间的10000个存储位置。稀疏向量存储在随机索引中，其中每行表示一个单词，并且列的大小为10000。参考Magnus Sahlgren的论文《TheWord-Space Model》，索引向量的并集也称为“上下文向量”。

然后，如一个或多个有效词的词集所描述的，将由所选电子邮件构建的新产生的索引向量添加到随机索引中每个单词的行中。这些索引向量会识别由该行识别的有效词。因此，如果产生索引向量的有效词与特定行相似，则可以得出可能涉及该行中的有效词的结论。

确定随机索引中存储的一个或多个索引向量是否与所选电子邮件的一个或多个有效词的词集对应的索引向量相似(708)。如上所述，相似电子消息的良好预测可以基于高余弦相似度。接收的相似的结果会高达1.0，并且接收的不相似的结果为0。在一实施例中，具有高余弦相似度度量的索引向量对应的行中的有效词按相似度顺序排序。如果索引向量与随机索引中的索引向量不相似(＝相反)，则结果为–1。结果与该结果和该结果对应的有效词一起被添加到有序的成对词集中。以结果作为关键词来完成排序，使得更大的值在相似性上排序上比较小的值更高。然后将其作为与所选电子邮件的一个或多个有效词的词集相似的一个或多个有效词的最终词集返回。

如果从随机索引找到相似向量，则返回行或类别标识符(710)。识别类别标识符对应的其他电子邮件(712)。然后，设备100将在其用户接口108上呈现人可读列表或布置中的一个或多个相关电子消息的链接，例如图4所示的电子消息等(714)。在图4的示例中，所选电子消息作为402示出，并且相关电子邮件420作为可选链接422呈现。

如果未识别出相似向量，则向随机索引添加新行(716)。用新的类别标识符识别新行(718)，并且电子邮件引擎502对新的类别标识符执行映射(720)。

所公开的实施例的方面提供用于识别设备的电子通信应用中的相似的电子消息或文档。一旦选择或识别电子消息，就将电子消息的文本内容减至一个或多个有效词的词集。有效词形成词袋或数据集。所公开的实施例的随机索引***使得所选电子消息与电子通信引擎的一部分的其他电子消息相关联。通过将所选电子消息与先前生成的其他电子消息的有效数据集进行比较，可以识别相似度并呈现相似的电子消息。有利地，所公开的实施例的基于稀疏矩阵的方法是轻量级的计算，并且可以在设备上运行，而不需要可能接收用户隐私数据的服务器。

因此，尽管文中已示出、描述和指出应用于本发明的示例性实施例的本发明的基本新颖特征，但应理解，所述领域的技术人员可以在不脱离本发明的精神和范围的情况下，对装置和方法的形式和细节以及装置操作进行各种省略、取代和改变。此外，明确希望，以大体相同的方式执行大体相同的功能以实现相同结果的那件元件的所有组合均在本发明的范围内。此外，应认识到，结合所揭示的本发明的任何形式或实施例进行展示和/或描述的结构和/或元件可作为设计选择的通用项而并入所揭示或描述或建议的任何其他形式或实施例中。因此，本发明仅受限于随附权利要求书所述的范围。

Claims

1.一种识别相似电子消息的装置，其特征在于，所述装置包括：

处理器；

所述处理器，用于：

检测第一电子消息；

检测所述第一电子消息中的一个或多个有效词的词集；

将检测到的所述第一电子消息中的一个或多个有效词的词集与来自多个其他电子消息的一个或多个有效词的词集进行比较；

呈现至少一个来自所述多个其他电子消息的第二电子消息，其中，所述多个其他电子消息包括与所述检测到的所述第一电子消息中的一个或多个有效词的词集相似的一个或多个有效词的词集。

2.根据权利要求1所述的装置，其特征在于，所述处理器用于通过以下方式检测所述第一电子消息中的一个或多个有效词的词集：

识别所述第一电子消息中的一个或多个单词；

从所识别的一个或多个单词中减去普通语言单词，形成剩余词集；

其中，所述剩余词集包括所述一个或多个有效词的词集。

3.根据权利要求1至2任意一项所述的装置，其特征在于，所述处理器用于将所述第一电子消息中的一个或多个有效词的词集转化为机器可读格式。

4.根据权利要求1至3任意一项所述的装置，其特征在于，所述处理器用于：

将所述第一电子消息中的一个或多个有效词的词集作为向量呈现，其中所述多个其他电子消息中的每组一个或多个有效词的词集作为向量呈现；

计算表示所述第一电子消息中的一个或多个有效词的词集的向量与所述多个其他电子消息中的每个向量之间的余弦距离；

使用所计算的余弦距离来识别来自与所述第一电子消息相似的多个其他电子消息中的至少一个其他电子消息。

5.根据权利要求1至4任意一项所述的装置，其特征在于，所述处理器用于通过以下方式检测所述第一电子消息中的一个或多个有效词的词集：

检测所述第一电子消息中的单词；

识别检测到的单词对应的向量，或者如果没有识别出所检测到的单词对应的向量，则为检测到的单词生成新向量；

使用所述第一电子消息中的每个单词对应的向量为所述第一电子消息编码转换矩阵；

从为所述第一电子消息编码的转换矩阵中减去普通语言转换矩阵；

其中，减法的结果对应于所述第一电子消息中的一个或多个有效词的词集。

6.根据前述权利要求1至5任意一项的装置，其特征在于，所述处理器用于通过随机索引***检测所述第一电子消息中的一个或多个有效词的词集。

7.根据权利要求5至6任意一项所述的装置，其特征在于，所述处理器用于：

将减法的结果编码为向量表示；

将所述向量表示与向量表示的矩阵进行比较，其中所述矩阵中的每个向量表示与标识符相关联；

将标识符与所述向量表示相关联，其中，如果所述向量表示与所述矩阵中的现有向量表示不相似，则所述标识符包括新标识符，或者如果所述向量表示与所述矩阵中的现有向量表示相似，则所述矩阵中的现有向量表示的标识符；

识别具有相同标识符的其他电子消息，所述具有相同标识符的其他电子消息包括所述相似电子消息。

8.根据权利要求7所述的装置，其特征在于，所述处理器用于通过余弦相似度度量来确定所述向量表示是否与所述矩阵中的现有向量表示相似。

9.根据权利要求1至8任意一项所述的装置，其特征在于，所述装置包括用户界面，其中，所述处理器用于在所述用户界面的第一部分中呈现所述第一电子消息，并在所述用户界面的第二部分中呈现所述第二电子消息。

10.根据权利要求1至9任意一项所述的装置，其特征在于，所述第一电子消息包括电子通信应用的打开的电子消息。

11.根据权利要求10所述的装置，其特征在于，所述电子通信应用是电子邮件应用、聊天应用或社交媒体应用。

12.根据权利要求1至11所述的装置，其特征在于，所述第一电子消息是电子邮件、聊天消息、博客记录，或社交媒体记录。

13.一种识别相似电子消息的方法，其特征在于，所述方法包括：

检测第一电子消息；

检测所述第一电子消息中的一个或多个有效词的词集；

将检测到的所述第一电子消息中的一个或多个有效词的词集与多个其他电子消息中的一个或多个有效词的词集进行比较；

呈现至少一个来自所述多个其他电子消息的第二电子消息，其中，所述多个其他电子消息包括与所述检测到的所述第一电子消息中一个或多个有效词的词集相似的一个或多个有效词的词集。

14.根据权利要求13所述的方法，其特征在于，包括通过以下方式检测所述第一电子消息中一个或多个有效词的词集：

识别所述第一电子消息中的一个或多个单词；

其中，所述剩余词集包括所述一个或多个有效词的词集。

15.一种计算机程序产品，其特征在于，包括非瞬时性计算机程序指令，其中，所述非瞬时性计算机程序指令在被处理器执行时能够使所述处理器执行根据权利要求13至14所述的方法。