CN108108387A

CN108108387A - 基于模版的结构化文档分类和提取

Info

Publication number: CN108108387A
Application number: CN201710918407.6A
Authority: CN
Inventors: 盛盈; 卢峰; 卢一峰; 谢婧; 杨杰; 路易斯·加西亚·普埃约; 楼季楠; 詹姆斯·文特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-23
Filing date: 2017-09-30
Publication date: 2018-06-01
Anticipated expiration: 2037-09-30
Also published as: US10657158B2; US20180144042A1; CN108108387B

Abstract

本申请涉及基于模版的结构化文档分类和提取。包括自动生成针对结构化文档(如B2C电子邮件、***、账单、请帖等)的数据提取模版及将分类指派给那些数据提取模版以从后续结构化文档进行流线数据提取。在各实施例中，可识别从共享固定内容的结构化文档的集群生成的数据提取模版。结构化文档集群的特征可被应用作为到提取机器学习模型的输入，该提取机器学习模型被训练以提供结构化文档中的暂时性字段位置，以确定结构化文档集群中的暂时性字段位置。可存储数据提取模版与所确定的暂时性字段位置之间的关联。基于该关联，从与结构化文档的集群共享至少固定内容的用户的给定结构化文档中提取数据点。所提取的数据点可被显现给用户。

Description

基于模版的结构化文档分类和提取

技术领域

本申请涉及基于模版的结构化文档分类和提取。

背景技术

用户可能会被大量的企业对消费者(“B2C”)电子邮件和类似的通知用户各种各样的信息(例如行程单、欠费通知、传入事件通知等)的通信所淹没。如果用户没有响应于接收到这样的通信而设置提醒、创建日历条目或采取其他类似的动作，那么用户可能会例如错过会议、没有支付账单、错过航班等。附加地，通信中可能立即与用户有关的各种数据点，诸如与传入或当前的旅程有关的信息(例如航班信息、酒店预订、事件/场地信息等)可能分散在多个不同的通信中并且用户可能很难查到。

包含在B2C通信中的数据和其他类似的文档(一般来说在本申请中被称为“结构化文档”)可能经常遵循比人对人通信更结构化的模式，并且经常使用模版自动地创建。这种模版可能对于提取相关的数据点(诸如出发时间、事件地点、***到期日等)是有用的。但是，这些模版典型地对从这些通信中提取数据感兴趣的实体不可用。可以对这些模版实施逆向工程，例如使用各种各样的可能需要一定水平的人为干预的解析程序和/或启发式程序，从而生成被配置成提取有关的数据点以便呈现给用户的数据提取模版。但是，在B2C通信的不断变化的内容和布局的情况下，手动对数据提取模版实施逆向工程会变得不切实际。

发明内容

本申请一般来说涉及用于自动生成针对结构化文档(例如B2C电子邮件、***、账单、请帖等)的数据提取模版以及用于将分类指派给这些数据提取模版以从后续结构化文档进行流线数据提取的方法、装置以及(暂时性和非暂时性)计算机可读介质。例如，在一些实施例中，共享至少一些固定内容的结构化文档的集群可以被用于生成数据提取模版(在本文中也被称为“结构化文档模版”)。于是，文档集群可以被分类到多个列举出的归类(有时也被称为“垂直元(vertical)”)，诸如“旅行”、“事件”、“账单”等中的一个或多个中。附加地或替选地，文档集群中的一个或多个暂时性字段位置(例如XPath)可以被分类成提供用于提取的特定的数据点(例如“出发日期”、“出发机场”、“事件地点”、“***到期日”等)。如本文中所使用的，“暂时性”字段是结构化文档的集群内不包含固定内容而是包含典型地涉及特定用户的内容(例如价格、出发数据、***号码等)的位置。于是，经分类的归类和暂时性字段位置可以与数据提取模版关联，例如作为模版、存储在模版内的数据等的注释。

当后续结构化文档(例如传入B2C电子邮件)与数据提取模版匹配(例如与结构化文档基础集群共享至少一些固定内容)时，数据提取模版以及更特别是关联的经分类的归类/暂时性字段位置可以被用于快速地从后续结构化文档提取感兴趣的数据点。在各种实施例中，这些提取的数据点可以按各种可以依赖于例如数据提取模版的经分类的归类和/或与经分类的暂时性字段位置关联的语义分类的方式“显现(surface)”给用户。例如事件数据点(例如位置、开始时间)可以被***用户日历中，作为移动设备上的通知(例如“卡”)提供给用户，用于提醒用户有事该离开了等。航班有关的数据点可以被用于通知用户与排程航班关联的登机口、通知用户任何飞机延误等。

在一些实施例中，各种机器学习技术可以被用于确定用于数据提取模版的感兴趣的数据点的归类和/或暂时性字段位置。例如，可以对一个或多个所谓的“归类”机器学习模型进行训练，例如使用有标签的结构化文档语料库，用以将结构化文档分类到多个文档归类(“垂直元”)的一个或多个归类中。附加地，可以对一个或多个所谓的“提取”机器学习模型进行训练，例如使用有标签的结构化文档语料库，用以提供结构化文档中的一个或多个暂时性字段的一个或多个位置。

为了对特定的数据提取模版进行分类，在一些实施例中，与数据提取模版相关的结构化文档集群的特征可以被用作到一个或多个归类机器学习模型的输入。基于一个或多个归类机器学习模型的输出，可以确定与数据提取模板关联的文档归类(或“垂直元”)。在一些实施方式中，集群的结构化文档落入特定归类中的计数或频率必须满足用于要分类在特定的归类中的数据提取模版的阈值。例如，集群的结构化文档的90％可以要求被分类在特定的垂直元中，否则数据提取模版与垂直元之间的关联可以不存储在存储器中。

在一些实施方式中，在确定数据提取模版的文档归类(或垂直元)之后，于是可以基于确定的文档归类从多个提取机器学习模型选择出一个或多个提取机器学习模型。例如，如果集群/模版被分类为“航班”，那么可以选择被配置成识别在“出发时间”、“航班号码”、“出发城市”、“到达时间”和/或“到达城市”的B2C通信中的暂时性字段位置的提取模版。于是，与数据提取模版有关的结构化文档集群的特征可以被用作到一个或过个选择的提取机器学习模型的输入。基于一个或多个提取机器学习模型的输出可以确定结构化文档集群中的一个或多个暂时性字段的一个或多个位置。在一些实施例中，特定的暂时性字段位置必须在阈值数量(例如90％、80％等)的集群的结构化文档中被识别为包含用于要在数据提取模版与特定的暂时性字段位置之间创建的关联的特定值。

一旦数据提取模版与一个或多个归类/暂时性字段位置之间的关联被存储(例如作为模版的注释，或单独地存储在数据库中)，那么数据提取模版可以被用于从后续结构化文档快速地提取相关的信息。例如在一些实施例中，后续结构化文档(诸如传入B2C电子邮件)可以被与模版匹配(例如借助与模版共享固定内容的后续结构化文档，或通过具有相同/类似的发送方/主题/元数据)。于是，基于提前确定的数据提取模版与一个或多个暂时性字段位置之间的关联可以从后续结构化文档提取至少一个数据点。例如，数据提取模版可以包括指示出“事件位置”位于第一XPath上，“事件开始时间”位于第二XPath上，并且“事件主题”位于第三XPath上的一个或多个注释。这些注释可以被用于提取位于指定XPath上的数据。于是，所提取的数据点可以如之前所描述的那样显现给用户。

在一些实施例中，可以提供包括如下步骤的计算机实现的方法，即：识别从共享至少一些固定内容的结构化文档集群生成的数据提取模版；应用所述结构化文档集群的特征作为到一个或多个提取机器学习模型的输入，其中，所述一个或多个提取机器学习模型被训练以提供结构化文档集群中的一个或多个暂时性字段的一个或多个位置；基于输出来确定所述结构化文档集群中的一个或多个暂时性字段的一个或多个位置，所述输出是基于提供给一个或多个提取机器学习模型的所述输入而从所述一个或多个提取机器学习模型生成的；在计算机存储器中存储数据提取模版与所述结构化文档集群中所确定的一个或多个暂时性字段位置之间的第一关联；从用户已知的与所述结构化文档集群共享所述至少一些固定内容的给定结构化文档中提取至少一个数据点，其中，所述提取是基于第一关联进行的；以及提供所提取的数据点以经由所述用户操作的一个或多个计算设备显现给所述用户。

在各种实施方式中，方法可以进一步包括：应用所述结构化文档集群的相同的特征或各种特征作为到一个或多个归类机器学习模型的输入，其中，所述一个或多个归类机器学习模型被训练以将结构化文档分类到多个文档归类的一个或多个中；以及基于输出来确定与所述数据提取模版关联的文档归类，所述输出是基于提供给所述一个或多个归类机器学习模型的输入而通过所述一个或多个归类机器学习模型生成的。在各种实施方式中，所述一个或多个提取机器学习模型可以是基于所确定的文档归类从多个提取机器学习模型选择的。

在各种实施方式中，可以按照基于所确定的文档归类来选择的方式将所提取的数据点显现给用户。在各种实施方式中，方法可以进一步包括在所述计算机存储器中存储数据提取模版与所确定的文档归类之间的第二关联。在各种实施方式中，响应于确定所述集群中已经被分类到文档归类中的结构化文档的计数满足阈值，第二关联可以被存储。

在各种实施方式中，一个或多个暂时性字段位置可以包括至少一个XPath。在各种实施方式中，所述一个或多个提取机器学习模型可以进一步被训练以与所述一个或多个暂时性字段位置关联地提供一个或多个语义分类。在各种实施方式中，第一关联可以进一步包括数据提取模版与一个或多个语义分类之间的关联。在各种实施方式中，所提取的数据点可以按基于所述一个或多个语义分类中与所述一个或多个暂时性字段位置中的包含所提取的数据点的暂时性字段位置关联的语义分类来选择的方式被显现给用户。

在各种实施方式中，第一关联可以响应于确定所述集群中由所述一个或多个提取机器学习模型为其提供特定的暂时性字段位置的结构化文档的计数满足阈值而被存储。

其他实施方式可以包括非暂时性计算机可读存储介质，其存储可由处理器执行以执行像上述方法中的一个或多个的指令。另外一些实施方式可以包括包括存储器和一个或多个处理器的***，上述处理器能***作来执行存储在存储器中的指令以执行像上述方法中的一个或多个的方法。

应理解，在本文中详细描述的上述概念和附加概念的所有组合都被认为是本文所公开的主题的一部分。例如，本公开结尾处所附的请求保护的主题的所有组合都被认为是本文所公开的主题的一部分。

附图说明

图1图示出了可以如何通过本公开的各种组件对结构化文档语料库进行分析以生成一个或多个数据提取模版的示例。

图2根据各种实施方式图示出了可以如何对归类和提取机器学习模型进行训练的示例。

图3根据各种实施方式描绘了可以如何生成数据提取模版与从用于生成数据提取模版的结构化文档识别的归类和/或暂时性字段位置之间的关联的示例。

图4根据各种实施方式描绘了数据提取模版可以如何被用于从后续结构化文档提取数据点的示例。

图5描绘了根据各种实施方式图示出生成数据提取模版与从用于生成数据提取模版的结构化文档识别的归类和/或暂时性字段位置之间的关联的示例方法的流程图。

图6描绘了根据各种实施方式图示出应用数据提取模版以从后续结构化通信提取数据点的示例方法的流程图。

图7示意性描绘了计算机***的示例构架。

具体实施方式

图1图示出了示例环境，其中，结构化文档100的语料库可以被聚组成集群132_1-m，并且其中，包含结构化文档的集群可以被分析以生成数据提取模版134_1-m。本文中所使用的“结构化文档”可以指的是B2C通信，诸如电子邮件、文本消息(例如SMS、MMS)、即时消息以及任意其他的典型是(但不总是)例如使用模版自动生成的B2C通信。附加地，在一些实施方式中，结构化文档可以包括其他类型的文档，诸如信函(例如以便携式文档格式(“PDF”)和/或文字处理格式)、***、账单、收据、请帖(例如经由社交网络应用接收到的邀请)或也许没有被视为通讯的和/或作为其他通讯(例如电子邮件)的附件的其他结构化文档。在各种实施方式中，结构化文档可以使用各种标记语言，例如可扩展标记语言(“XML”)或超文本标记语言(“HTML”)进行结构化，虽然这并没有被要求。在各种实施方式中，结构化文档100可以包括各种元数据。例如，电子邮件可以包括一个或多个发送方标识符(例如发送方电子邮件地址)、一个或多个接收方标识符(例如接收方电子邮件地址，包括抄送以及暗送的接收方)、发送日期、一个或多个附件、主题等。

在一些实施方式中，集群引擎122可以被配置为基于在语料库内一个或多个结构化文档100之间共享的一个或多个模式(例如固定内容)将结构化文档100的语料库聚组成多个集群132_1-m。在一些实施方式中，集群引擎122可以具有一个或多个初级过滤机构来丢弃不适用于模版生成的文档。例如，如果要分析的结构化文档100的语料库包括个人电子邮件和B2C电子邮件，那么个人电子邮件可以被丢弃。

集群引擎122可以利用结构化文档100的各种方面来将结构化文档100聚组成集群。这些方面可以包括但不限于元数据、格式化信息(例如HTML节点、Xpath等)、文本相似性、字符相似性等。例如在一些实施方式中，B2C电子邮件可以通过如下这些元数据中的一个或多个来聚类，即：发送方地址、发送方域、主题(例如主题中的固定内容)、数据等。

附加地或替选地，结构化文档100可以基于基础结构相似性来聚类。例如，针对电子邮件的XPath集(例如到达电子邮件HTML节点树的每个节点的地址集)可以独立于电子邮件的文本内容。因此，两个或多个这种电子邮件之间的相似性可以基于一定数量的共享XPath来确定。基于一个电子邮件与其他集群的电子邮件相比与特定的集群的电子邮件共享更大数量的XPath，那么这个电子邮件可以被指派给该特定的集群。附加地或替选地，基于在与例如两个电子邮件中的XPath的总数相比较的情况下两个电子邮件共享的XPath的数量，这两个电子邮件可以被聚类在一起。

在一些实施方式中，结构化文档100可以附加地或替选地基于文本相似性被聚组成集群。例如，电子邮件可以被分析，以确定共享的术语、词组、n元语言模型(n-grams)、n元语言模型加频率等。基于这些数据点，电子邮件可以被聚类。例如，共享特定数量的共享词组和n元语言模型(例如固定内容)的电子邮件可以被聚类在一起。

在一些实施方式中，结构化文档可以基于字符相似性被聚组成集群。例如，结构化文档可以被视为字符串，其可以包括结构(例如元数据、XPath)和文本内容中的一个或两者。在一些实施方式中，也可以使用上述技术中的两个或多个的加权组合。例如，可以按侧重于结构相似性或文本相似性的方式考虑结构相似性和文本相似性两者。

一旦结构化文档100的语料库被聚组成集群132_1-m，那么一些集群可以包含如下结构化文档，它们很可能包括相同的固定内容(例如“样板文字(boilerplate)”)和结构，并且很可能在相同或类似的位置(例如在空间上和/或按照相同的XPath)具有暂时性数据字段(这可以是想要提取的主要数据)。模版生成引擎140可以被配置成生成一个或多个数据提取模版134_1-m。进一步的处理可以在数据提取模版134_1-m上执行，以使它们可以用于由各种组件从一个或多个结构化通信、与暂时性(在一些情况下是非保密的)结构路径关联的一个或多个信息块进行提取。在各种实施方式中，模版生成引擎140可以在模版数据库142中存储模版134_1-m。

图2描绘了可以如何对一个或多个机器学习模型进行训练以将结构化文档分类到各种归类(或“垂直元”)中以及可以如何对一个或多个机器学习模型进行训练以将文档中的位置分类为暂时性字段的示例。有标签的结构化文档200集合可以作为训练数据。在一些实施方式中，各有标签的结构化文档200可以用各种分类(例如归类(或垂直元))以及一个或多个暂时性字段的一个或多个位置来加标签(例如加注释)。在一些实施方式中，每个暂时性字段可以用语义含义(诸如“出发/到达日期”、“出发/到达时间”、“出发/到达城市”、“确认号码”、“事件地点”、“事件时间”、“事件主题”、“***到期日”、“订单号码”、“跟踪号码”、“总购买价”、“交货日期”等)加注释或以其他方式指示。

特征提取引擎250可以例如在通过一个或多个网络连接的一个或多个计算***上进行操作。特征提取引擎250可以被配置成从有标签的结构化文档200提取各种特征(例如元数据、n元语言模型、词组、固定内容等)。在一些实施方式中，特征提取引擎250可以提供包含从结构化文档提取的特征的特征向量<f₁,f₂,…,f_n>给机器学习应用引擎252。

机器学习应用引擎252可以被配置成应用每个特征向量的特征(作为有标签的训练数据)来作为到一个或多个归类机器学习模型254的输入。基于这个训练数据，可以对每个归类机器学习模型254进行训练，以将结构化文档分类到多个文档归类(或“垂直元”)中的一个或多个中。在一些实施方式中，这些垂直元可以包括但不限于如下内容中的一个或多个，即：“账单”、“汽车租赁”、“事件”、“财务”、“航班”、“酒店”、“会员”、“报价”、“购买”、“提醒”、“租金”、“饭店”、“社交网络”、“运输”等。当然，其他归类也是可以的。

机器学习应用引擎252可以进一步被配置为应用每个特征向量的特征(作为有标签的训练数据)来作为到一个或多个提取机器学习模型256的输入。基于这个训练数据，可以对每个提取机器学习模型256进行训练，以提供(例如，分类)结构化文档中的一个或多个暂时性字段的一个或多个位置。例如，结构化文档中包含感兴趣的暂时性数据的每个暂时性字段位置(例如XPath)可以被加标签、注释或者以其他方式指示。

如从归类机器学习模型254到机器学习应用引擎252的箭头所示，在一些实施方式中，基于由归类机器学习模型254响应于相同的特定的结构化文档而提供的文档归类，机器学习应用引擎252可以选择一个或多个提取机器学习模型256以用于特定的有标签的结构化文档。例如，如果结构化文档被加标签或分类作为“事件”，机器学习应用引擎252可以仅应用那些可以应用于事件的提取机器学习模型256。例如，机器学习应用引擎252可以选择并应用“事件主题”提取机器学习模型256到特定的结构化文档，所述“事件主题”提取机器学习模型256可以被配置成识别在结构化文档内包含与事件主题相对应的暂时性数据的位置(例如XPath)。类似地，机器学习应用引擎252可以选择并应用“事件开始时间”和“事件结束时间”提取机器学习模型256。

在附图中，一个或多个归类机器学习模型254和提取机器学习模型256被描绘为具有n个输入f_1-n和对应数量的输出的人工神经网络。但是，这并不意味着限制。除了神经网络之外，还可以应用其他类型的机器学习模型(诸如线性回归模型和其他类似模型)，或者可以应用其他类型的机器学习模型来作为神经网络的替代。此外，描绘了多个归类机器学习模型254和提取机器学习模型256，而在一些实施方式中，单个机器学习模型可以用于归类，并且另一个机器学习模型(或相同的用于归类和提取两者的模型)可以用于提取。此外，在一些实施方式中，可以省略归类机器学习模型256。在一些这样的实施方式中，如将在下文中进行说明的那样，与暂时性字段位置关联的一个或多个语义分类可以被用于确定特定的提取的数据点将要如何显现给用户。

一旦一个或多个归类机器学习模型254和/或提取机器学习模型256被训练，那么它们可以被用于创建数据提取模版(例如像图1所示那样创建的)与各种归类和/或暂时性字段位置之间的关联。例如，每个数据提取模版134可以用一个归类(或在一些实施方式中用多于一个的归类)和一个或多个暂时性字段位置加注释。

现在参见图3，示出了很多与图2所示相同的组件，并且因此进行了类似编号。与给定数据提取模版134_x相关联的(例如用于生成给定数据提取模版、与给定数据提取模版共享固定内容等)结构化文档300的集群132_x被提供作为到特征提取引擎250的输入。特征提取引擎250可以从集群132_x的每个结构化文档300提取各种特征<f₁,f₂,…,f_n>，并且可以提供这些特征给机器学习应用引擎252。机器学习应用引擎252可以应用特征到一个或多个归类机器学习模型254。在一些实施方式中，可以对每个归类机器学习模型254进行训练(如上所述)，以确定结构化文档300是否应当被分类到特定的归类中。例如，如果集群132_x的阈值数量(例如90％或一些其他阈值)的结构化文档300被分类到特定的归类中，那么模版134_x与满足阈值的归类之间的关联被存储，例如作为模版134_x的注释和/或存储在模版数据库142中。

附加地，机器学习应用引擎252可以应用所提取的特征<f₁,f₂,…,f_n>到一个或多个提取机器学习模型256。在一些实施方式中，可以对每个提取机器学习模型256进行训练(如上所述)，以定位每个结构化文档300中的暂时性字段。例如，如果集群132_x的阈值数量(例如90％或一些其他阈值)的结构化文档300被分类为在特定的位置(例如XPath)中具有特定的暂时性字段(例如事件地点、出发城市等)，那么模版134_x与满足阈值的暂时性字段位置之间的关联被存储，例如作为模版134_x的注释和/或存储在模版数据库142中。

假设将如下输入应用到提取机器学习模型256上，所述提取机器学习模型256被配置成定位事件开始时间：

-----------------------

在一些实施方式中，提取机器学习模型256可以提供如下这样的输出：

-----------------------------------

这个输出指示出第一暂时性字段包含事件开始时间的高概率(1.0)、第二暂时性字段包含事件开始时间的低概率(0.5)以及第三和第四暂时性字段包含事件开始时间的极低概率。在该示例中，显然是第一暂时性字段包含事件开始时间。但是，在其他情况下，概率可以更高粒度和/或更不确定。相应地，在各种实施方式中，可以选择阈值(例如0.9、85％等)，从而使得具有在阈值之下的概率的暂时性字段位置最终不被识别成包含特定数据块。

如上面提到的那样，在一些实施方式中，仅那些与满足阈值的(例如由归类机器学习模型254确定的)归类关联的提取机器学习模型256可以被应用于集群132_x的每个结构化文档300。与简单地应用全部提取机器学习模型256到每个结构化文档300相比，这可以节省计算资源，例如处理循环、存储器和/或网络带宽。

一旦数据提取模版134用文档归类和/或暂时性字段位置加注释，或否则与文档归类和/或暂时性字段位置关联，那么数据提取模版134可以被用于从后续结构化通信提取相关的数据点。现在参见图4，后续结构化文档400(例如B2C电子邮件、***、请帖等)可以被提供给集群引擎122。集群引擎122可以分析后续结构化文档400，以识别出哪些数据提取模版134与每个后续结构化文档400相对应(例如与每个后续结构化文档相匹配、与每个后续结构化文档共享固定内容等)，例如使用与上面参照图1所说明类似的技术，以整理结构化文档100到集群132中。在一些实施方式中，集群引擎122可以与数据提取引擎460联合起来工作，数据提取引擎460可以具有经由模版数据库142到模版134的访问，以识别出哪些数据提取模版与特定的后续结构化文档400相对应。

数据提取引擎460可以根据数据提取模版134与文档归类和/或暂时性字段位置之间的关联从后续结构化文档400提取数据点。假设特定的数据提取模版134被加注释为具有“事件”归类，那么与数据提取模版134关联的注释识别针对“事件主题”、“事件地点”、“事件开始时间”和“事件结束时间”的暂时性字段位置(例如XPath)。包含在与特定的数据提取模版134相匹配的后续结构化文档400内所识别的位置处的数据点可以被提取并被提供给由与结构化文档400关联的用户(例如B2C电子邮件的接收方)操作的一个或多个客户端设备470(例如作为由用户操作的设备的“生态***”一部分)。

在一些实施方式中，数据提取引擎460可以注释提取的数据，以通知如下形式的一个或多个客户端设备470，其中，提取的数据应当被显现给用户(例如呈现给用户、输出给用户等)。例如如果后续结构化文档400附属于事件，那么提取的数据点(例如事件主题、事件开始时间、事件结束时间、事件地点)可以被用于在与用户关联的日历中建立日历条目，例如作为“卡”、弹窗式通知、文本消息等。

在一些实施方式中，提取的数据点可以在所选择的时间处通过一个或多个客户端设备470呈现给用户。假设后续结构化文档400是包含航班行程的B2C电子邮件。在第一航班(例如这可以例如基于用户预计要离开机场的旅行时间来确定)之前的某一时间点上，可以用“卡”或其他指示用户到时间离开机场了的通知来呈现给用户。

在一些实施方式中，提取的数据点显现给用户的方式可以依赖于与用于提取数据点的数据提取模版134关联的文档归类。例如，如果后续结构化文档400和与从特定的公司的车辆租赁关联的数据提取模版134相匹配，那么可以用卡或其他可选择的包括到地图应用的链接的图形元素来呈现给用户。在一些实施方式中，地图应用程序可以预先填入于车辆租赁公司的位置有关的数据，例如从而使得用户可以快速地找到方向来取车或还车。在其他实施方式中，可以按基于与一个或多个包含提取的数据点的一个或多个暂时性字段位置关联的一个或多个语义分类来选择(例如不考虑文档归类)的方式将提取的数据点显现给用户。例如，如果提取的数据点包括从暂时性字段位置提取的指示包括以下各项的数据，那么提取的数据点可以按适用于呈现航班信息的方式显现给用户：离开机场、到达机场、航班号码、离开时间和/或附属于航班的其他数据。

由集群引擎122、模版生成引擎140、特征提取引擎250、机器学习应用引擎252、数据提取引擎460和/或一个或多个客户端设备470执行的操作可以在单独的计算机***上执行、跨多个计算机的***分布或这两者的任意组合。这些一个或多个计算机***可以相互通信并且可以与跨越一个或多个网络的其他计算机***通信(未示出)。

现在参见图5，示例方法500被描绘为用于自动生成针对结构化文档(例如B2C电子邮件)的数据提取模版以及用于指派这些数据提取模版从后续数据化文档到流线数据提取的分类。为了方便起见，图5(和图6)中流程图的操作借助执行这些操作的***进行说明。这个***可以包括各种计算机***的各种组件。此外，方法500的操作以特定的排序示出，但这不意味着限制。一个或多个操作可以被重新排序、省略或增加。

在方框502中，***可以例如从数据提取模版数据库142识别从共享至少一些固定内容(例如样板文字)的结构化文档集群生成的数据提取模版。图1示出了可以如何对结构化文档聚类以及可以如何从结构化文档集群成成数据提取模版的一个示例。

在方框504中，***可以应用结构化文档集群中的用于生成数据提取模版(或简单地与模版匹配的其他结构化文档)的特征作为到一个或多个归类机器学习模型254的输入。如上所述，在一些实施方式中，可以对单个归类机器学习模型254进行训练，以将结构化文档分类到多个文档归类中的一个或多个中。在其他实施方式中，可以使用多个归类机器学习模型254，其中每个均被训练以将结构化文档分类到特定的归类中(例如利用置信度测量)。

在方框506中，与数据提取模版关联的文档归类可以基于一个或多个归类机器学习模型254的输出来确定。例如，与特定的文档归类(或“垂直元”)关联的一个归类机器学习模型254可以将集群中高百分比(例如95％、0.95等)的结构化文档归类到其关联的归类中。其他归类机器学习模型254可以将集群中低百分比的结构化文档归类到它们关联的归类中。在一些实施方式中，与对集群中的高百分比的结构化文档进行分类的归类机器学习模型254关联的归类可以被确定为与数据提取模版关联的文档归类。在一些实施方式中，集群中阈值数量或百分比(例如>80％)的结构化文档为了要确定为与数据提取模版关联的归类而必须分类在特定的归类中。

在方框508中，***必须至少部分基于一个或多个归类机器学习模型254的输出选择一个或多个提取机器学习模型256。例如如果数据提取模版被确定为与“账单”归类关联，那么可以选择与暂时性字段(诸如“到期日”、“到期应付款”、“滞纳金”、“计费实体”等)关联的提取机器学习模型256。如果数据提取模版被确定为与“事件”归类关联，那么可以选择与暂时性字段(例如“事件地点”、“事件开始时间”、“事件结束时间”等)关联的提取机器学习模型256。当然，在其他省略了方框506-508的实施方式中，可以应用所有提取机器学习模型，或基于例如与暂时性字段位置关联的语义分类来选择某子集。

在方框510中，***可以应用结构化文档集群的用于生成数据提取模版的特征作为到在方框508处所选择的提取机器学习模型256中的一个或多个的输入。如上所述，在一些实施方式中，可以对单个提取机器学习模型256进行训练，以对结构化文档中包含多个暂时性数据字段中的一个或多个的位置进行分类。在其他实施方式中，可以采用多个提取机器学习模型256，对其中每个均进行训练，以对结构化文档中包含多个暂时性数据字段中的一个或多个的位置进行分类。

在方框512中，***可以基于一个或多个提取机器学习模型256的输出来确定与数据提取模版关联的暂时性字段位置。例如，可以通过一个提取机器学习模型256来确定“出发时间”与第一XPath关联、“出发城市”与第二XPath关联，大于集群中阈值数量的文档等。在方框514中，在方框506处确定的文档归类、在方框512处确定的暂时性字段位置以及数据提取模板之间的关联可以被存储在存储器中，例如在数据提取模版数据库142中。在一些实施例中，一个或多个语义分类可以与一个或多个暂时性字段位置关联地存储。在一些实施方式中，这些语义分类可以被训练成提取机器学习模型256，例如作为有标签的训练数据的一部分。在其他实施方式中，与暂时性字段位置关联的语义分类可以使用其他信号来确定，诸如毗邻和/或附近的固定文本(例如“出发日期：”、“***到期日：”、“位置：”等)。

图6描绘了图示出根据各种实施方式应用数据提取模版以从后续结构化通信提取数据点的示例方法的流程图。在方框602中，***可以接收后续结构化文档，诸如寻址到用户的B2C电子邮件、账单、***、请帖等。在方框604中，***(例如集群引擎122)可以将后续结构化通信与数据提取模版相匹配，例如使用上述与集群引擎122关联的技术。

在方框606中，***可以基于经匹配的数据提取模版与归类/暂时性字段位置之间的一个或多个关联从后续结构化通信提取一个或多个数据点，例如其可以是模板的注释。在方框608中，提取的数据点可以被提供给例如用户客户端设备(例如图4中的470)。在一些实施例中，这些数据点可以例如用暂时性字段位置和/或与模版关联的归类的语义分类进行注释，从而使客户端设备可以将提取的数据点以能感知的方式(例如添加日历条目、弹窗式通知或“卡”等)显现给用户。

在方框610中，***(例如客户端设备470)可以确定用于将提取的数据点显现给用户的方式。在一些实施方式中，这可以在客户端设备本身处例如基于像在一个或多个客户端设备上与呈现的数据点的过去用户交互、用户偏好等的信号来确定。在一些实施方式中，这可以远离客户端设备，例如在数据提取引擎460处确定，并且可以被通信给客户端设备(例如作为提取的数据点的注释)。在方框612中，提取的数据点可以按在方框610中所确定的方式(例如作为弹窗、文本消息、卡、提醒、日历条目、声音提醒(例如来自单独的语音激活产品)等)显现给用户。

在各种实施方式中，从迄今为止未知的模版生成的新的结构化文档可以被分发给消费者(例如作为B2C电子邮件)。例如，新公司可以开始发送B2C电子邮件给用户，并且/或者航空公司或其他实体可以显著变更它们的传出B2C电子邮件的格式。在这种情况下，归类机器学习模型254和/或提取机器学习模型256可以接收附加训练，例如使用新的包括有标签的结构化文档的训练数据(或在一些情况下，从结构化文档集群生成的简单的数据提取模版)。以这种方式，具有迄今为止未知格式的B2C电子邮件(以及一般来说还有结构化文档)可以被同化到被配置具有本公开的所选择方面的***中。最终，与新格式匹配的后续电子邮件可以被辨识，并且可以使用所公开的技术来提取数据点。

图7是示例计算机***710的框图。计算机***710典型地包括至少一个处理器714，其经由总线子***712与一定数量的***设备通信。这些***设备可以包括存储子***724(其包括例如存储器子***725和文件存储子***726)、用户接口输出设备720、用户接口输入设备722以及网络接口子***716。输入和输出设备允许与计算机***710的用户交互。网络接口子***716提供了到外部网络的接口并且与其他计算机***中的对应的接口设备耦合。

用户接口输入设备722可以包括键盘、指针设备(诸如鼠标、轨迹球)、触控板、绘图板、扫描仪、并入显示器中的触控屏、音频输出设备(诸如语音识别***、麦克风)和/或其他类型的输入设备。通常，使用术语“输入设备”旨在包括所有可能类型的设备以及输入信息到计算机***710中或到通信网络上的方式。

用户接口输出设备720可以包括显示器子***、打印机、传真机、非视觉显示器(诸如音频输出设备)。显示器子***可以包括阴极射线管(CRT)、平板设备(诸如液晶显示器(LCD))、投影设备或用于创建可视图像的一些其他机构。显示器子***也可以提供非视觉显示，诸如经由音频输出设备。通常，使用术语“输出设备”旨在包括所有可能类型的设备以及从计算机***710输出信息给用户或者其他机器或计算机***的方式。

存储子***724存储提供一些或所有本文所描述的模块的功能的程序和数据结构。例如，存储子***724可以包括逻辑，所述逻辑用来执行方法500和/或600的所选择方面并且/或者用来实现集群引擎122、模版生成引擎140、和/或特征提取引擎250、机器学习应用引擎252、数据提取引擎460、和/或一个或多个客户端设备470中的一个或多个。

这些软件模块通常仅通过处理器714自己或与其他处理器相组合地执行。用在存储子***724中的存储器725可以包括一定数量的存储器，其包括用于存储程序执行期间的指令和数据的主随机存取存储器(RAM)730和固定指令存储在其中的只读存储器(ROM)732。文件存储子***726可以提供程序和数据文件给永久存储，并且可以包括硬盘驱动器、软盘驱动器(连同关联的可移动介质)、CD-ROM驱动器、光学驱动器或可移动介质卡式盒。实现某些实施方式的功能的模块可以通过文件存储子***726被存储在存储子***724或处理器714可访问的其他机器中。

总线子***712提供了用于使计算机***710的各种组件和子***按预期相互通信的机制。虽然总线子***712示意性示出为单路总线，但总线子***的替选实施方式可以使用多路总线。

计算机***710可以是不同类型的，包括工作站、服务器、计算集群、刀锋服务器或其他任意的数据处理***或计算设备。由于计算机和网络的不断变化的特性，对图7所示计算机***710的说明仅仅是作为为了图示出一些实施方式的具体实施例。计算机***710的很多其他配置(比图7所示计算机***具有更多或更少的组件)也是可以的。

在本文中所描述的***收集与用户有关的个人信息或可能使用个人信息的情况下，用户可以有机会控制程序或特征是否收集用户信息(例如关于用户社交网络、社交动作或活动、职业、用户喜好或用户当前地理位置的信息)，或有机会控制是否并且/或者如何从可能与用户更相关的内容服务器接收内容。同时，某一数据在其被存储或使用之前也可以按一种或多种方式进行处理，从而使得个人可识别的信息被移除。例如，用户身份可以被处理，从而使得针对用户没有个人可识别的信息可以被确定，或者用户地理位置可以被泛化成在哪里获取地理位置信息(诸如到城市、邮政编码或州级别)，从而使得用户的特定地理位置无法被确定。因此，用户可以控制关于用户如何收集并且/或者如何使用信息。

虽然本文中描述并图示出多个实施方式，但也可以利用各种各样的用于执行本文中所描述的功能和/或获取本申请中所说明的结果和/或一个或多个本申请中所说明的优点的其他装置和/或结构，并且每个变型方案和/或修改方案都在本申请所说明的实施方式的保护范围之内。一般来说，本申请所说明的所有参数、规格、材料和配置都是示例性的，并且实际的参数、规格、材料和/或配置将依赖于利用本发明教导的具体应用。仅通过进行常规实验方式，本领域技术人员将确认或可以确定本文中所描述的具体实施方式的等效方式。因此，可以理解的是：上述实施方式仅通过示例的形式来展示，并且在本申请附带的权利要求和其等效方式的保护范围之内，本申请的实施方式可以不按本申请具体说明以及请求保护的那样来使用。本申请的实施方式涉及本文中所描述的各个单独的特征、***、物品、材料、工具和/或方法。另外，如果这样的特征、***、物品、材料、装置和/或方法彼此不同，那么两个或多个这样的特征、***、物品、材料、装置和/或方法的任意组合均包括在本公开的范围之内。

Claims

1.一种计算机实现的方法，所述方法包括：

识别从共享至少一些固定内容的结构化文档集群生成的数据提取模版；

应用所述结构化文档集群的特征作为到一个或多个提取机器学习模型的第一输入，其中，所述一个或多个提取机器学习模型被训练以提供在结构化文档中的一个或多个暂时性字段位置；

基于第一输出来确定所述结构化文档集群中的一个或多个暂时性字段位置，所述第一输出是所述一个或多个提取机器学习模型基于所述第一输入生成的；

在计算机存储器中存储所述数据提取模版与所述结构化文档集群中所确定的一个或多个暂时性字段位置之间的第一关联；

基于所述第一关联从与所述结构化文档集群共享所述至少一些固定内容的用户的给定结构化文档中提取至少一个数据点；以及

提供所提取的至少一个数据点以经由所述用户操作的一个或多个计算设备显现给所述用户。

2.根据权利要求1所述的方法，所述方法进一步包括：

应用所述结构化文档集群的相同的特征或不同的特征作为到一个或多个归类机器学习模型的第二输入，其中，所述一个或多个归类机器学习模型被训练以将结构化文档分类到一个或多个文档归类中；以及

基于由所述一个或多个归类机器学习模型基于所述第二输入生成的输出来确定与所述数据提取模版关联的文档归类；

其中，所述一个或多个提取机器学习模型是基于所确定的文档归类而从多个提取机器学习模型中选择的。

3.根据权利要求2所述的方法，其中，所提取的至少一个数据点是按照基于所确定的文档归类来选择的方式被显现给所述用户的。

4.根据权利要求2所述的方法，所述方法进一步包括：

在所述计算机存储器中存储所述数据提取模板与所确定的文档归类之间的第二关联。

5.根据权利要求4所述的方法，其中，所述第二关联是响应于确定所述结构化文档集群中已经被分类到所述文档归类中的结构化文档的计数满足阈值而被存储的。

6.根据权利要求1所述的方法，其中，所述一个或多个暂时性字段位置包括至少一个XPath。

7.根据权利要求1所述的方法，其中，所述一个或多个提取机器学习模型被进一步训练以与所述一个或多个暂时性字段位置关联地提供一个或多个语义分类，并且其中，所述第一关联进一步包括所述数据提取模版与所述一个或多个语义分类之间的关联。

8.根据权利要求7所述的方法，其中，所提取的至少一个数据点按以下方式被显现给所述用户：该方式是基于所述一个或多个语义分类中与所述一个或多个暂时性字段位置中的包含所提取的至少一个数据点的暂时性字段位置相关联的语义分类来选择的。

9.根据权利要求1所述的方法，其中，所述第一关联是响应于确定所述结构化文档集群中由所述一个或多个提取机器学习模型为其提供了特定的暂时性字段位置的结构化文档的计数满足阈值而被存储的。

10.一种包括一个或多个处理器和存储器的***，所述存储器与所述一个或多个处理器操作耦合，其中，所述存储器存储指令，所述指令在被所述一个或多个处理器执行时使得所述一个或多个处理器：

应用所述结构化文档集群的特征作为到一个或多个提取机器学习模型的第一输入，其中，所述一个或多个提取机器学习模型被训练以提供结构化文档中的一个或多个暂时性字段位置；

基于由所述一个或多个提取机器学习模型基于所述第一输入生成的第一输出来确定所述结构化文档集群中的一个或多个暂时性字段位置；

在所述存储器中存储所述数据提取模版与所述结构化文档集群中所确定的一个或多个暂时性字段位置之间的第一关联；

11.根据权利要求10所述的***，所述指令在被所述一个或多个处理器执行时进一步使得所述一个或多个处理器：

其中，所述一个或多个提取机器学习模型是基于所确定的文档归类从多个提取机器学习模型中选择的。

12.根据权利要求11所述的***，其中，所提取的至少一个数据点是按照基于所确定的文档归类来选择的方式被显现给所述用户的。

13.根据权利要求11所述的***，所述指令在被所述一个或多个处理器执行时进一步使得所述一个或多个处理器：

14.根据权利要求13所述的***，其中，所述第二关联是响应于确定所述结构化文档集群中已经被分类到所述文档归类中的结构化文档的计数满足阈值而被存储的。

15.根据权利要求10所述的***，其中，所述一个或多个暂时性字段位置包括至少一个XPath。

16.根据权利要求10所述的***，其中，所述一个或多个提取机器学习模型被进一步训练以与所述一个或多个暂时性字段位置关联地提供一个或多个语义分类，并且其中，所述第一关联进一步包括所述数据提取模版与所述一个或多个语义分类之间的关联。

17.根据权利要求16所述的***，其中，所提取的数据点按以下方式被显现给所述用户：该方式是基于所述一个或多个语义分类中与所述一个或多个暂时性字段位置中的包含所提取的至少一个数据点的暂时性字段位置相关联的语义分类来选择的。

18.根据权利要求10所述的***，其中，所述第一关联是响应于确定所述结构化文档集群中由所述一个或多个提取机器学习模型为其提供特定的暂时性字段位置的结构化文档的计数满足阈值而被存储的。

19.包括指令的至少一种非暂时性计算机可读存储介质，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括：

应用所述结构化文档集群的特征作为到一个或多个归类机器学习模型的第一输入，其中，所述一个或多个归类机器学习模型被训练以将结构化文档分类到一个或多个文档归类中；以及

基于由所述一个或多个归类机器学习模型基于所述第一输入生成的第一输出来确定与所述数据提取模版关联的文档归类；

应用所述结构化文档集群的特征作为到一个或多个提取机器学习模型的输入，其中，所述一个或多个提取机器学习模型被训练以提供结构化文档中的一个或多个暂时性字段位置，其中，所述一个或多个提取机器学习模型是基于所确定的文档归类从多个提取机器学习模型中选择的；

基于由所述一个或多个提取机器学习模型基于所述第二输入生成的第二输出来确定所述结构化文档集群中的一个或多个暂时性字段位置；

在计算机存储器中存储所述数据提取模版与所确定的文档归类之间的第一关联以及所述数据提取模版与所述结构化文档集群中所确定的一个或多个暂时性字段位置之间的第二关联；

基于所述第一关联和所述第二关联从与所述结构化文档集群共享所述至少一些固定内容的用户的给定结构化文档中提取至少一个数据点；以及

20.根据权利要求19所述的至少一种非暂时性计算机可读存储介质，其中，所提取的至少一个数据点是按照基于所确定的文档归类来选择的方式被显现给所述用户。