CN109791643A - 用于生成电子文档的合并数据的***和方法 - Google Patents
用于生成电子文档的合并数据的***和方法 Download PDFInfo
- Publication number
- CN109791643A CN109791643A CN201780058567.6A CN201780058567A CN109791643A CN 109791643 A CN109791643 A CN 109791643A CN 201780058567 A CN201780058567 A CN 201780058567A CN 109791643 A CN109791643 A CN 109791643A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- data
- expense
- model
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/08—Payment architectures
- G06Q20/14—Payment architectures specially adapted for billing systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/405—Establishing or using transaction specific rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于电子文档生成合并数据的***和方法。该方法包括:分析第一电子文档以确定至少一个交易参数,所述第一电子文档指示包括至少一个费用的交易,其中所述第一电子文档包括至少部分非结构化数据;为第一电子文档创建范本,其中所述范本是包括所确定的至少一个交易参数的结构化数据集;基于所述范本检索第二电子文档,其中所述第二电子文档指示交易的凭据;基于扣除规则、所述范本和所述第二电子文档中的至少一个,来确定至少一个费用的至少一个可扣除费用;以及,基于所确定的至少一个可扣除费用生成合并元数据。
Description
相关申请的交叉引用
本申请要求于2016年8月5日提交的美国临时申请No.62/371,221的优先权。该申请同时也是2016年11月28日提交的、现处于申请阶段的美国专利申请No.15/361,934的部分继续申请。上述申请的内容在此引入作为参考。
技术领域
本公开一般涉及数据***中的文档验证,更具体地涉及基于电子文档内容的验证请求。
背景技术
顾客可以通过网络实时订购商家的旅行和住宿等服务。这些订单可以被立即接收和处理。然而,订单付款通常需要更多时间才能完成,尤其是为了保障被转移的资金。因此,商家通常要求顾客在下订单时实时提供付款保证。例如,顾客可以根据支付输入***信息,并且商家可以在授权销售之前实时验证该***信息。验证通常包括确定所提供的信息是否有效(即,信用***、有效期、PIN码和/或顾客名是否与已知信息匹配)。
一旦接收到此类保证后,便为顾客生成采购订单。采购订单提供订单的证明,例如采购价格、订购的商品和/或服务等。之后,生成订单的***。采购订单通常用于指示需求的产品以及估算或提供的价格,而***则通常用于指示实际提供的产品以及产品的最终价格。通常,订单***所显示的购买价格与采购订单所显示的购买价格不同。例如,如果酒店的客人最初订购三晚住宿但最终第四晚继续入住,则采购订单的总价会反映出与后续***不同的总价。***总价与采购订单总价不同的情况是很难跟踪的,特别是对于每天接收大量订单的大型企业(例如,管理特定地区的数百或数千家酒店的大型酒店)。这些差异可能会导致企业的记录保存发生错误。
随着企业越来越依赖技术来管理与运营相关的数据(例如***和采购订单数据),能够适当地管理和验证数据的合适***早已成为成功的关键。特别是对于大型企业而言,企业每天使用的数据量是非常巨大的。因此,手动审查和验证此类数据是不切实际的。然而,记录保存文档之间的差异可能会给企业带来严重问题,例如,未能向税务机关正确报告收益。
目前存在一些解决方案能够自动识别扫描文档(例如,***和收据)或其他非结构化电子文档(例如,非结构化文本文档)中的信息。而这些解决方案在准确标识和识别电子文档的字符和其他特征方面经常面临挑战。此外,输入的非结构化电子文档内容的降级通常会导致更高的错误率。结果,现有的图像识别技术在理想情况下(即,图像非常清晰)也并不能完全准确,而当输入图像清晰度不够时,它们的准确度通常更会急剧下降。此外,丢失或不完整的数据可能在随后的数据使用期间导致错误。许多现有的解决方案无法识别丢失的数据,除非例如结构化数据集中的字段并非是不完整的。
另外,现有的图像识别解决方案无法准确识别某些或所有特殊字符(例如,“!”、“@”、“#”、“$”、“%”、“&”等)。例如,一些现有的图像识别解决方案可能无法准确地将扫描的收据中包括的短划线识别为数字“1”。作为另一示例,一些现有的图像识别解决方案无法识别诸如美元符号、日元符号等特殊字符。
此外,这些解决方案在准备用于后续使用的识别信息时可能面临挑战。具体而言,许多这样的解决方案或者是以非结构化格式产生输出,或者只有在输入的电子文档被特定地格式化以供图像识别***识别时,才能产生结构化输出。所产生的非结构化输出通常无法有效地处理。特别地,这种非结构化输出可以包含副本,并且可以包括在使用之前需要后续处理的数据。
营业费用是指作为进行贸易或商业活动的成本而产生的费用。这些费用通常可以扣除。可扣除费用是指在税收征收之前从公司收入中扣除的费用。标准业务扣除包括例如整体管理费用、商务旅行或娱乐费用、汽车费用和员工福利。一些业务费用是“流动的”,必须在支付的当年扣除,而其他业务费用则“资产化”并因此随着时间的推移分摊或折旧。
一些商业费用,如贿赂、交通票、非统一服装、以及不合理的大笔费用(如小型本地商家的大型喷气机)则被法律禁止扣除。费用扣除的规则和法律因管辖权而异,因此正确应用可能具有挑战性。特别是对于大型跨国公司而言,在确定哪些费用可以扣除时可能面临挑战。当费用报表和证明文档(例如,收据和***)包括非结构化数据时,这个问题会进一步地复杂化,可能导致处理低效或不准确。如何确定可扣除费用是一个严重的问题,因为不当地提交的文档可能会受到法律处罚,而因为担心这种处罚而扣留提交的文档则可能导致资金损失。
因此,提供一种克服现有技术缺陷的解决方案将是有利的。
发明内容
以下是本公开的若干示例实施例的概述。在此提供的本概述是为了方便读者对这些实施例有个基本的理解,而并非完全限定本发明的范围。本概述并非所有预期实施例的广泛概述,并且既不旨在标识所有实施例的关键或重要元素,也不旨在描绘任何或所有方面的范围。其唯一目的是以简化形式呈现一个或多个实施例的一些概念,作为稍后呈现的更详细描述的序言。为方便起见,本文可使用术语“一些实施例”来指代本公开的单个实施例或多个实施例。
本文公开的特定实施例包括用于基于电子文档生成合并数据的方法。该方法包括:分析第一电子文档以确定至少一个交易参数,该第一电子文档指示包括至少一个费用的交易,其中第一电子文档包括至少部分非结构化数据;为第一电子文档创建范本,其中范本是包括所确定的至少一个交易参数的结构化数据集;基于该范本检索第二电子文档,其中第二电子文档指示交易的凭据;基于扣除规则、所述范本以及所述第二电子文档中的至少一个,来确定所述至少一个费用的至少一个可扣除费用;以及,基于所确定的至少一个可扣除费用生成合并元数据。
本文公开的特定实施例还包括非暂时性计算机可读介质,其上存储有指令,用于使处理电路执行基于电子文档生成合并数据的程序,所述程序包括:分析第一电子文档以确定至少一个交易参数,所述第一电子文档指示包括至少一个费用的交易,其中所述第一电子文档包括至少部分非结构化数据;为第一电子文档创建范本,其中所述范本是包括所确定的至少一个交易参数的结构化数据集;基于所述范本检索第二电子文档,其中所述第二电子文档指示交易的凭据;基于扣除规则、所述范本和所述第二电子文档中的至少一个,来确定至少一个费用的至少一个可扣除费用;以及基于所确定的至少一个可扣除费用生成合并元数据。
本文公开的特定实施例还包括基于电子文档生成合并数据的***。该***包括:处理电路;以及记忆器,该记忆器包含的指令为当由处理电路执行时,将***配置为:分析第一电子文档以确定至少一个交易参数,该第一电子文档指示包括至少一个费用的交易,其中第一电子文档包括至少部分非结构化数据;为第一电子文档创建范本,其中该范本是包括所确定的至少一个交易参数的结构化数据集;基于该范本检索第二电子文档,其中第二电子文档指示交易的凭据;基于至少一个扣除规则、所述范本和所述第二电子文档来确定所述至少一个费用的至少一个可扣除费用;以及,基于所确定的至少一个可扣除费用生成合并元数据。
附图说明
本文所公开的主题由说明书推论的权利要求特别指出并清楚地要求保护。通过以下结合附图的详细描述,所公开实施例的前述以及其他的目的、特征和优点将变得显而易见。
图1是用于描述各种公开的实施例的网络示意图;
图2是根据一实施例的验证***的示意图;
图3是示出根据一实施例的用于合并电子文档的方法的流程图;
图4是示出根据一实施例的基于至少一个电子文档来创建数据集的方法的流程图。
具体实施方式
重点留意,本文公开的实施例仅是本文创新教导的许多有利用途的示意例。一般而言,在本申请的说明书中做出的陈述不一定限制任何所需要保护的实施例。此外,一些陈述可能适用于某些发明特征而不适用于其他特征。通常,除非另有说明,否则单数元素可以是复数,反之亦然,不失一般性。附图中,若干视图中的相同的标号表示相同的部件。
各种公开的实施例包括用于合并电子文档的方法和***。在一实施例中,基于指示与交易相关的信息的第一费用报表电子文档来创建数据集。基于第一电子文档数据集创建交易属性的范本。
基于所创建的范本,检索提供交易凭据的第二证明电子文档。比较费用报表电子文档和证明电子文档以确定其中指示的一个或多个交易参数的值是否存在差异。当存在差异时,确定引起差异的原因。基于费用报表范本、证明电子文档的数据以及企业的一个或多个特征,检索扣除规则。基于该规则、费用报表范本和证明电子文档的数据,确定一个或多个可扣除费用。生成指示所确定的可扣除费用的元数据并将其发送到企业***。
在一些实施方式中,基于例如与不同企业(如同一母公司拥有的不同子公司)相关联的多个费用报表电子文档的可扣除费用的元数据,生成合并费用报表电子文档。该合并费用报表电子文档能够表明不同企业的费用。因此,可扣除费用的元数据可用作报告合并费用的合并数据。
所公开的实施例允许关于其中指示的可扣除费用电子文档自动合并。更具体地,所公开的实施例包括提供用于电子文档的结构化数据集范本,从而允许基于非结构化、半结构化或其他方式不具有已知结构的电子费用报表来检索证明文档。例如,本公开的实施例可以用于有效地分析交易的费用报表的扫描图像,从而允许更准确地识别请求凭据的费用报表的部分,并且因此允许更准确地识别用以证明交易的适当文件。所确定的可扣除费用可用于创建指示有效费用的合并费用报表。
图1示出了用于描述各种公开的实施例的示例网络图100。在示例网络图100中,合并数据生成器120、企业***130、数据库140和多个网络源150-1到150-N(下文中分别称为网络源150以及统称为网络源150,仅是出于简化的目的),均经由网络110通信地连接。该网络110可以是但不限于无线、蜂窝或有线网络、局域网(LAN)、广域网(WAN)、城域网(MAN)、因特网、全球网络(WWW)、类似网络及其任何组合。
企业***130与企业相关联,并且可以存储与企业或企业的代表进行的购买有关的数据以及表明企业特征的企业特征参数,例如但不限于所在国、营业收入数据、结构化数据等。企业可以是但不限于雇员可以购买商品和服务(特别是在国外需要缴纳增值税的商品和服务)的公司。企业***130可以但不限于是服务器、数据库、企业资源规划***、客户关系管理***、个人计算机(PC)、个人数字助理(PDA)、移动电话、智能手机、平板电脑或用以存储相关数据的任何其他***。
与购买相关的数据可以包括例如,电子文档。由企业***130存储的每个电子文档可以显示例如费用报表或交易凭据(例如,收据、***、购买确认书等)。每个电子文档中包括的数据可以是结构化的、半结构化的、非结构化的或其组合。结构化或半结构化数据可以是合并数据生成器120无法识别的格式,因此被视为是非结构化数据。
数据库140可以存储由合并数据生成器120生成的元数据,以用于生成合并费用报表电子文档。网络源150可以存储证明电子文档、扣除规则或两者。证明电子文档可以当作用于准予请求的凭据,例如***、税收收据、订单确认书等。扣除规则定义可以被扣除的费用(例如,基于类型、金额等),并且可以进一步定义与企业相关的特征,例如但不限于公司所在国家、营业收入数据、结构化数据(例如补贴)等。
网络源150可以包括但不限于商家的服务器或设备、税务机关服务器、会计服务器、与企业相关联的数据库等。作为非限制性示例,网络源150-1可以是存储图像文件的商家服务器,该图像文件示出由与商家服务器相关联的商家进行的交易的***,并且网络源150-2可以是存储发生在特定国家的费用的扣除规则的税务机关服务器。
在一实施例中,合并数据生成器120配置为基于使用第一费用报表电子文档的机器视觉识别出的交易参数来创建范本,该第一费用报表电子文档指示与包括一个或多个费用的交易相关的信息。在另一实施例中,合并数据生成器120可以配置为从例如企业***130检索费用报表电子文档。基于所创建的范本,合并数据生成器120配置为从网络源150之一中检索出指示证明交易的信息的第二证明电子文档。
在一实施例中,合并数据生成器120配置为基于电子文档创建数据集,该电子文档包括至少部分缺少已知结构的数据(例如,非结构化数据、半结构化数据或具有未知结构的结构化数据)。为此,合并数据生成器120还可以配置为利用光学字符识别(OCR)或其他图像处理来确定电子文档中的数据。因此,合并数据生成器可以包括或通信地连接到识别处理器(例如,图2所示的识别处理器235)。
在一实施例中,合并数据生成器120配置为对所创建的费用报表电子文档的数据集进行分析,以识别与费用报表电子文档中指示的交易相关的交易参数。该交易参数指示一个或多个费用的信息。合并数据生成器120配置为基于该数据集创建范本。每个范本都是结构化数据集,包括交易的已识别交易参数。
在一实施例中,基于费用报表范本,合并数据生成器120配置为检索第二证明电子文档。所检索的证明电子文档与费用报表电子文档相匹配,例如相对于证明电子文档和费用报表电子文档中的每一个中的一组唯一识别交易参数。例如,检索到的证明电子文档可以具有相同的交易标识符号,或者可以具有相同的日期和商家标识符。如果不能检索到匹配的第二证明电子文档,则合并数据生成器120可以配置为确定费用报表电子文档中指示的费用不可扣除。
相较于例如利用非结构化数据而言,使用结构化范本能够更有效和准确地确定费用是否可扣除。具体地,可以仅针对费用报表电子文档的相关部分(例如,包括在结构化范本的特定字段中的部分)来分析相应的扣除规则,从而减少每个规则的应用实例数量,并减少了由于将规则应用于可能与每个规则无关的数据而导致的误报。此外,可以从所创建的范本的特定字段中提取用于检索相应的证明电子文档的唯一标识交易参数,而不是请求与费用报表电子文档的所有非结构化数据进行比较。
在一实施例中,基于范本与检索到的证明电子文档之间的比较结果,合并数据生成器120配置为确定在比较的电子文档中是否存在一个或多个交易参数的值的差异。为此,所述比较结果可以包括将所创建的范本中的交易参数与证明电子文档中指示的交易参数进行比较。用以确定差异的所比较的交易参数可以是与费用相关的参数,更具体地可以是为了成功扣除而请求凭据的参数。例如,所比较的交易参数可以包括每个费用(例如,购买的商品或服务)的价格。该差异可以例如是数值差异(例如,价格、数量或两者),也可以是比例差异等。
在一些实施方式中,比较电子文档可以进一步地创建用于证明电子文档的证明范本,并且相对于待比较的交易参数的对应字段将证明范本与费用报表范本进行比较。例如,可以比较每个范本的“价格”字段中指示的数据。对结构化范本的数据进行比较能够进一步允许更准确和有效地确定差异。
在一实施例中,当差异被确定时,合并数据生成器120还可以配置为确定引起差异的原因。基于关于所确定的差异和所比较的交易参数的一个或多个因果关系规则来确定引起差异的原因。该因果关系规则可能与例如,由于额外或退款购买产生的差异、货币汇率差异、购买时未收取的税费(例如增值税)、杂费、小费以及由交易参数的值指示的其他潜在原因有关。
例如,+$100.51的差价可能与酒店额外住宿相关,差价为-$100.51则可能与房间类型为每晚100.51美元的房的夜宿退款有关。
根据差异的原因,可以确定费用是否可扣除。为此,某些预定原因可能与不可扣除的费用相关联。例如,引起差异的原因表示的是一晚酒店住宿费的退款,则可能导致确定不将全部费用(即包括退款那晚的费用)扣除。在进一步的实施方式中,基于引起差异的原因确定费用是否可部分扣除。例如,如果引起差异的原因是部分退款(例如,在总共三晚中退还其中一晚的酒店住宿费),则可以将未退还的费用部分确定为待扣除的费用。
在一实施例中,基于企业的企业特征参数、费用报表电子文档、证明电子文档或其组合,合并数据生成器120配置为从一个或多个网络源150检索扣除规则。例如,基于业务所在的国家(例如,从与所在国家相关联的税务机关的网络源150)、企业的结构、企业最近的年度收入及其组合等来检索所检索的扣除规则。
在一实施例中,合并数据生成器120配置为将检索到的规则应用于关于费用报表范本、证明电子文档、企业特征或其组合的数据,以便确定费用报表电子文档中指示的每个费用是否可以扣除。此外,可以为每项费用确定可扣除金额。例如,可扣除金额可以确定为费用总额的一部分或费用的部分金额(例如,当费用如上文所述确定为可部分扣除时)。
在一实施例中,合并数据生成器120配置为基于所确定的可扣除费用生成元数据。元数据可以包括,例如,可扣除金额、关于交易的哪些费用可以扣除的指示、引起费用报表和证明文档之间的差异的原因以及其组合等。合并数据生成器120还可以配置为生成包括元数据的通知。
生成的元数据可以用作合并数据,用于创建合并费用报表。为此,在一些实施方式中,合并数据生成器120可以配置为基于多组元数据生成合并费用报表电子文档。元数据集可以与不同的费用报表相关,并且可以进一步与来自不同企业的费用报表相关。因此,合并费用报表电子文档可为了例如报税的目的将费用合并。
应当注意,上述所描述的关于图1中一个企业***130的实施例,仅是出于简化目的且不限制本公开的实施例。在不脱离本公开的范围的情况下,可以同等地利用多个企业***。
图2是根据一实施例的合并数据生成器120的示例示意图。合并数据生成器120包括处理电路210,该处理电路210与记忆器215、存储器220和网络接口240相耦接。在一实施例中,合并数据生成器120包括光学字符识别(OCR)处理器230。在另一实施例中,合并数据生成器120的组件经由总线250通信地连接。
处理电路210可以实现为一个或多个硬件逻辑组件和电路。例如但不限于,可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、通用微处理器、微控制器、数字信号处理器(DSP)等、或可以执行信息的计算或其他操作的任何其他硬件逻辑组件。
记忆器215可以是易失性的(例如,RAM等)、非易失性的(例如,ROM、闪存等)或其组合。在一种配置中,用于实现本文公开的一个或多个实施例的计算机可读指令可以存储在存储器220中。
在另一实施例中,存储器215配置为用以存储软件。软件应广义地解释为表示任何类型的指令,无论是指软件、固件、中间件、微代码、硬件描述语言或是其他。指令可以包括代码(例如,以源代码格式、二进制代码格式、可执行代码格式或任何其他合适的代码格式)。当由一个或多个处理器执行时,指令使得处理电路210能够执行本文描述的各种处理。具体地,如本文所讨论的,指令在被执行时使得处理电路210基于电子文档生成合并数据。
存储器220可以是磁存储器、光存储器等,并且可以实现为例如闪存或其他存储器技术,CD-ROM、数字通用光盘(DVD)或任何可以存储所需信息的其他介质。
OCR处理器230可以包括但不限于特征和/或模式识别处理器(RP)235,其配置为识别非结构化数据集中的模式、特征或两者。具体地,在一实施例中,OCR处理器230配置为至少识别非结构化数据中的字符。利用所识别的字符来创建用于匹配电子文档的数据集。利用所识别的字符来创建包括验证请求所需的数据的数据集。
网络接口240允许合并数据生成器120与企业***130、数据库140、网络源150或其组合进行通信,以便例如收集元数据、检索数据、存储数据等。
应当理解,本文描述的实施例不限于图2中所示的特定架构,并且在不脱离所公开实施例的范围的情况下,可以同等地使用其他架构。
图3示出了根据一实施例的用于基于电子文档生成合并数据的方法的示例流程图300。在一实施例中,该方法可以由合并数据生成器(例如,合并数据生成器120)执行。
在S310,基于包括与交易相关的信息的第一费用报表电子文档来创建数据集。该交易包括一项或多项费用。该费用报表电子文档可以包括但不限于非结构化数据、半结构化数据、具有未预料或未宣布的结构的结构化数据、或其组合。在一实施例中,S310还可以包括使用光学字符识别(OCR)分析费用报表电子文档以确定电子文档中的数据、识别数据中的关键字段、识别数据中的值、或其组合。下文中将参考图4对基于电子文档创建数据集作进一步描述。
在S320,分析费用报表数据集。在一实施例中,分析费用报表数据集可以包括但不限于确定交易参数(该交易参数例如但不限于至少一个实体标识符(例如,顾客企业标识符、商家企业标识符或两者))、与交易相关的信息(例如,日期、时间、价格、商品的类型或销售的服务等)、或以上两者。在另一实施例中,分析费用报表数据集还包括基于费用报表数据集识别交易的费用。
在S330,基于费用报表数据集以创建范本。该范本可以是但不限于包括多个字段的数据结构。该字段可以包括所识别的交易参数。该字段可以是预定义的。
由于创建的范本的结构化特性,从电子文档创建范本允许了更快速的处理。例如,在结构化数据集上比在缺乏这种结构的数据集上能够更有效地执行查询和操纵操作。此外,将来自电子文档的信息组织形成结构化数据集,可以显著减少保存包含在电子文档中的信息所需的存储量。电子文档通常是指比包含相同信息的数据集需要更多存储空间的图像。例如,表示100,000个图像电子文档的数据的数据集可以作为数据记录保存在文本文件中。这样的文本文件的大小将显著小于100,000个图像的大小。
在S340,基于所创建的范本检索第二证明电子文档。检索到的证明电子文档指示费用报表电子文档的交易凭据。在一实施例中,S340包括基于范本中的一组唯一标识交易参数在至少一个网络源中进行搜索。作为非限制性示例,在第一范本的“交易ID”字段中指示的“123456789”交易标识号可以用作搜索查询,以基于例如包括交易识别号“123456789”的第二电子文档的元数据来查找第二电子文档。在另一实施例中,S340包括基于第一范本来选择至少一个网络源。在一些实施方式中,如果未检索到证明电子文档(即,如果没有证明电子文档与费用报表电子文档匹配),则可以确定费用报表电子文档中指示的费用是不可扣除的并且终止执行。
在可选的S350,基于范本和检索到的证明电子文档,来确定一个或多个交易参数是否存在差异。在一实施例中,S350包括将所创建的范本中的交易参数与证明电子文档的相应数据进行比较。在另一实施例中,S350还可以包括创建用于证明电子文档的范本,并将费用报表电子文档的一个或多个字段中的数据与证明电子文档的相应字段中的数据进行比较。在一些实施方式中,如果一组或多组比较的交易参数存在差异,则可以确定与不同比较的交易参数相关联的每个费用均是不可扣除的。
在一些实施例中,S350还可以包括确定引起差异的原因。基于确定的差异原因,以确定费用报表电子文档中指示的一个或多个费用是不可扣除的还是仅可部分扣除的。在一些实施方式中,当差异是金额差异(例如,费用报表和交易***中指示的费用之一的价格不同)时,金额的较高值可以被确定为是不可扣除的。
在S360,从网络源检索一个或多个扣除规则。基于与企业(例如,与费用报表电子文档相关联的企业)相关的企业特征来检索扣除规则,并且基于交易的交易参数来进一步检索扣除规则。具体地,扣除规则可以基于企业所在的国家、企业的结构(例如,子公司和母公司)、企业的营业收入等而变化。
在S370,将检索到的扣除规则应用于费用报表电子文档、证明电子文档或两者中指示的交易参数。在一些实施方式中,针对被确定为不可扣除的费用的交易参数可以不应用扣除规则。应用扣除规则的结果可包括但不限于确定每个可扣除费用、每个可扣除费用的扣除金额或两者。
在S380,生成包括所确定的可扣除费用、扣除金额或两者的元数据。该元数据可以与其他费用报表的元数据一起使用以生成合并费用报表,从而合并费用报表。
在可选的S390,可以生成通知。该通知可以包括元数据、可扣除费用的指示、确定的引起差异的原因或其组合。在另一实施例中,当确定一个或多个费用是不可扣除时,通知可以指示不可扣除的费用。
图4示出了根据一实施例的基于电子文档创建数据集的方法的示例流程图S310。
在S410,获取电子文档。电子文档的获取可以包括但不限于接收电子文档(例如,接收扫描图像)或检索电子文档(例如,从消费者企业***、商家企业***或数据库或检索电子文档)。
在S420,分析电子文档。分析可以包括但不限于使用光学字符识别(OCR)来确定电子文档中的字符。
在S430,基于该分析步骤,识别电子文档中的关键字段和值。关键字段可以包括但不限于商家的姓名和地址、日期、货币、销售的商品或服务、交易标识符、***号等。电子文档可能包含不被视为关键值的不必要细节。例如,商家的徽标可能是不需要的,因此不是关键值。在一实施例中,可以预定义关键字段列表,并且提取可以与关键字段匹配的多条数据。然后,执行清理程序以确保准确地呈现信息。例如,如果OCR导致数据显示为“1211212005”,则清理程序会将此数据转换为12/12/2005。另一示例,如果名称显示为“Mo$den”,则将更改为“Mosden”。可以使用诸如字典、日历等外部信息资源来执行清理程序。
在另一实施例中,检查所提取的数据片段是否完整。例如,如果商家名称可以识别但其地址丢失,则商家地址的关键字段不完整。尝试补齐缺失的关键字段值。该尝试可以包括查询外部***和数据库、关联先前分析的***,或其组合。外部***和数据库的示例可以包括商业目录、通用产品代码(UPC)数据库、包裹递送和跟踪***等。在一实施例中,S430产生一组完整的预定义关键字段及它们各自的值。
在S440,生成结构化数据集。生成的数据集包括标识的关键字段和值。
应当理解,使用诸如“第一”、“第二”等名称对本文中元件的任何引用一般不限制这些元件的数量或顺序。相反,这些名称在本文中通常用以便利地区分两个或更多个元件或元件的多个实例。因此,第一元件和第二元件的引用并不意味着仅能够使用两个元件、或者第一元件必须以某种方式在第二元件之前。而且,除非另有说明,否则一组元件包括一个或多个元件。
如本文所使用的,在短语“至少一个”后接的物件列表意味着可以单独使用任何列出的物件、或者可以利用所列物件中的两个或更多个的任意组合。例如,如果***被描述为包括“A、B和C中的至少一个”,则***可以是仅包括A;仅包括B;仅包括C;A和B组合;B和C组合;A和C组合;或A、B和C组合。
本文公开的各种实施例可以实现为硬件、固件、软件或其任何组合。此外,软件优选地实现为有形地体现在程序存储单元或计算机可读介质上的应用程序,该计算机可读介质包括部件、或特定设备和/或设备的组合。应用程序可以上传到包括有任何合适架构的机器并由其执行。优选地,该机器在具有诸如一个或多个中央处理单元(“CPU”)、记忆器和输入/输出接口等硬件的计算机平台上实现。计算机平台还可以包括操作***和微指令代码。在此描述的各种过程和功能可以是微指令代码的一部分或者应用程序的一部分、或者它们的任何组合,其可以由CPU执行,无论是否明确地示出了这样的计算机或处理器。另外,可以设置连接到计算机平台的各种其他***单元,例如附加数据存储单元和打印单元。此外,非暂时性计算机可读介质是除暂时传播信号之外的任何计算机可读介质。
本文引用的所有示例和条件语言均旨在用于教学目的以帮助读者理解所公开实施例的原理和发明人为促进技术而提供的概念,并且应被解释为不限于这些具体列举的实例和条件。此外,本文公开的实施例的原理、方面和实施例的所有陈述以及其具体示例均旨在包括其结构和功能的等同物。另外,这些等同物旨在包括当前已知的等同物以及将来开发的等同物,即,开发的执行相同功能的任何元件,而不管结构如何。
Claims (19)
1.一种基于电子文档生成合并数据的方法,包括:
分析第一电子文档以确定至少一个交易参数,所述第一电子文档指示包括至少一个费用的交易,其中所述第一电子文档包括至少部分非结构化数据;
为第一电子文档创建范本,其中所述范本是包括所确定的至少一个交易参数的结构化数据集;
基于所述范本检索第二电子文档,其中所述第二电子文档指示交易的凭据;
基于扣除规则、所述范本和所述第二电子文档中的至少一个,来确定至少一个费用的至少一个可扣除费用;以及
基于所确定的至少一个可扣除费用生成合并元数据。
2.根据权利要求1所述的方法,其中,确定至少一个交易参数还包括:
在所述第一电子文档中识别至少一个关键字段和至少一个值;
基于所述第一电子文档创建数据集,其中创建的数据集包括所述至少一个关键字段和所述至少一个值;以及
分析所创建的数据集,其中基于分析来确定至少一个交易参数。
3.根据权利要求2所述的方法,其中,识别至少一个关键字段和至少一个值还包括:
分析第一电子文档以确定第一电子文档中的数据;以及
基于预定的关键字段列表,提取确定的数据的至少一部分,其中,确定的数据的至少一部分与预定的关键字段列表中的至少一个关键字段匹配。
4.根据权利要求3所述的方法,其中,分析第一电子文档还包括:
在所述第一电子文档上执行光学字符识别。
5.根据权利要求1所述的方法,还包括:
基于所述第二电子文档和为所述第一电子文档创建的范本,确定所述第一电子文档和所述第二电子文档之间是否存在差异与所述至少一个费用中的至少一个相关;以及
对于每个确定的差异,确定相应的费用是否是不可扣除的。
6.根据权利要求5所述的方法,其中,所述第二电子文档包括至少部分非结构化数据,所述方法还包括:
为第二个电子文档创建结构化数据集范本;以及
将第一电子文档范本的至少一个字段中的数据与第二电子文档范本的至少一个对应字段中的数据进行比较,其中基于比较结果确定差异。
7.根据权利要求5所述的方法,还包括:
对于所述至少一个费用中的每一个费用,当确定相对于所述费用存在差异时,确定引起差异的原因,其中每个费用是否是不可扣除的是由基于引起相对于所述费用差异的原因来确定。
8.根据权利要求1所述的方法,其中,所述第一电子文档与企业相关联,所述方法还包括:
基于企业的至少一个企业特征来检索至少一个扣除规则。
9.根据权利要求8所述的方法,其中,所述至少一个企业特征包括以下中的至少一个:所在的国家、企业结构以及营业收入。
10.一种非暂时性计算机可读介质,其上存储有用于使处理电路执行一程序的指令,所述程序包括:
分析第一电子文档以确定至少一个交易参数,所述第一电子文档指示包括至少一个费用的交易,其中所述第一电子文档包括至少部分非结构化数据;
为第一电子文档创建范本,其中所述范本是包括所确定的至少一个交易参数的结构化数据集;
基于所述范本检索第二电子文档,其中所述第二电子文档指示交易的凭据;
基于扣除规则、所述范本和所述第二电子文档中的至少一个,来确定至少一个费用的至少一个可扣除费用;以及
基于所确定的至少一个可扣除费用生成合并元数据。
11.一种基于电子文档生成合并数据的***,包括:
处理电路;以及
记忆器,该记忆器包含的指令为当由处理电路执行时,将***配置为:
分析第一电子文档以确定至少一个交易参数,所述第一电子文档指示包括至少一个费用的交易,其中所述第一电子文档包括至少部分非结构化数据;
为第一电子文档创建范本,其中所述范本是包括所确定的至少一个交易参数的结构化数据集;
基于所述范本检索第二电子文档,其中所述第二电子文档指示交易的凭据;
基于扣除规则、所述范本和所述第二电子文档中的至少一个,来确定至少一个费用的至少一个可扣除费用;以及
基于所确定的至少一个可扣除费用生成合并元数据。
12.根据权利要求11所述的***,其中,所述***还配置为:
在所述第一电子文档中识别至少一个关键字段和至少一个值;
基于所述第一电子文档创建数据集,其中创建的数据集包括所述至少一个关键字段和所述至少一个值;以及
分析所创建的数据集,其中基于所述分析来确定至少一个交易参数。
13.根据权利要求12所述的***,其中,所述***还配置为:
分析所述第一电子文档以确定第一电子文档中的数据;以及
基于预定的关键字段列表提取确定的数据的至少一部分,其中所述确定的数据的至少一部分与预定的关键字段列表中的至少一个关键字段相匹配。
14.根据权利要求13所述的***,其中,所述***还配置为:
在所述第一电子文档上执行光学字符识别。
15.根据权利要求11所述的***,其中,所述***还配置为:
基于所述第二电子文档和为所述第一电子文档创建的范本,确定所述第一电子文档和所述第二电子文档之间是否存差异与在关于所述至少一个费用中的至少一个相关;以及
对于每个确定的差异,确定相应的费用是否是不可扣除的。
16.根据权利要求15所述的***,其中,所述***还配置为:
为所述第二个电子文档创建结构化数据集范本;以及
将第一电子文档范本的至少一个字段中的数据与第二电子文档范本的至少一个对应字段中的数据进行比较,其中基于比较结果来确定差异。
17.根据权利要求15所述的***,其中,所述***还配置为:
对于所述至少一个费用中的每一个费用,当确定相对于所述费用存在差异时,确定引起差异的原因,其中每个费用是否是不可扣除的是由基于引起相对于所述费用差异的原因来确定。
18.根据权利要求11所述的***,其中,所述***还配置为:
基于企业的至少一个企业特征检索所述至少一个扣除规则。
19.根据权利要求18所述的***,其中,所述至少一个企业特征包括以下中的至少一个:所在的国家、企业结构以及营业收入。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662371221P | 2016-08-05 | 2016-08-05 | |
US62/371,221 | 2016-08-05 | ||
US15/361,934 US20170154385A1 (en) | 2015-11-29 | 2016-11-28 | System and method for automatic validation |
US15/361,934 | 2016-11-28 | ||
PCT/US2017/045554 WO2018027158A1 (en) | 2016-08-05 | 2017-08-04 | System and method for generating consolidated data for electronic documents |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109791643A true CN109791643A (zh) | 2019-05-21 |
Family
ID=61073095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780058567.6A Pending CN109791643A (zh) | 2016-08-05 | 2017-08-04 | 用于生成电子文档的合并数据的***和方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3494531A4 (zh) |
CN (1) | CN109791643A (zh) |
WO (1) | WO2018027158A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12001446B2 (en) | 2022-04-12 | 2024-06-04 | Thinking Machine Systems Ltd. | System and method for extracting data from invoices and contracts |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100161616A1 (en) * | 2008-12-16 | 2010-06-24 | Carol Mitchell | Systems and methods for coupling structured content with unstructured content |
US8774516B2 (en) * | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8861861B2 (en) * | 2011-05-10 | 2014-10-14 | Expensify, Inc. | System and method for processing receipts and other records of users |
WO2013048790A1 (en) * | 2011-10-01 | 2013-04-04 | Oracle International Corporation | Mobile expense solutions architecture and method |
-
2017
- 2017-08-04 CN CN201780058567.6A patent/CN109791643A/zh active Pending
- 2017-08-04 WO PCT/US2017/045554 patent/WO2018027158A1/en unknown
- 2017-08-04 EP EP17837779.2A patent/EP3494531A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP3494531A1 (en) | 2019-06-12 |
WO2018027158A1 (en) | 2018-02-08 |
EP3494531A4 (en) | 2020-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062132B2 (en) | System and method for identification of missing data elements in electronic documents | |
US11138372B2 (en) | System and method for reporting based on electronic documents | |
US20170323006A1 (en) | System and method for providing analytics in real-time based on unstructured electronic documents | |
US20180011846A1 (en) | System and method for matching transaction electronic documents to evidencing electronic documents | |
US20170169292A1 (en) | System and method for automatically verifying requests based on electronic documents | |
WO2018132656A1 (en) | System and method for generating a modified evidencing electronic document including missing elements | |
EP3494495A1 (en) | System and method for completing electronic documents | |
US20180025225A1 (en) | System and method for generating consolidated data for electronic documents | |
US20180046663A1 (en) | System and method for completing electronic documents | |
CN109791643A (zh) | 用于生成电子文档的合并数据的***和方法 | |
CN109154949A (zh) | 基于未结构化电子文档而实时提供分析 | |
US20180025438A1 (en) | System and method for generating analytics based on electronic documents | |
US10387561B2 (en) | System and method for obtaining reissues of electronic documents lacking required data | |
US20180137578A1 (en) | System and method for prediction of deduction claim success based on an analysis of electronic documents | |
EP3494496A1 (en) | System and method for reporting based on electronic documents | |
US20170169519A1 (en) | System and method for automatically verifying transactions based on electronic documents | |
CN108713198A (zh) | 基于电子文件的自动验证请求 | |
WO2018132655A2 (en) | System and method for optimizing reissuance of electronic documents | |
WO2017201292A1 (en) | System and method for encrypting data in electronic documents | |
CN109791548A (zh) | 匹配交易电子文档和证明电子文档 | |
WO2018034941A1 (en) | System and method for generating analytics based on electronic documents | |
CN109313765A (zh) | 基于电子文件进行自动验证交易的***与方法 | |
US20170323395A1 (en) | System and method for creating historical records based on unstructured electronic documents | |
WO2017201013A1 (en) | System and method for creating historical records based on unstructured electronic documents | |
CN109791641A (zh) | 获取缺少必需数据的电子文件的重发的***和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190521 |