CN108713198A - 基于电子文件的自动验证请求 - Google Patents
基于电子文件的自动验证请求 Download PDFInfo
- Publication number
- CN108713198A CN108713198A CN201680083049.5A CN201680083049A CN108713198A CN 108713198 A CN108713198 A CN 108713198A CN 201680083049 A CN201680083049 A CN 201680083049A CN 108713198 A CN108713198 A CN 108713198A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- template
- data
- request
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/04—Payment circuits
- G06Q20/047—Payment circuits using payment protocols involving electronic receipts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/389—Keeping log of transactions for guaranteeing non-repudiation of a transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Security & Cryptography (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Character Discrimination (AREA)
Abstract
一种基于电子文件的自动验证请求的***和方法。该方法包括分析第一电子文件以确定至少一个交易参数,所述第一电子文件指示请求,其中第一电子文件包括至少部分地非结构化的数据;为第一电子文件创建第一模板,其中第一模板是包括所确定的至少一个交易参数的结构化数据集;基于第一模板检索第二电子文件,其中第二电子文件指示用于验证请求的证据;以及基于第一模板和第二电子文件确定请求是否被验证。
Description
相关申请的交叉引用
本申请要求于2016年2月15日提交的、目前正在审查中的、申请号为62/295,159的美国临时申请的优先权。本申请同时也是于2016年11月28日提交的、目前正在审查中、申请号为15/361,934的美国专利申请的部分继续申请。上述申请的内容通过引用整体并入本文。
技术领域
总体地,本公开涉及在数据***中验证文件,并且更具体地涉及基于电子文件的内容的验证请求。
背景技术
客户可以通过网络实时向商家订购旅行和住宿等服务。这些订单可以立即接受并处理。然而,订单付款通常需要更多时间才能完成,特别是要确保正在转移的资金的安全。因此,商家通常要求客户在下订单时实时提供款项保证。作为示例,客户可以根据支付来输入***信息,而商家可在确认销售之前实时验证***信息。验证通常包括确定所提供的信息是否有效(即信用***、有效期、PIN码和/或客户名称是否与已知信息匹配)。
在收到此类保证后,可以为客户生成采购订单。采购订单提供订单的证据,例如购买价格、所订购的商品和/或服务等。随后,可能会生成订单的***。采购订单通常用于指示所需求的产品以及估价和报价,而***通常用于指示实际提供的产品和产品的最终价格。通常,订单的***所显示的采购价格与采购订单所显示的购买价格不同。例如,如果酒店的客人虽然最初订购3晚住宿但是最终入住到第四晚,则采购订单的总价可能反映不同于后续***的总价。***的总价与采购订单的总价不同的情况很难跟踪,特别是在每天接受许多订单的大型企业中(例如,在管理在指定国家内的数百或数千家酒店的一家大型连锁酒店中)。这些差异可能会导致企业的记录保存错误。
随着企业越来越依赖技术来管理与***和采购订单数据等操作相关的数据,用于恰当管理和验证数据的合适***已成为成功的关键。特别是对于大型企业而言,企业每天使用的数据量可能非常大。因此,在最好的状态下,人工审查和验证此类数据是不切实际的。然而,多份记录保存文件之间的差异可能会给企业带来严重问题,例如,未能向税务机关恰当地申报收入。
通常,要申报交易期间支付的增值税,必须将指示与交易相关的信息的以文件形式存在的证据(例如***或收据)提交给相应的退税机构(例如,该国退还增值税的税务机构)。如果在提交的文档中信息与在申报请求中提交的信息不匹配,则拒绝请求且不予申报。为此,机构的员工通常手动选择并提交以电子文件形式存在的增值税申报所需文档(例如,显示***或收据的扫描的图像文件)。该手动选择引入了人为错误的可能性,例如,由于员工在请求中提供不正确的信息和/或提交非预期的文档(例如,另一项交易的***)。在利用包含至少部分地非结构化的数据的电子文件时,用于自动验证交易的现有解决方案面临挑战。
因此,提供将克服现有技术的种种缺陷的技术方案是有利的。
发明内容
本公开的几个示例性实施例概述如下。提供概述是为了方便读者而提供对此类实施例的基本理解并且不完全限定所公开的广度。该概述不是所有预期实施例的广泛概述,并且既不旨在标识所有实施例的关键或重要元素,也不旨在描绘任何或所有方面的范围。其唯一目的是以简化形式呈现一个或多个实施例的一些概念,作为稍后呈现的更详细描述的前序。为方便起见,本文可使用术语“一些实施例”来指代本发明的单个实施例或多个实施例。
本文公开的某些实施例包括用于验证电子文件的方法。该方法包括:分析第一电子文件以确定至少一个交易参数,第一电子文件指示请求,其中第一电子文件包括至少部分地非结构化的数据;为第一电子文件创建第一模板,其中第一模板是包括所确定的至少一个交易参数的结构化数据集;基于第一模板检索第二电子文件,其中第二电子文件指示用于验证请求的证据;以及基于第一模板和第二电子文件确定请求是否被验证。
本文公开的某些实施例也包括非暂时性计算机可读介质,其上存储有用于使处理电路执行过程的指令,该过程包括:分析第一电子文件以确定至少一个交易参数,第一电子文件指示请求,其中第一电子文件包括至少部分地非结构化的数据;为第一电子文件创建第一模板,其中第一模板是包括所确定的至少一个交易参数的结构化数据集;基于第一模板检索第二电子文件,其中第二电子文件指示用于验证请求的证据;以及基于第一模板和第二电子文件确定请求是否被验证。
本文公开的某些实施例也包括用于验证电子文件的***。该***包括:处理电路;以及存储器,该存储器包含指令,当指令被处理电路执行时,将***配置为:分析第一电子文件以确定至少一个交易参数,第一电子文件指示请求,其中第一电子文件包括至少部分地非结构化的数据;为第一电子文件创建第一模板,其中第一模板是包括所确定的至少一个交易参数的结构化数据集;基于第一模板检索第二电子文件,其中第二电子文件指示用于验证请求的证据;以及基于第一模板和第二电子文件确定请求是否被验证。
附图说明
在说明书结尾处的权利要求书中特别指出并清楚地要求保护本文所公开的主题。通过以下的结合附图的详细描述,所公开的实施例的前述和其他目的、特征和优点将显而易见。
图1是用于描述各种公开实施例的网络图;
图2是根据实施例的验证***示意图;
图3是流程图,显示了根据实施例的基于电子文件自动验证请求的方法;
图4是流程图,显示了根据实施例的基于至少一份电子文件创建数据集的方法;
图5是流程图,展示了根据实施例的基于第一电子文件和第二电子文件验证请求的方法。
具体实施方式
重要的是,要注意本文公开的实施例仅是本文的创新教导的许多有利用途的示例。一般地,在本申请的说明书中做出的陈述不一定限定任何各种要求保护的实施例。此外,一些陈述可能适用于某些发明特征而不适用于其他特征。通常,除非另有说明,否则单数元素可以是复数,反之亦然而不失一般性。在附图中,类似的标号标记在若干视图中表示类似的部件。
各种公开的实施例包括基于电子文件自动验证请求的方法和***。在一个实施例中,数据集是基于指示与请求有关的信息的第一电子文件而创建的。该请求可能用于申报交易期间所支付的增值税(VAT)。事务属性的模板是基于第一电子文件数据集而创建的。可选地,可以确定交易是否有资格获得该请求。
基于为第一电子文件而创建的模板,对指示支持请求的证据的第二电子文件进行检索。可选地,可以查询第一数据源以验证第一电子文件,并且可以查询第二数据源以验证第二电子文件。基于第一电子文件和第二电子文件,确定请求是否被验证。验证可以包括为第二电子文件创建模板。当请求被验证时,第一电子文件和第二电子文件可以存储在数据库中以供稍后使用。
图1示出了用于描述各种公开实施例的示例网络图100。在示例网络图100中,请求验证器120、企业***130、数据库140和多个网页源150-1到150-N(仅仅为了简单起见,下文中分别称为网页源150和统称为多个网页源150)通过网络110通信地连接。网络110可以是但不限于无线网、蜂窝或有线网络、局域网(LAN)、广域网(WAN)、城域网(MAN)、因特网、万维网(WWW)、类似网络以及其组合。
企业***130与企业相关联,并且可以存储与企业或企业代表进行购买有关的数据,以及与企业自身有关的数据。企业***130可进一步存储与企业要提交的请求(例如,增值税申报请求)有关的数据(例如,由企业的雇员提交的显示增值税申报请求表的图像文件)。企业可以是但不限于其雇员可以在国外购买需要缴纳增值税的商品和服务的企业。企业***130可以是但不限于服务器、数据库、企业资源规划***、客户关系管理***或存储相关数据的任何其他***。
由企业***130所存储的数据可以包括但不限于电子文件(例如,显示诸如***的图像文件、文本文件、电子表格文件。每份电子文件可以显示诸如***、税收收据、购买号码记录、增值税申报请求等。每份电子文件中包括的数据可以是结构化的、半结构化的、非结构化的或其组合。结构化或半结构化的数据可以是请求验证器120无法识别的格式,因此可以视为非结构化的数据。
数据库140可以存储由请求验证器120验证的数据以用于提交请求。例如,这样的数据可以包括多个电子文件集,每个集至少包括表明请求的第一电子文件和用作第一电子文件请求的证据的第二电子文件。
多个网页源150至少存储可用作授予请求的证据的电子文件。多个网页源150可以包括但不限于商家的服务器或设备、税务机关服务器、会计服务器、与企业相关联的数据库等。作为非限制性示例,网页源150-1可以是存储图像文件的商家服务器,该图像文件显示由与商家服务器相关联的商家交易所产生的***。
在一实施例中,请求验证器120配置为基于使用机器视觉所识别的第一电子文件的交易参数创建模板,该第一电子文件指示与交易相关的增值税申报请求有关的信息。例如,在另一个实施例中,请求验证器120可以配置为从企业***130检索第一电子文件。基于所创建的模板,请求验证器120配置为对指示证据交易信息的第二电子文件进行检索。
在一实施例中,请求验证120配置为基于电子文件创建数据集,该电子文件包括至少部分地缺少已知结构的数据(例如,非结构化的数据、半结构化的数据或具有未知结构的结构化的数据)。为此,请求验证器120可以进一步配置为利用光学字符识别(opticalcharacter recognition,OCR)或其他图像处理以确定电子文件中的数据。因此,请求验证器可以包括识别处理器,或者通信地连接到识别处理器(例如,图2中识别处理器235)。
在一实施例中,请求验证器120配置为分析所创建数据集以识别在电子文件中指示与交易相关的交易参数。在一实施例中,数据完整性管理器120配置为基于所创建数据集以创建模板。每个模板都是结构化数据集,结构化数据集包括用于交易的已识别的交易参数。
在一实施例中,请求验证器120配置为基于第一电子文件创建第一模板。在另一实施例中,请求验证器120可以配置为确定在第一电子文件中所指示的交易是否有资格申报增值税。在又一实施例中,例如,请求验证器120进一步可以配置为将第一模板的数据和基于第一模板从多个网页源150之一中检索到的至少一项增值税申报要求进行比较。例如,增值税申报要求可以是以表格形式存在的规则。例如,根据显示在德国进行采购的增值税申报申请表的扫描件的第一份电子文件,从德国税务机关服务器对增值税申报要求进行检索。检索到的增值税申报要求包括谋求申报的实体不是德国实体的要求,如果在第一模板中的“买方国籍”字段指示买方是德国实体,则该交易确定为没有资格申报增值税。
在一实施例中,基于第一模板,请求验证器120配置为检索用作授予请求所需证据的第二电子文件。在另一实施例中,检索第二电子文件可以包括基于在第一模板中的数据在多个网页源150中的至少一个中搜索。作为非限制性示例,如果第一模板中的数据表示基于在俄罗斯进行采购的增值税申报请求,则可以从与俄罗斯税务机关相关联的网页源150-2检索第二电子文件。作为另一非限制性示例,如果第一模板中的数据表示基于从ABC公司购买商品的增值税申报请求,则可以从与ABC公司相关联的网页源150-3检索第二电子文件。
在一实施例中,请求验证器120配置为基于第一电子文件和第二电子文件确定请求是否被验证。在另一实施例中,确定请求是否被验证进一步可包括基于第二电子文件的机器成像分析生成用于第二电子文件的第二模板。在又一实施例中,确定请求是否被验证包括将第一模板中的数据与第二模板中的数据进行比较。作为非限制性示例,可以比较第一模板和第二模板的相应“VAT”字段中的值,并且如果比较的值不匹配,则不验证请求。例如,匹配可以基于预定的阈值。
在另一实施例中,当确定请求未验证时,可生成指示验证失败的通知并将其发送到例如企业***130。
在又一实施例中,请求验证器120进一步可以配置为基于第一和第二模板分别验证第一电子文件和第二电子文件中的每一个。验证可以包括但不限于确定第一电子文件和第二电子文件中的每一个是否完整和准确。
例如,如果满足一个或多个预定的报告要求,则可以确定每份电子文件是完整的(例如,对于增值税,报告要求可以包括要求每项所购买商品或服务的类型、卖方国籍、买方国籍以及所支付增值税金额)。
可以基于存储在至少一个外部源中的数据确定每份电子文件是否准确。至少一个电子源可以包括但不限于企业***130、多个网页源150中的一个或多个、数据库140或其组合。确定准确度的示例如下。
作为示例,可以查询企业***130以获得与企业相关的数据,并且可以将与企业相关的数据与模板的至少一部分数据(例如,与企业信息相关的字段的数据)进行比较,以确定至少一部分数据是否准确。
作为另一示例,可以查询网页源150-7以查找与第二电子文件相关的元数据,并且可以将所查找的元数据与第二模板的数据进行比较。
作为又一示例,可以查询数据库140以获得先前验证请求的数据,并且可以将先前验证请求的数据与第一模板、第二模板或两者的数据的至少一部分进行比较,以确定至少一部分数据是否与先前验证请求数据匹配,而因此确定数据的至少一部分是否准确的。这是因为先前验证的交易数据可认为很可能是准确的。
在一实施例中,当确定请求未验证时,可以确定验证失败的原因。例如,验证失败的潜在原因可能包括与在第一模板和第二模板之间差异的原因相关的情况或假设。可以基于一个或多个因果关系规则确定潜在原因。在一实施例中,因果关系规则可以包括与价格差异或其倍数的特定值相关联的潜在原因。在另一实施例中,因果关系规则进一步可以基于差异是否为正(例如,***中的价格高于请求中的价格)或负(例如,***中的价格低于请求中的价格)。
应当注意,仅出于简化而不限制所公开实施例的目的,图1中的上文所描述的实施例是对一个企业***130进行的描述。在不脱离本公开范围的情况下,可以同等地用于多个企业***。
图2是根据实施例的请求验证器120的示例示意图。请求验证器120包括耦合到存储器215的处理电路410、储存器220和网络接口240。在一实施例中,数据完整性管理器120可以包括光学字符识别(OCR)处理器230。在另一实施例中,请求验证器120的组件可以经由总线250通信地连接。
处理电路210可以实施为一个或多个硬件逻辑组件和电路。例如而非限制,可以使用的硬件逻辑组件的示意性类型包括现场可编程门阵列(field programmable gatearray,FPGA)、专用集成电路(application-specific integrated circuit,ASIC)、专用标准产品(Application-specific standard products,ASSP)、***级芯片***(system-on-a-chip system,SOC)、通用微处理器、微控制器、数字信号处理器(digital signalprocessor,DSP)等等,或者能够执行计算或其他信息处理的任意其他硬件逻辑组件。
存储器215可以是易失性(如RAM等等)、非易失性(如ROM、闪存等等)或其组合。在一个配置中,执行本文所述的一个或多个实施例的计算机可读指令存储在储存器220中。
在另一实施例中,存储器215配置为存储软件。软件应广泛地解释为任意类型的指令,无论是指软件、固件、中间件、微代码、硬件描述语言还是其他。指令可包括代码(例如,源代码格式、二进制代码格式、可执行代码格式或任意其他适当的代码格式)。当由一个或多个处理器执行这些指令时,这些指令使得处理电路210执行本文所述的各种过程。具体地,如本文所讨论的是,指令在执行时使处理电路210基于电子文件执行请求的自动验证。
储存器220可以是磁存储器、光学存储器等等,并且可以实施为例如闪存或其他存储技术、CD-ROM、数字通用光盘(DVD)或能够用于存储期望的信息的任意其他介质。
OCR处理器230可以包括但不限于配置为识别非结构化的数据集中的模式、特征或其两者的特征和/或模式识别处理器(recognition processor,RP)235。具体地,在一实施例中,OCR处理器230配置为至少识别非结构化的数据中的字符。可以利用所识别的字符创建包括用于验证请求所需数据的数据。
网络接口240允许数据完整性管理器120与企业***130、数据库140、多个网页源150或其组合进行通信,以便例如收集元数据、检索数据、存储数据等等。
应理解到,本文所述的实施例并不限于图2中所示的具体结构,并且在不脱离本公开实施例范围的情况下可以等同使用其他结构。
图3是示例流程图300,显示了根据实施例的基于电子文件的自动验证请求的方法。在一实施例中,该方法由请求验证器(例如,请求验证器120)执行。
在S310中,基于包括与交易有关的信息的第一电子文件而创建第一数据集。第一电子文件可以包括但不限于非结构化的数据、半结构化的数据、具有未预料或未知结构的结构化的数据,或其组合。在一实施例中,S310进一步可以包括使用光学字符识别(OCR)分析第一电子文件以确定电子文件中的数据、识别数据中的关键字段、识别数据中的值,或其组合。在下文中参考图4进一步描述基于电子文件而创建数据集。
在S320中,分析第一数据集。在一实施例中,分析第一数据集可以包括但不限于确定交易参数,例如但不限于至少一个实体标识符(例如,消费者企业标识符、商家企业标识符或其两者)、与交易相关的信息(例如,日期、时间、价格、所销售商品或服务的类型等)或其两者。在另一实施例中,分析第一数据集也可包括基于第一数据集识别交易。
在S330,基于第一数据集创建第一模板。第一模板可以是但不限于包括多个字段的数据结构。字段可以包括所识别的交易参数。字段可以是预定义的。
由于所创建模板的结构化特性,使得更快处理从多个电子文件创建多个模板。例如,可以在结构化数据集上比在缺乏这种结构的数据集上更有效地执行查询和编辑操作。此外,将来自电子文件的信息组织成多个结构化数据集,可以显著减少保存包含在电子文件中的信息所需的存储量。电子文件通常是比包含同样信息的数据集需要更多存储空间的图像。例如,表示100000份图像电子文件的数据的数据集可以作为数据记录保存在文本文件中。这样的文本文件的大小将显著小于100000张图像的大小。
在选择性的S340,基于第一模板确定第一电子文件中指示的请求是否有资格进行验证,如果是,则继续执行S350;否则,执行终止。在一实施例中,S330可以包括确定所创建的第一模板是否满足至少一个预定约束。例如,如果第一模板满足至少一个预定约束,则请求可以有资格进行验证。该至少一个预定约束可以包括但不限于需要验证的信息类型的要求、精度的要求或其组合。需要验证的信息可进一步包括成功提交增值税申报请求所需的信息。例如,如果电子文件不包括交易中商家企业的国籍或交易的价格,则可能无法成功申报增值税。确定请求是否有资格进行验证可以通过仅对使用满足最低要求的模板进行验证来减少计算资源的使用。
在另一实施例中,S340可进一步包括基于第一模板确定至少一个约束。在另一实施例中,确定至少一个约束可以包括基于第一模板在至少一个数据库中搜索(例如,使用第一模板中所指示商家企业的位置)。在又一实施例中,S330也可包括分析至少一份报告要求电子文件(例如,增值税申报表)以确定至少一个约束。分析可进一步包括对每份报告要求电子文件执行OCR或其他图像处理。
在另一实施例中,当确定该请求不符合验证条件时,可以从至少一个数据源检索附加数据、替换数据或其两者,并将其包含在第一模板中。在另一实施例中,在检索附加或替换数据时,执行继续S350。在另一实施例中,在检索附加或替换数据时,基于更新的第一模板确定请求是否合格,如果是,则继续执行S350;否则,执行终止。
在S350,基于第一模板检索第二电子文件。在一实施例中,S350包括基于在第一模板中的数据在至少一个网页源中搜索。作为非限制性示例,指示在第一模板的“交易ID”字段中的交易标识号“123456789”可以用作搜索查询,以基于例如包括交易识别号“123456789”的第二电子文件的元数据查找的第二电子文件。在另一实施例中,S350进一步包括基于第一模板选择至少一个网页源。
在S360,基于第一模板和第二电子文件确定在第一电子文件中所指示的请求是否已验证,如果是,继续执行S370;否则,继续执行S380。在一实施例中,S360包括为第二电子文件生成第二模板(例如,使用下面的图4进一步描述的方法)。在另一实施例中,S360进一步包括将第一模板中的数据与第二模板中的数据进行比较。在另一实施例中,S360可以包括验证第一电子文件和第二电子文件中的至少一份。下文将参考图5进一步描述基于第一电子文件和第二电子文件确定请求是否被验证。
在S370,当确定请求被验证时,第一电子文件和第二电子文件存储在例如数据库中,该数据库包括指示增值税申报请求的第一电子文件和指示支持相应请求的证据的对应第二电子文件。因此,第一电子文件和第二电子文件可以一起提交以申报增值税。
在S380,当确定请求未验证时,确定至少一个原因。在一实施例中,S380包括分析每个不匹配的参数集以分析其中的差异并分析所识别的差异。原因可以包括但不限于与实际报告相比缺少的证据、报告中的错误和重复的报告等。在一实施例中,S380可进一步包括提供指示源,该指示源实际提供不匹配的数据、不匹配的原因或两者兼而有之。
作为非限制性示例,可以设置提交实际报告的特定雇员或部门的指示。作为另一非限制性示例,可以设置由于增值税申报表格的污迹而发生不匹配的指示。作为另一非限制性示例,当申报购买智能电话的580美元增值税时,并且基于分析,确定的是,为使用智能电话而额外购买SIM卡获得总额为600美元增值税,不匹配的原因可确定为未能申报所有潜在的申报的增值税。
在选择性的S390,可以生成通知。通知可以指示请求是否验证。在另一实施例中,当请求未验证时,通知可包括所确定的至少一个原因。
图4是示例流程图S310,显示根据实施例的基于电子文件创建数据集的方法。
在S410,获得电子文件。获取电子文件可以包括但不限于接收电子文件(例如,接收扫描图像)或检索电子文件(例如,从客户企业***、商家企业***或数据库检索电子文件)。
在S420,分析电子文件。分析可以包括但不限于使用光学字符识别(OCR)确定电子文件中的字符。
在S430,基于分析,识别电子文件中的关键字段和值。关键字段可以包括但不限于商家的姓名和地址、日期、货币、所销售商品或服务、交易标识符和***号等。电子文件可以包含不视为关键值的不必要细节。作为示例,可能不需要商家的商标,因此其不是关键值。在一实施例中,可以预定义关键字段列表,并且提取可以与多个关键字段匹配的数据片段。然后,执行清理过程以确保准确地呈现信息。例如,如果OCR将导致数据显示为“1211212005”,则清理过程会将此数据转换为12/12/2005。另一例子,如果名称显示为“Mo$den”,则将更改为“Mosden”。可以利用诸如字典、日历等外部信息资源执行清理过程。
在另一个实施例中,检查提取的数据片段是否完整。例如,如果可以识别商家名称但是丢失其地址,则商家地址的关键字段不完整。执行完善缺失的关键字段值的尝试。该尝试可以包括查询外部***和数据库、查询与先前所分析***的相关性,或其组合。外部***和数据库的示例可以包括企业目录、通用产品代码(Universal Product Code,UPC)数据库、包裹递送和跟踪***等。在一实施例中,S430产生一组完整的预定义关键字段及其各自的值。
在S440,生成结构化数据集。所生成数据集包括已识别的关键字段和值。
图5是示例流程图S360,显示了根据实施例的基于第一电子文件和第二电子文件确定是否验证请求的方法。在一实施例中,该方法进一步基于为第一电子文件创建的第一模板(例如,上文的图4进一步描述的创建的模板)。在另一实施例中,第一电子文件可以指示增值税申报的请求,而第二电子文件可以指示用作支持增值税申报请求的证据的信息(即,第二文件可以是***、收据等)。
在S510,基于第二电子文件创建第二模板。在一实施例中,S510包括在第二电子文件上执行机器成像。可以参照上文的图4的进一步描述那样创建第二模板。
在S520,比较第一模板和第二模板。在一实施例中,S520包括将第一模板的每个部分与第二模板的对应部分进行比较。在另一实施例中,S520可进一步包括基于每个模板的结构识别多个对应的部分。作为非限制性示例,在每个模板中占据相同对应位置字段中的数据可以是对应的。
在S530,基于比较,确定请求是否验证。在一实施例中,S530包括基于一个或多个匹配规则确定每组对应部分是否与上述的预定阈值相匹配。作为非限制性示例,可以分别确定在第一模板和第二模板的字段“价格(欧元)”中的值“€100”和“100.00”以进行匹配。
应当理解,本文中使用诸如“第一”、“第二”等名称对元件的任何引用一般不限制这些元件的数量或顺序。相反,这些名称在本文中通常用作区分元素的两个或更多个元素或实例的便利方法。因此,对第一和第二元件的引用并不意味着在那里仅可以采用两个元件,或者第一元件必须以某种方式在第二元件之前。而且,除非另有说明,否则一组元件包括一个或多个元件。
正如本文所使用的,词组“至少一”后跟项目列表表示可以单独地使用任何所列的项目,或可以使用所列项目中的两个或更多个的任意组合。例如,如果***描述为包括“A、B、C中至少一个”,该***可以单独包括A;单独包括B;单独包括C;A和B的组合;B和C的组合;A和C的组合;或者A、B、C的组合。
本文公开的各种实施例可以实施为硬件、固件、软件或其任意组合。此外,软件优选地实施为有形地实现在程序存储单元上或由部件组成的计算机可读介质上,或某些设备和/或某些设备的组合上的应用程序。应用程序可以上传到包括任何合适架构的机器并由其执行。优选地,该机器实现在具有诸如一个或多个中央处理单元(“CPU”)、存储器和输入/输出接口硬件的计算机平台上。计算机平台还可以包括操作***和微指令代码。这里描述的各种过程和功能可以是微指令代码或者是应用程序的一部分,又或者是它们的任何组合,其可以由CPU执行,无论是否明确地示出了这样的计算机或处理器。另外,各种其他***单元可以连接到计算机平台,例如附加数据存储单元和打印单元。此外,非暂时性计算机可读介质是除暂时传播信号之外的任何计算机可读介质。
本文所述的所有示例和条件语言旨在用于教导目的,以帮助读者理解所公开的实施例的原理和发明人为促进本领域所贡献的概念,并且应当解释为不对此类具体引用的实例和条件做出限制。此外,本文中记载本公开的实施例的原理、方面和实施例以及其具体示例的所有陈述旨在包括其结构和功能性的等同物。另外,这样的等同物包括当前已知的等同物以及将来开发的等同物,即,开发的执行相同功能的任何元件,而不管结构如何。
Claims (19)
1.一种基于电子文件的自动验证请求方法,包括:
分析第一电子文件以确定至少一个交易参数,所述第一电子文件指示请求,其中第一电子文件包括至少部分地非结构化的数据;
为第一电子文件创建第一模板,其中第一模板是包括所确定的至少一个交易参数的结构化数据集;
基于第一模板检索第二电子文件,其中第二电子文件指示用于验证请求的证据;以及
基于第一模板和第二电子文件,确定请求是否被验证。
2.根据权利要求1所述的方法,其中确定至少一个交易参数还包括:
在第一电子文件中识别至少一个关键字段和至少一个值;
基于第一电子文件创建数据集,其中所创建的数据集包括至少一个关键字段和至少一个值;以及
分析所创建的数据集,其中基于分析确定至少一个交易参数。
3.根据权利要求2所述的方法,其中确定至少一个关键字段和至少一个值还包括:
分析第一电子文件以确定第一电子文件中的数据;以及
基于预定义的关键字段列表,提取所确定数据的至少一部分,其中所确定数据的至少一部分与预定义的关键字段列表中的至少一个关键字段匹配。
4.根据权利要求3所述的方法,其中分析第一电子文件还包括:
对第一电子文件执行光学字符识别。
5.根据权利要求4所述的方法,还包括:
对提取的所确定数据的至少一部分执行清理过程。
6.根据权利要求4所述的方法,还包括:
检查提取的所确定数据的至少一部分的每条数据是否完整;以及
对于每条不完整的数据,执行至少以下一项:查询至少一个外部源,和将所确定数据与至少一个先前分析的电子文件的数据相关联。
7.根据权利要求1所述的方法,其中确定请求是否被验证还包括:
基于第二电子文件创建第二模板,其中第二模板是包括第二电子文件的数据的结构化数据集;
比较第一模板和第二模板,其中确定请求是否被验证是基于所述比较。
8.根据权利要求7所述的方法,其中比较第一模板和第二模板还包括:
将第一模板的每个部分与第二模板的对应部分进行比较;以及
确定第一模板的每个部分是否与第二模板的对应部分匹配。
9.根据权利要求1所述的方法,其中第一电子文件是展示增值税申报请求的图像,其中第二电子文件是展示***、收据和购买编号记录中至少一项的图像。
10.一种非暂时性计算机可读介质,其上存储有用于使处理电路执行过程的指令,所述过程包括:
分析第一电子文件以确定至少一个交易参数,所述第一电子文件指示请求,其中第一电子文件包括至少部分地非结构化的数据;
为第一电子文件创建第一模板,其中第一模板是包括所确定的至少一个交易参数的结构化数据集;
基于第一模板检索第二电子文件,其中第二电子文件指示用于验证请求的证据;以及
基于第一模板和第二电子文件,确定请求是否被验证。
11.一种用于验证电子文件所表示交易的***,包括:
处理电路;和
存储器,所述存储器包含指令,当由处理电路执行所述指令时,所述***配置为:
分析第一电子文件以确定至少一个交易参数,所述第一电子文件指示请求,其中第一电子文件包括至少部分地非结构化的数据;
为第一电子文件创建第一模板,其中第一模板是包括所确定的至少一个交易参数的结构化数据集;
基于第一模板检索第二电子文件,其中第二电子文件指示用于验证请求的证据;以及
基于第一模板和第二电子文件,确定请求是否被验证。
12.根据权利要求11所述的***,其中所述***还配置为:
在第一电子文件中识别至少一个关键字段和至少一个值;
基于第一电子文件创建数据集,其中所创建的数据集包括至少一个关键字段和至少一个值;以及
分析所创建的数据集,其中基于分析确定至少一个交易参数。
13.根据权利要求12所述的***,其中所述***还配置为:
分析第一电子文件以确定第一电子文件中的数据;以及
基于预定的关键字段列表,提取所确定数据的至少一部分,其中所确定数据的至少一部分与预定的关键字段列表中的至少一个关键字段匹配。
14.根据权利要求13所述的***,其中所述***还配置为:
对第一电子文件执行光学字符识别。
15.根据权利要求14所述的***,其中所述***还配置为:
对提取的所确定数据的至少一部分执行清理过程。
16.根据权利要求14所述的***,其中所述***还配置为:
检查提取的所确定数据的至少一部分的每条数据是否完整;以及
对于每条不完整的数据,执行以下至少一项:查询至少一个外部源,和将所确定数据与至少一个先前分析的电子文件的数据相关联。
17.根据权利要求11所述的***,其中所述***还配置为:
基于第二电子文件创建第二模板,其中第二模板是包括第二电子文件的数据的结构化数据集;
比较第一模板和第二模板,其中确定请求是否被验证是基于所述比较。
18.根据权利要求17所述的***,其中所述***还配置为:
将第一模板的每个部分与第二模板的对应部分进行比较;以及
确定第一模板的每个部分是否与第二模板的对应部分匹配。
19.根据权利要求11所述的***,其中第一电子文件是展示增值税申报请求的图像,其中第二电子文件是展示***、收据和购买编号记录中至少一项的图像。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662295159P | 2016-02-15 | 2016-02-15 | |
US62/295,159 | 2016-02-15 | ||
US15/361,934 US20170154385A1 (en) | 2015-11-29 | 2016-11-28 | System and method for automatic validation |
US15/361,934 | 2016-11-28 | ||
PCT/US2016/067716 WO2017142618A1 (en) | 2016-02-15 | 2016-12-20 | Automatic verification of requests based on electronic documents |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108713198A true CN108713198A (zh) | 2018-10-26 |
Family
ID=59626190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680083049.5A Pending CN108713198A (zh) | 2016-02-15 | 2016-12-20 | 基于电子文件的自动验证请求 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3417383A4 (zh) |
CN (1) | CN108713198A (zh) |
WO (1) | WO2017142618A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10878514B2 (en) | 2018-08-22 | 2020-12-29 | International Business Machines Corporation | Expense validator |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244238A (ja) * | 2005-03-04 | 2006-09-14 | Oki Electric Ind Co Ltd | 識別コード確認装置 |
CN101075316A (zh) * | 2007-06-25 | 2007-11-21 | 陆航程 | 一种电子票证交易认证管理方法、载体结构、***、终端 |
CN101593338A (zh) * | 2009-07-13 | 2009-12-02 | 招商银行股份有限公司 | 一种处理电子交易请求的方法和*** |
CN101950457A (zh) * | 2010-09-06 | 2011-01-19 | 浪潮齐鲁软件产业有限公司 | 一种支持两种税控ic卡的自助办税终端的自助报税方法 |
CN102903171A (zh) * | 2012-09-21 | 2013-01-30 | 山东电力集团公司物资供应公司 | 自助式智能录入验审***处理***与方法 |
US20140079294A1 (en) * | 2009-02-10 | 2014-03-20 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US20150106247A1 (en) * | 2013-02-27 | 2015-04-16 | Isaac SAFT | System and method for pursuing a value-added tax (vat) reclaim through a mobile technology platform |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7827079B2 (en) * | 2003-06-30 | 2010-11-02 | Ebay Inc. | Method and system for assessing and reporting VAT charges for network-based marketplace services |
GB2471072A (en) * | 2009-06-12 | 2010-12-22 | Provenance Information Assurance Ltd | Electronic document verification system |
JP6559573B2 (ja) * | 2013-02-27 | 2019-08-14 | バットボックス・リミテッドVatbox, Ltd. | 付加価値税還付請求処理用のウェブベースシステム及びその方法 |
-
2016
- 2016-12-20 CN CN201680083049.5A patent/CN108713198A/zh active Pending
- 2016-12-20 WO PCT/US2016/067716 patent/WO2017142618A1/en active Application Filing
- 2016-12-20 EP EP16890887.9A patent/EP3417383A4/en not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244238A (ja) * | 2005-03-04 | 2006-09-14 | Oki Electric Ind Co Ltd | 識別コード確認装置 |
CN101075316A (zh) * | 2007-06-25 | 2007-11-21 | 陆航程 | 一种电子票证交易认证管理方法、载体结构、***、终端 |
US20140079294A1 (en) * | 2009-02-10 | 2014-03-20 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
CN101593338A (zh) * | 2009-07-13 | 2009-12-02 | 招商银行股份有限公司 | 一种处理电子交易请求的方法和*** |
CN101950457A (zh) * | 2010-09-06 | 2011-01-19 | 浪潮齐鲁软件产业有限公司 | 一种支持两种税控ic卡的自助办税终端的自助报税方法 |
CN102903171A (zh) * | 2012-09-21 | 2013-01-30 | 山东电力集团公司物资供应公司 | 自助式智能录入验审***处理***与方法 |
US20150106247A1 (en) * | 2013-02-27 | 2015-04-16 | Isaac SAFT | System and method for pursuing a value-added tax (vat) reclaim through a mobile technology platform |
Non-Patent Citations (1)
Title |
---|
郭辉: "构建增值税***智能处理***的研究", 《西部财会》 * |
Also Published As
Publication number | Publication date |
---|---|
EP3417383A4 (en) | 2019-07-03 |
WO2017142618A1 (en) | 2017-08-24 |
EP3417383A1 (en) | 2018-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062132B2 (en) | System and method for identification of missing data elements in electronic documents | |
US11138372B2 (en) | System and method for reporting based on electronic documents | |
US20170323006A1 (en) | System and method for providing analytics in real-time based on unstructured electronic documents | |
US20170169292A1 (en) | System and method for automatically verifying requests based on electronic documents | |
US20180011846A1 (en) | System and method for matching transaction electronic documents to evidencing electronic documents | |
CN109791537A (zh) | 将电子文档补充完整的***和方法 | |
US20170323157A1 (en) | System and method for determining an entity status based on unstructured electronic documents | |
US20180025225A1 (en) | System and method for generating consolidated data for electronic documents | |
CN109219809A (zh) | 基于电子文档的自动生成报告数据的方法和*** | |
US20180046663A1 (en) | System and method for completing electronic documents | |
CN109154949A (zh) | 基于未结构化电子文档而实时提供分析 | |
CN108713198A (zh) | 基于电子文件的自动验证请求 | |
US10387561B2 (en) | System and method for obtaining reissues of electronic documents lacking required data | |
US20180025224A1 (en) | System and method for identifying unclaimed electronic documents | |
US20180025438A1 (en) | System and method for generating analytics based on electronic documents | |
WO2018027130A1 (en) | System and method for reporting based on electronic documents | |
US20170169519A1 (en) | System and method for automatically verifying transactions based on electronic documents | |
CN109791643A (zh) | 用于生成电子文档的合并数据的***和方法 | |
CN110023970A (zh) | 用于验证非结构化的企业资源计划数据的***和方法 | |
WO2017201292A1 (en) | System and method for encrypting data in electronic documents | |
CN109791560A (zh) | 监视电子文件的***和方法 | |
CN109313765A (zh) | 基于电子文件进行自动验证交易的***与方法 | |
CN109791548A (zh) | 匹配交易电子文档和证明电子文档 | |
US20170323395A1 (en) | System and method for creating historical records based on unstructured electronic documents | |
CN109983489A (zh) | 基于非结构化的数据查找证明电子文件 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181026 |
|
WD01 | Invention patent application deemed withdrawn after publication |