CN110874715A - 检测与报告相关的问题 - Google Patents

检测与报告相关的问题 Download PDF

Info

Publication number
CN110874715A
CN110874715A CN201910809385.9A CN201910809385A CN110874715A CN 110874715 A CN110874715 A CN 110874715A CN 201910809385 A CN201910809385 A CN 201910809385A CN 110874715 A CN110874715 A CN 110874715A
Authority
CN
China
Prior art keywords
report
model
historical
determining
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910809385.9A
Other languages
English (en)
Other versions
CN110874715B (zh
Inventor
R·苏布拉玛尼安
裘堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Solutions Ltd
Original Assignee
Accenture Global Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accenture Global Solutions Ltd filed Critical Accenture Global Solutions Ltd
Publication of CN110874715A publication Critical patent/CN110874715A/zh
Application granted granted Critical
Publication of CN110874715B publication Critical patent/CN110874715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Technology Law (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本公开的实施例涉及检测与报告相关的问题。一种设备可以接收与以下内容相关的数据:与组织相关联的历史报告、历史报告的历史审计和与历史报告相关联的个体。设备可以确定针对数据的多实体简档。多实体简档可以包括数据的根据数据中所包括的属性集合的分组集合。设备可以使用多实体简档来确定针对历史报告的监督模型特征集合。设备可以使用多实体简档来独立于历史审计确定针对历史报告的无监督模型特征集合。设备可以利用模型来确定针对报告的分数。设备可以执行一个或者多个动作。

Description

检测与报告相关的问题
技术领域
本公开的实施例涉及检测与报告相关的问题。
背景技术
组织可以生成与组织的运营相关的各种类型的报告。例如,组织可以生成支出报告、时间报告、收入报告等。报告可以与个体(例如,提交报告的人、与报告的内容相关联的人等)、位置(例如,报告的主题内容的位置、与报告相关联的个体的位置等)、价值量(例如,针对支出报告的支出价值量、针对时间报告的时间价值量等)等相关联。
发明内容
根据一些可能的实现,一种方法可以包括:由设备接收与以下内容相关的数据:与组织相关联的历史报告,历史报告的历史审计,以及与历史报告相关联的个体;在接收到数据之后,由设备确定针对数据的多实体简档,其中多实体简档包括数据的根据数据中所包括的属性集合的分组集合;由设备使用多实体简档,基于历史审计来确定针对历史报告的监督模型特征集合,其中监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联;由设备使用多实体简档,独立于历史审计来确定针对历史报告的无监督模型特征集合,其中无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联;在模型使用监督模型特征集合和无监督模型特征集合而被训练之后,由设备利用模型来确定针对报告的分数,其中分数指示与报告相关的问题的可能性;以及由设备基于分数来执行一个或者多个动作。
根据一些可能的实现,一种设备可以包括:一个或者多个存储器;以及一个或者多个处理器,该一个或者多个处理器被通信地耦合至一个或者多个存储器,该一个或者多个处理器用以:接收与训练模型相关的数据以标识报告中所包括的问题;在接收到数据之后确定针对数据的多实体简档,其中多实体简档包括数据的根据数据中所包括的属性集合的分组集合;使用多实体简档,基于历史审计来确定针对历史报告的监督模型特征集合,其中监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联;使用多实体简档来独立于历史审计确定针对历史报告的无监督模型特征集合,其中无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联;在模型使用监督模型特征集合和无监督模型特征集合而被训练之后,利用模型来处理报告以标识指示报告中是否包括问题的分数;以及基于分数来将报告标记为包括问题或者不包括问题。
根据一些可能的实现,一种非瞬态计算机可读介质存储指令,这些指令包括:一个或者多个指令,该一个或者多个指令在由一个或者多个处理器执行时使一个或者多个处理器:接收将被用来训练模型的数据以标识报告中所包括的问题,其中数据与以下内容相关:与组织相关联的历史报告,历史报告的历史审计,以及与历史报告相关联的个体;在接收到数据之后确定针对数据的多实体简档,其中多实体简档包括数据的根据数据中所包括的属性集合的分组集合;使用多实体简档,基于历史审计来确定针对历史报告的监督模型特征集合,其中监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联;使用多实体简档来独立于历史审计确定针对历史报告的无监督模型特征集合,其中无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联;在确定监督模型特征集合和无监督模型特征集合之后,基于监督模型特征集合和无监督模型特征集合来训练模型;在训练模型之后,利用模型来确定针对报告的分数,其中分数指示与报告相关的问题的可能性;以及基于分数来执行一个或者多个动作。
附图说明
图1A至图1G是本文描述的示例实现的示意图。
图2是可以实现本文描述的***和/或方法的示例环境的示意图。
图3是图2所示一个或者多个设备的示例组件的示意图。
图4是用于检测与报告相关的问题的示例过程的流程图。
图5是用于检测与报告相关的问题的示例过程的流程图。
图6是用于检测与报告相关的问题的示例过程的流程图。
具体实施方式
以下对示例实现的详细描述参考附图。不同附图中的相同附图标记可以标识相同或者相似的元件。
组织可以生成与组织的运营相关的各种类型的报告。组织可能想要对报告进行审计以确定组织所生成的报告是否包括问题(例如,是欺骗性的、是不准确的、不符合格式规则等)。一种用于对报告进行审计的技术可以包括:标识报告的样本(例如,随机样本、基于时间表的样本等)并且对报告的样本进行审计。虽然该技术可以标识报告中所包括的一些问题,但是该技术对于标识报告中的问题可能具有较低的准确度和/或可能是耗时的。另外,随着组织所生成的报告的数量增加,该技术可能难以随着数量的增加而扩展。这可以导致组织在某一时间段期间所生成的绝大多数(例如,百分之90或者更多)报告从未被审计过。这大大降低了组织标识和/或修整包括问题的报告的能力,从而消耗了组织的大量资源(例如,基于包含问题的报告而消耗的货币资源、使用包含问题的报告而消耗的时间资源、处理包含问题的报告而消耗的计算资源等)。
本文描述的一些实现提供了一种报告分析平台,该报告分析平台能够利用机器学***台可以按照快速并且有效的方式来处理组织所生成的绝大多数(例如,百分之90或者更多)或者全部报告。相对于其他技术,这提高了处理报告以标识问题的准确度。另外,这增加了组织处理与组织相关联的报告的能力的吞吐量,从而减少了或者消除了错过包括问题的报告的风险。进一步地,这节省了组织的由于使用其他技术来处理报告而将以其他方式消耗的资源(例如,货币资源、时间资源、计算资源等)。
进一步地,按照这种方式,用于检测与报告相关的问题的过程的若干不同阶段是自动化的,这可以消除过程中的人类主观性和浪费,并且这可以提高过程的速度和效率以及节省计算资源(例如,处理器资源、存储器资源等)。此外,本文描述的实现使用严密的计算机化过程来执行先前未执行的或者先前使用主观人类直觉或者输入而执行的任务或者作用。进一步地,使用于检测与报告相关的问题的过程自动化节省了设备的在进行以下操作时将以其他方式被浪费的计算资源(例如,处理器资源、存储器资源等):尝试使用另一技术来处理组织所生成的报告和/或使用、处理等包含问题的报告。
图1A至图1G是本文描述的示例实现100的示意图。如在图1A中示出的,实现100包括服务器设备、客户端设备、用户设备和报告分析平台。
如通过附图标记105示出的,报告分析平台可以接收与处理与组织相关联的支出报告相关的数据。例如,数据可以与支出报告的历史审计(例如,标识历史支出报告的审计结果的数据)相关、与历史支出报告相关、与和组织相关联的雇员(或者其他个体)相关(例如,标识职位、位置、任期等的数据)、与各种货币之间的汇率相关等。在一些实现中,报告分析平台可以从服务器设备、客户端设备和/或用户设备接收数据。在一些实现中,报告分析平台可以基于请求数据、根据时间表、周期性地等来接收数据。
在一些实现中,报告分析平台可以按照各种形式来接收数据。例如,报告分析平台可以按照图像的形式来接收数据(例如,与支出报告相关联的收据的图像、图像形式的历史审计等),可以接收数据作为文本(例如,被输入至支出报告***的历史支出报告的文本、历史审计报告的文本等),作为来自被托管在服务器设备、客户端设备和/或用户设备上、在服务器设备、客户端设备和/或用户设备上执行等的应用的应用数据,作为对报告分析平台的输入(例如,经由与报告分析平台相关联的用户界面),作为来自服务器设备、客户端设备、用户设备等的与完成关联于历史支出报告的交易相关联地生成的交易数据等。在一些实现中,当接收数据时,报告分析平台可以接收数千、数百万或者更多的数据元素,以用于数千、数百万或者更多的历史审计、历史支出报告、雇员(或者其他个体)等。按照这种方式,报告分析平台可以接收人类角色无法手动或者客观地处理的数据集。
转向图1B,并且如通过附图标记110示出的,报告分析平台可以确定针对数据的多实体简档。例如,报告分析平台可以在接收到数据之后确定针对数据的多实体简档。在一些实现中,多实体简档可以包括数据的根据数据中所包括的属性集合的分组集合。例如,多实体简档可以按照个体(例如,提交了历史支出报告的个体、其历史支出报告被审计的个体等)、位置(例如,与历史支出报告相关联的个体的位置、与历史支出报告相关联的支出的位置等)、供应者(例如,与关联于历史支出报告的支出相关联)等来组织与历史审计相关的数据。继续先前的示例,针对个体的多实体简档可以包括与关联于个体的历史支出报告相关的数据、历史支出报告的历史审计、历史支出报告的位置、与历史支出报告相关联的供应者等。附加地或者备选地,报告分析平台可以按照与报告相关联的金额来组织数据(例如,与历史支出报告相关联的支出的金额、在支出报告中所标识的误差金额等)。
在一些实现中,报告分析平台可以基于数据中所包括的唯一标识符(例如,唯一地标识与数据相关联的个体的唯一标识符、与数据相关联的位置、与数据相关联的供应者等)来针对多实体简档组织数据。在一些实现中,唯一标识符可以被包括在数据中作为数据的属性(例如,作为具有唯一值的字段,诸如,名称、标识号等),并且报告分析平台可以基于作为属性被包括在数据中的唯一标识符来组织数据。
附加地或者备选地,报告分析平台可以处理数据以标识唯一标识符。例如,报告分析平台可以通过使用图像处理技术(诸如,计算机视觉技术、特征检测技术、光学字符识别(OCR)技术等)来处理图像,以标识图像中的字母数字字符串、符号、代码(例如,条形码、矩阵条形码等)(例如,标识唯一标识符的存在的字母数字字符串、符号、代码、是唯一标识符的字母数字字符串、符号、代码等)。继续先前的示例,报告分析平台可以将字母数字字符串、符号、代码等与被存储在数据结构中和/或报告分析平台的存储器资源中的信息相比较以确定哪些唯一标识符被包括在图像中。
附加地或者备选地,并且作为另一示例,报告分析平台可以使用文本处理技术(诸如,自然语言处理技术、文本分析技术等)来处理数据。继续先前的示例,报告分析平台可以处理文本以标识数据中所包括的字母数字字符串、符号、代码等(例如,指示唯一标识符的存在的字母数字字符串、符号、代码、是唯一标识符的字母数字字符串、符号、代码等),并且可以按照与上面描述的方式相似的方式来标识文本中所包括的唯一标识符。
附加地或者备选地,并且作为另一示例,报告分析平台可以使用模型(例如,机器学***台可以使用模型来处理图像和/或文本,以标识数据中所包括的字母数字字符串、符号、代码等,以标识数据的可能包括唯一标识符的区域(例如,图像和/或文本的区域)等(例如,基于已经被训练为标识数据中的唯一标识符、数据中可能包括唯一标识符的可能区域等)。在一些实现中,模型和/或对模型的训练可以与本文其他地方描述的模型和/或对模型的训练相似。
附图标记115示出了报告分析平台可以生成的示例多实体简档。如图所示,多实体简档可以组织报告分析平台由雇员、供应者等接收到的数据。按照这种方式,多实体简档促进按照有组织的方式来快速并且容易地访问数据。这相对于不使用多实体简档,节省了报告分析平台的处理资源,促进了对模型的训练以基于数据中所包括的属性来标识报告中的问题(例如,报告分析平台可以一般地基于特定的一个或者多个雇员来训练模型、一般地基于特定的一个或者多个供应者来训练模型等),从而关于标识报告中的问题,提高了模型的准确度。
转向图1C,并且如通过附图标记120示出的,报告分析平台可以基于历史审计来确定针对历史支出报告的监督模型特征集合。例如,报告分析平台可以在确定多实体简档之后确定监督模型特征集合。在一些实现中,监督模型特征可以包括可以被用来训练模型的数据的特征以标识报告中的问题等。例如,监督模型特征可以包括针对雇员、位置、供应者等的支出的模式(例如,支出的金额、支出的日期、支出的位置等)。在一些实现中,监督模型特征集合可以与在历史审计的上下文中训练模型以处理报告相关联。例如,报告分析平台可以基于历史审计的结果来确定数据的哪些特征可以指示报告中所包括的问题。继续先前的示例,报告分析平台可以确定数据的哪些特征指示报告包括将可能导致报告不通过审计的问题,数据的哪些特征指示报告将可能通过审计等。
如通过附图标记125示出的,报告分析平台可以将与历史审计和历史支出报告相关的数据输入到机器学***台可以输入与历史审计和历史支出报告相关的数据,并且机器学习模型可以输出监督模型特征的集合(例如,基于对机器学习模型的训练)。
在一些实现中,当处理与历史审计和历史支出报告相关的数据时,机器学习模型可以按照历史审计的结果来对历史支出报告进行分组。例如,机器学习模型可以利用与历史审计相关的数据来将与历史支出报告相关的数据进行分组,诸如,未通过历史审计的历史支出报告、通过历史审计的历史支出报告、未通过或者通过初步历史审计但是结果随后被撤销的历史支出报告、未被审计的历史支出报告等。
在一些实现中,报告分析平台可以将针对数据的多实体简档用作对机器学习模型的输入。这促进了标识针对数据中所包括的不同属性的监督模型特征集合,这可以使监督模型特征更加动态,可以提高监督模型特征集合的准确度等。
在一些实现中,在输入与历史审计和/或历史支出报告相关的数据之前,报告分析平台可以准备数据和/或对数据进行预处理。例如,报告分析平台可以标识数据中所包括的关键词,诸如,与历史审计相关的数据和与历史支出报告相关的数据共有的唯一标识符、标识结果是通过的历史审计的项、标识结果是未通过的历史审计的项、与历史支出报告相关联的金额、历史支出报告的位置等。附加地或者备选地,报告分析平台可以从与历史审计和历史支出报告相关的数据中所包括的文本中去除前导和/或尾随空格,可以去除非美国标准信息交换代码(ASCII)字符等。这通过使数据更均匀来促进了快速和/或容易地处理与历史审计和历史支出报告相关的数据,从而促进了快速确定监督模型特征,更准确地确定监督模型特征等。
在一些实现中,报告分析平台可以生成机器学***台可能已经训练了机器学习模型,以从与历史审计和历史支出报告相关的数据中标识监督模型特征集合。
在一些实现中,报告分析平台可以已经对训练数据集训练了机器学***台将与历史审计和历史支出报告相关的数据输入到机器学***台可以输入数据的第一部分作为训练数据集,输入数据的第二部分作为验证数据集,并且输入数据的第三部分作为测试数据集(例如,待用以确定监督模型特征集合)。在一些实现中,报告分析平台可以对训练机器学习模型执行多次迭代,这取决于对机器学习模型的测试结果(例如,通过提交数据的不同部分作为训练数据集、验证数据集和测试数据集)。
在一些实现中,当生成机器学***台可以利用随机森林分类器技术来生成机器学***台可以利用随机森林分类器技术来在训练期间构建多个决策树,并且可以输出数据的分类。附加地或者备选地,当生成机器学***台可以利用梯度提升树分类器技术来生成机器学***台可以利用梯度提升树分类器技术来从一组弱预测模型生成预测模型(例如,通过按照逐级的方式来生成机器学习模型,通过优化任意可微分损失函数等)。
在一些实现中,当生成机器学***台可以利用逻辑回归来生成机器学***台可以利用与历史审计和历史支出报告相关的数据的二元分类(例如,通过分类或者未通过分类)来训练机器学***台可以利用朴素贝叶斯分类器来训练机器学***台可以利用二元递归分区,将与历史审计和历史支出报告相关的数据划分为各种二元分类(例如,针对历史审计,以通过二元分类或者未通过二元分类开始)。基于使用递归分区,相对于对数据点进行手动的线性排序和分析,报告分析平台可以减少对计算资源的利用,从而使得能够使用数千、数百万或者数十亿数据点来训练机器学习模型,与使用较少的数据点相比较,这可以获得更准确的机器学习模型。
附加地或者备选地,当生成机器学***台可以利用支持向量机(SVM)分类器。例如,报告分析平台可以利用线性模型来实现非线性类边界,诸如,经由最大边缘超平面。附加地或者备选地,当利用SVM分类器时,报告分析平台可以利用二元分类器来执行多类分类。使用SVM分类器可以减少或者消除过度拟合,可以增加机器学习模型针对噪声的稳健性等。
在一些实现中,报告分析平台可以使用监督训练过程来训练监督模型特征的机器学***台可以使用一种或者多种其他模型训练技术,诸如,神经网络技术、潜在语义索引技术等。例如,报告分析平台可以执行人工神经网络处理技术(例如,使用双层前馈神经网络架构、三层前馈神经网络架构等),以关于监督模型特征的模式执行模式识别、关于基于历史审计的结果的监督模型特征的模式执行模式识别等。在这种情况下,使用人工神经网络处理技术可以通过以下操作来提高由报告分析平台生成的模型的准确度:对噪声、不精确的或者不完整的数据更加稳健并且使报告分析平台能够检测人类分析师或者***使用没那么复杂的技术无法检测到的模式和/或趋势。
作为示例,报告分析平台可以使用监督多标签分类技术来训练机器学***台可以在对历史支出报告进行标记之后,将与历史支出报告相关联的数据映射至一组先前生成的监督模型特征。在这种情况下,历史支出报告可以被表征为通过历史审计、未通过历史审计、包括问题、不包括问题等(例如,由技术人员进行,从而相对于需要报告分析平台对每个历史支出报告和/或历史审计进行分析,减少了处理)。作为第二步骤,报告分析平台可以确定分类器链,由此,目标变量的标签可以是相关的(例如,在该示例中,标签可以是历史审计的结果,并且相关性可以是指不同标签共有的监督模型特征等)。在这种情况下,报告分析平台230可以使用第一标签的输出作为针对第二标签的输入(以及一个或者多个输入特征,该一个或者多个输入特征可以是与历史支出报告和/或历史审计相关的其他数据),并且可以基于与包括相似数据的其他历史支出报告的相似度,确定特定历史支出报告包括问题和/或与监督模型特征集合相关联的可能性。按照这种方式,报告分析平台将分类从多标签分类问题变换为多个单分类问题,从而降低了处理利用率。作为第三步骤,报告分析平台可以通过使用验证数据集(例如,向每个历史报告应用加权的准确度和每个历史报告是否包括问题和/或监督模型特征集合,引起对历史支出报告是否包括问题和/或监督模型特征集合进行正确预测等,从而考虑了历史支出报告之间的变化),在执行分类时确定与标签的准确度相关的汉明(Hamming)损失度量。作为第四步骤,报告分析平台可以基于满足与汉明损失度量相关联的阈值准确度的标签来最终将机器学习模型定下来,并且可以使用机器学习模型来随后对费用报告是否包括问题,是否包括监督模型特征集合,是否将通过或者不通过审计等进行预测。
转向图1D,并且如通过附图标记130示出的,报告分析平台可以执行各种分析,和/或可以基于监督模型特征集合来生成各种报告、图表等,和/或可以基于执行各种分析和/或生成各种报告、图表等来确定监督模型特征集合。例如,报告分析平台可以基于支出报告的位置、与支出报告相关联的供应者等来标识针对支出报告的风险(例如,支出报告包括问题的可能性),作为机器学***台可以按照与历史支出报告相关联的数据中所包括的属性来确定适用和非适用历史支出报告的模式。继续先前的示例,报告分析平台可以确定与针对个体的历史支出报告相关的数据的第一模式(例如,金额、位置、日期等的模式)与包括问题的低可能性相关联,可以确定与针对个体的历史支出报告相关的数据的第二模式(例如,偏离第一模式的模式)与包括问题的高可能性相关联等。
附加地或者备选地,并且作为另一示例,报告分析平台可以对历史支出报告、历史审计、监督模型特征集合等执行线性判别分析。例如,报告分析平台可以确定与历史支出报告相关联的特定监督模型特征,这些历史支出报告通过审计、未通过审计、包括问题、不包括问题、与先前的适用或者非适用历史支出报告的模式相匹配等。附加地或者备选地,并且作为另一示例,报告分析平台可以对历史支出报告、历史审计和/或监督模型特征集合执行文本分析(例如,对标识监督模型特征集合的信息执行文本分析),以标识历史支出报告共有的项、短语、项和/或短语的模式等,这些历史支出报告通过历史审计,未通过历史审计,包括问题,不包括问题等。
转向图1E,如通过附图标记135示出的,报告分析平台可以独立于历史审计来确定针对历史支出报告的无监督模型特征集合。例如,报告分析平台可以按照与本文其他地方关于监督模型特征集合描述的方式相同或者相似的方式来确定无监督模型特征集合。在一些实现中,无监督模型特征集合可以包括与历史支出报告相关的数据的模式,而不管历史审计的上下文(例如,没有将历史支出报告分类为通过历史审计的历史支出报告或者未通过历史审计的历史支出报告)。在一些实现中,监督模型特征集合可以与独立于历史审计的上下文来训练模型相关联。在一些实现中,无监督模型特征可以独立于历史审计,并且因此,可以标识未进行历史审计的历史报告中的新的、不平常的和/或异常的行为和/或模式。
如通过附图标记140示出的,报告分析平台可以通过使用机器学***台可以将针对与历史支出报告相关的数据的多实体简档输入至机器学习模型,以按照与本文其他地方关于监督模型特征集合描述的方式相同或者相似的方式来确定无监督模型特征集合。
转向图1F,并且如通过附图标记145示出的,报告分析平台可以执行各种分析和/或可以基于无监督模型特征集合来生成各种报告、图表等,和/或可以基于执行各种分析和/或生成各种报告、图表等来确定无监督模型特征集合。例如,报告分析平台可以对无监督模型特征执行个体内分析。继续先前的示例,报告分析平台可以针对特定个体标识无监督模型特征的模式。这促进了在个体的历史支出报告的上下文中对针对个体的新的支出报告进行分析,从而关于标识支出报告中所包括的问题,提高报告分析平台的性能。
附加地或者备选地,并且作为另一示例,报告分析平台可以对无监督模型特征集合执行个体间分析。继续先前的示例,报告分析平台可以跨多个个体(例如,与同一位置相关联,在某一时间段内提交历史支出报告,与同一类型的支出相关联等)标识无监督模型特征的模式。这促进了在个体的对等组的上下文中对针对个体的新的支出报告进行分析,从而关于标识支出报告中所包括的问题,提高报告分析平台的性能。
附加地或者备选地,报告分析平台可以对历史支出报告、无监督模型特征集合等执行内核密度估计(KDE)异常检测分析。例如,报告分析平台可以执行KDE异常检测分析,以检测历史支出报告中的异常(例如,异常的位置、金额等)。
转向图1G,并且如通过附图标记150示出的,报告分析平台可以将监督模型特征集合和无监督模型特征集合组合成超模型。例如,报告分析平台可以在确定监督模型特征集合和无监督模型特征集合之后,将监督模型特征集合和无监督模型特征集合组合成超模型。在一些实现中,报告分析平台可以通过基于监督模型特征集合和无监督模型特征集合训练机器学***台可以使用超模型来训练机器学习模型。例如,机器学习模型可以与本文其他地方描述的机器学习模型相似。
在一些实现中,超模型可以包括梯度提升树。例如,报告分析平台可以将监督模型特征集合和无监督模型特征集合组合成梯度提升树,该梯度提升树可以被用来确定针对报告的分数(例如,通过将从数据提取的模式组合成单个模型)。
如通过附图标记155示出的,报告分析平台可以接收待处理的支出报告。例如,报告分析平台可以在生成超模型和/或利用超模型来训练机器学习模型之后,接收支出报告。在一些实现中,支出报告可以包括数据,该数据标识与支出报告相关联的一组支出、提交支出报告的个体、产生支出的一组个体、支出的金额、支出的位置、支出的类型(例如,食物、燃料、寄宿等)、与支出相关联的供应者等。在一些实现中,支出报告可以与本文其他地方描述的历史支出报告相似。
在一些实现中,报告分析平台可以从服务器设备、客户端设备、用户设备等接收支出报告。在一些实现中,报告分析平台可以在生成支出报告时接收支出报告,可以在特定时间或者在已经提交了阈值数量的支出报告之后接收一批支出报告等。在一些实现中,报告分析平台可以接收与数千、数百万或者更多的个体、供应者、位置等相关联的数千、数百万或者更多个支出报告。按照这种方式,报告分析平台可以接收人类行动者无法手动或者客观地处理(例如,按照一致的方式)的一定数量的支出报告。
如通过附图标记160示出的,报告分析平台可以确定针对支出报告的分数。例如,报告分析平台可以在接收到支出报告之后确定分数。在一些实现中,分数可以指示支出报告包括问题的可能性。例如,分数可以指示支出报告包括欺骗性支出的可能性,支出报告不通过审计的可能性,支出报告包括不与超模型的特征相匹配的数据的可能性等。
如通过附图标记165示出的,报告分析平台可以将支出报告(或者使用与本文其他地方描述的技术相似的文本处理技术、图像处理技术等从支出报告中提取的数据)输入到超模型中。例如,报告分析平台可以与进行确定相关联地输入支出报告,以确定针对支出报告的分数。在一些实现中,报告分析平台可以使用超模型来处理支出报告(例如,来自支出报告的数据),以确定支出报告是否与监督模型特征集合、无监督模型特征集合等相匹配。继续先前的示例,报告分析平台可以确定与支出报告相关联的位置、金额、个体等的组合是否与超模型中所包括的监督模型特征和/或无监督模型特征的模式相匹配。
在一些实现中,超模型可以是已经基于监督模型特征集合和/或无监督模型特征集合训练了的机器学习模型。例如,可以训练超模型,以在已经训练了超模型之后处理支出报告。继续先前的示例,超模型可以与本文其他地方描述的其他机器学习模型相似和/或可以训练超模型以输出分数(例如,基于与支出报告相关联的数据)。
如通过附图标记170示出的,超模型可以在报告分析平台已经使用超模型处理了支出报告之后输出分数。附加地或者备选地,当报告分析平台使用机器学***均分数、分数范围等。例如,报告分析平台可以对处理支出报告执行多次迭代,并且可以基于与多次迭代相关联的分数来生成分数。
如通过附图标记175示出的,报告分析平台可以基于分数来执行动作。例如,报告分析平台可以在确定针对支出报告的分数之后执行动作。在一些实现中,报告分析平台可以基于分数来触发警报(例如,基于分数是否满足阈值)。附加地或者备选地,当分数满足阈值(例如,包括标识支出报告、分数等的信息的阈值)时,报告分析平台可以向客户端设备、用户设备和/或服务器设备发送消息。附加地或者备选地,报告分析平台可以生成标识处理一批支出报告的结果的报告(例如,包括标识针对每个报告的分数、分数是否满足阈值、分数随时间推移的趋势等的信息的报告),并且可以将报告存储在服务器设备中和/或可以经由客户端设备和/或用户设备来输出报告。附加地或者备选地,报告分析平台可以基于分数来将支出报告存储在服务器设备中(例如,基于分数是否满足阈值),并且可以用标识支出报告的信息、至支出报告的存储位置的链路(例如,文件路径、统一资源定位符(URL)、可点击图标等)等来填充用户界面。
附加地或者备选地,报告分析平台可以更新本文所描述模型中的一个或者多个模型。附加地或者备选地,报告分析平台可以触发对支出报告的自动调查(例如,可以触发对支出报告的更严密的分析,诸如,通过请求输入对差异的解释,请求上传分项收据,向供应者的服务器设备请求交易记录等)。附加地或者备选地,报告分析平台可以触发对支出报告的手动调查(例如,通过向与调查员相关联的用户设备发送消息)。附加地或者备选地,报告分析平台可以冻结***、账户等。附加地或者备选地,报告分析平台可以去除、添加或者修改对支出和/或支出报告审批过程的要求,诸如,与需要对支出和/或支出报告进行授权的个体、该授权的定时(例如,在该支出和/或支出报告之前或者之后)、需要预先进行授权的内容等相关的要求。
附加地或者备选地,报告分析平台可以基于分数来对支出报告进行标记。例如,基于分数满足阈值,报告分析平台可以将支出报告标记为可能包括错误和/或要进行进一步检查。附加地或者备选地,当分数满足阈值时,报告分析平台可以对与支出报告相关联的属性进行标记。例如,当分数满足阈值时,报告分析平台可以对与支出报告相关联的个体、位置、供应者等进行标记。在一些实现中,并且继续先前的示例,报告分析平台可以处理与标记的属性相关联的旧支出报告,可以处理与标记的属性相关联的任何新的支出报告等。
按照这种方式,报告分析平台能够快速并且有效地处理组织实时或者接近实时所生成的数千、数百万或者更多个支出报告。这减少了处理与组织相关联的支出报告所需的时间量,从而提高了处理支出报告的效率。另外,这增加了组织处理支出报告的能力的吞吐量,从而减少了或者消除了错过的包括问题的报告的风险。进一步地,这提供了可以被用来处理支出报告的客观并且可验证的工具,从而向组织提供了处理支出报告和/或减少或者消除与对支出报告的主观分析相关联的浪费的新方法。
如上面指示的,图1A至图1G仅仅作为示例而被提供。其他示例是可能的,并且可以与关于图1至图1G描述的内容不同。虽然在处理支出报告的上下文中描述了实现100,但是这些实现同样适用于其他类型的报告,诸如,时间条目报告、质量控制报告、收入报告等。
图2是可以实现本文描述的***和/或方法的示例环境200的示意图。如在图2中示出的,环境200可以包括客户端设备210、服务器设备220、被托管在包括一组计算资源234的云计算环境232中的报告分析平台230和网络240。环境200中的设备可以经由有线连接、无线连接或者有线连接和无线连接的组合相互连接。
客户端设备210包括能够接收、生成、存储、处理和/或提供与报告相关联的信息的一个或者多个设备。例如,客户端设备210可以包括移动电话(例如,智能电话、无线电话等)、膝上型计算机、平板计算机、手持式计算机、游戏设备、可穿戴通信设备(例如,智能手表、一副智能眼镜等)、台式计算机或者相似类型的设备。在一些实现中,如本文其他地方描述的,客户端设备210可以向报告分析平台230提供待由报告分析平台230处理的报告。在一些实现中,如本文其他地方描述的,用户设备可以与客户端设备210相同或者相似。
服务器设备220包括能够接收、生成、存储、处理和/或提供与报告相关联的信息的一个或者多个设备。例如,服务器设备220可以包括服务器(例如,在数据中心或者云计算环境中)、数据中心(例如,多服务器微数据中心)、工作站计算机、被设置在云计算环境中的虚拟机(VM)或者相似类型的设备。在一些实现中,服务器设备220可以包括允许服务器设备220从环境200中的其他设备接收信息和/或向环境200中的其他设备传输信息的通信接口。在一些实现中,服务器设备220可以是被实现在外壳(诸如,机箱)内的物理设备。在一些实现中,服务器设备220可以是由云计算环境或者数据中心中的一个或者多个计算机设备实现的虚拟设备。在一些实现中,如本文其他地方描述的,服务器设备220可以向报告分析平台230提供待由报告分析平台230处理的报告。
报告分析平台230包括能够接收、生成、存储、处理和/或提供与报告相关的信息的一个或者多个设备。例如,报告分析平台230可以包括云服务器或者一组云服务器。在一些实现中,报告分析平台230可以被设计为模块化的,使得可以根据特定需要换入或者换出某些软件组件。这样,可以容易地和/或快速地重新配置报告分析平台230用于不同的用途。
在一些实现中,如在图2中示出的,报告分析平台230可以被托管在云计算环境232中。值得注意的是,虽然本文描述的实现将报告分析平台230描述为被托管在云计算环境232中,但是在一些实现中,报告分析平台230可以不是基于云的(即,可以被实现在云计算环境之外)或者可以是部分基于云的。
云计算环境232包括托管报告分析平台230的环境。云计算环境232可以提供计算、软件、数据访问、存储和/或不需要终端用户知道托管报告分析平台230的***和/或设备的物理位置和配置的其他服务。如图所示,云计算环境232可以包括一组计算资源234(被统称为“计算资源234”并且被单独称为“计算资源234”)。
计算资源234包括一个或者多个个人计算机、工作站计算机、服务器设备或者另一类型的计算和/或通信设备。在一些实现中,计算资源234可以托管报告分析平台230。云资源可以包括在计算资源234中执行的计算实例、被设置在计算资源234中的存储设备、由计算资源234提供的数据传递设备等。在一些实现中,计算资源234可以经由有线连接、无线连接或者有线和无线连接的组合来与其他计算资源234通信。
如在图2中进一步示出的,计算资源234可以包括一组云资源,诸如,一个或者多个应用(“APP”)234-1、一个或者多个虚拟机(“VM”)234-2、一个或者多个虚拟化存储装置(“VS”)234-3、一个或者多个管理程序(“HYP”)234-4。
应用234-1包括可以被提供给环境200中的一个或者多个设备或者由环境200中的一个或者多个设备访问的一个或者多个软件应用。应用234-1可以消除在环境200中的设备上安装并且执行软件应用的需要。例如,应用234-1可以包括与报告分析平台230相关联的软件和/或能够经由云计算环境232来提供的任何其他软件。在一些实现中,一个应用234-1可以经由虚拟机234-2来向/从一个或者多个其他应用234-1发送/接收信息。在一些实现中,应用234-1可以包括与一个或者多个数据库和/或操作***相关联的软件应用。例如,应用234-1可以包括企业应用、功能应用、分析应用等。
虚拟机234-2包括像物理机一样执行程序的机器(例如,计算机)的软件实现。虚拟机234-2可以是***虚拟机或者过程虚拟机,这取决于虚拟机234-2对任何真实机器的使用和虚拟机234-2与任何真实机器的对应程度。***虚拟机可以提供支持完整的操作***(“OS”)的执行的完整***平台。过程虚拟机可以执行单个程序,并且可以支持单个过程。在一些实现中,虚拟机234-2可以代表用户(例如,客户端设备210的用户)执行,并且可以管理云计算环境232中的基础设施,诸如,数据管理、同步或者长持续时间的数据传递。
虚拟化存储装置234-3包括一个或者多个存储***和/或在计算资源234的存储***或者设备内使用虚拟化技术的一个或者多个设备。在一些实现中,在存储***的上下文中,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储与物理存储的抽象(或者分离),使得可以访问存储***,而无需考虑物理存储或者异构结构。分离可以允许存储***的管理员在管理员管理针对终端用户的存储的方式方面具有灵活性。文件虚拟化可以消除在文件级下所访问的数据与物理地存储文件的位置之间的依赖性。这可以实现优化存储使用、服务器整合和/或对非破坏性文件迁移的执行。
管理程序234-4提供允许多个操作***(例如,“访客操作***”)在主机计算机(诸如,计算资源234)上同时执行的硬件虚拟化技术。管理程序234-4可以向访客操作***呈现虚拟操作平台,并且可以管理访客操作***的执行。各种操作***的多个实例可以共享虚拟化硬件资源。
网络240包括一个或者多个有线和/或无线网络。例如,网络240可以包括:蜂窝网络(例如,长期演进(LTE)网络、码分多址(CDMA)网络、3G网络、4G网络、5G网络、另一类型的下一代网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网(PSTN))、专用网络、自组织网络、内联网、互联网、基于光纤的网络、云计算网络等和/或这些或者其他类型的网络的组合。
提供在图2中示出的设备和网络的数目及其布置作为示例。实际上,与图2中所示的设备和/或网络相比,可能存在附加设备和/或网络、更少的设备和/或网络、不同的设备和/或网络或者不同地布置的设备和/或网络。此外,在图2中示出的两个或者更多个设备可以被实现在单个设备内,或者在图2中示出的单个设备可以被实现为多个分布式设备。附加地或者备选地,环境200中的一组设备(例如,一个或者多个设备)可以执行被描述为由环境200中的另一组设备执行的一个或者多个功能。
图3是设备300的示例组件的示意图。设备300可以与客户端设备210、服务器设备220、报告分析平台230和/或计算资源234相对应。在一些实现中,客户端设备210、服务器设备220、报告分析平台230和/或计算资源234可以包括一个或者多个设备300和/或设备300的一个或者多个组件。如在图3中示出的,设备300可以包括总线310、处理器320、存储器330、存储组件340、输入组件350、输出组件360和通信接口370。
总线310包括允许设备300的组件中间的通信的组件。处理器320被实现在硬件、固件或者硬件和软件的组合中。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或者另一类型的处理组件。在一些实现中,处理器320包括能够被编程为执行功能的一个或者多个处理器。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)和/或存储信息和/或指令以供处理器320使用的另一类型的动态或者静态存储设备(例如,闪速存储器、磁存储器和/或光学存储器)。
存储组件340存储与操作和使用设备300相关的信息和/或软件。例如,存储组件340可以包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘)、压缩盘(CD)、数字通用光盘(DVD)、软盘、磁带盒、磁带和/或另一类型的非瞬态计算机可读介质以及对应的驱动器。
输入组件350包括允许设备300接收信息(诸如,经由用户输入(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风))的组件。附加地或者备选地,输入组件350可以包括用于感测信息的传感器(例如,全球定位***(GPS)组件、加速度计、陀螺仪和/或致动器)。输出组件360包括提供来自设备300(例如,显示器、扬声器和/或一个或者多个发光二极管(LED))的输出信息的组件。
通信接口370包括如同收发器的组件(例如,收发器和/或分离的接收器和发送器),其使设备300能够与其他设备通信(诸如,经由有线连接、无线连接或者有线连接和无线连接的组合)。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如,通信接口370可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备300可以执行本文描述的一个或者多个过程。设备300可以基于处理器320执行由非瞬态计算机可读介质(诸如,存储器330和/或存储组件340)存储的软件指令,执行这些过程。计算机可读介质在本文中被限定为非瞬态存储器设备。存储器设备包括单个物理存储设备内的存储器空间或者跨多个物理存储设备扩展的存储器空间。
软件指令可以经由通信接口370从另一计算机可读介质或者从另一设备被读取到存储器330和/或存储组件340中。被存储在存储器330和/或存储组件340中的软件指令在被执行时,可以使处理器320执行本文描述的一个或者多个过程。附加地或者备选地,代替用以执行本文描述的一个或者多个过程的软件指令或者结合这些软件指令,可以使用硬连线电路装置。因此,本文描述的实现不限于硬件电路装置和软件的任何特定组合。
提供在图3中示出的组件的数目及其布置作为示例。实际上,与在图3中示出的那些组件相比,设备300可以包括附加组件、更少的组件、不同组件或者不同地布置的组件。附加地或者备选地,设备300的组件集合(例如,一个或者多个组件)可以执行被描述为由设备300的另一组件集合执行的一个或者多个功能。
图4是用于检测与报告相关的问题的示例过程400的流程图。在一些实现中,图4所示一个或者多个过程框可以由报告分析平台(例如,报告分析平台230)执行。在一些实现中,图4的一个或者多个过程框可以由与报告分析平台分离或者包括报告分析平台的另一设备或者一组设备执行,诸如,客户端设备(例如,客户端设备210)、服务器设备(例如,服务器设备220)和计算资源(例如,计算资源234)。
如在图4中示出的,过程400可以包括:接收与以下内容相关的数据:与组织相关联的历史报告、这些历史报告的历史审计和与历史报告相关联的个体(框410)。例如,报告分析平台(例如,使用计算资源234、处理器320、输入组件350、通信接口370等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式来接收与以下内容相关的数据:与组织相关联的历史报告、这些历史报告的历史审计和与历史报告相关联的个体。
如在图4中进一步示出的,过程400可以包括:在接收到数据之后确定针对数据的多实体简档,其中多实体简档包括数据的根据数据中所包括的属性集合的分组集合(框420)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,在接收到数据之后确定针对数据的多实体简档。在一些实现中,多实体简档包括数据的根据数据中所包括的属性集合的分组集合。
如在图4中进一步示出的,过程400可以包括:使用多实体简档,基于历史审计来确定针对历史报告的监督模型特征集合,其中监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联(框430)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,使用多实体简档确定针对历史报告的监督模型特征集合。在一些实现中,监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联。
如在图4中进一步示出的,过程400可以包括:使用多实体简档来独立于历史审计确定针对历史报告的无监督模型特征集合,其中无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联(框440)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,使用多实体简档独立于历史审计确定针对历史报告的无监督模型特征集合。在一些实现中,无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联。
如在图4中进一步示出的,过程400可以包括:在模型使用监督模型特征集合和无监督模型特征集合而被训练之后,利用模型来确定针对报告的分数,其中分数指示与报告相关的问题的可能性(框450)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,在模型使用监督模型特征集合和无监督模型特征集合而被训练之后,利用模型来确定针对报告的分数。在一些实现中,分数指示与报告相关的问题的可能性。
如在图4中进一步示出的,过程400可以包括:基于分数来执行一个或者多个动作(框460)。例如,报告分析平台(例如,使用计算资源234、处理器320、输出组件360、通信接口370等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,基于分数执行一个或者多个动作。
过程400可以包括附加的实现,诸如,任何单种实现或者下面描述的实现和/或结合本文其他地方描述的一个或者多个其他过程的实现的任何组合。
在一些实现中,报告分析平台可以基于以下中的至少一个来确定监督模型特征集合:历史报告中所包括的并且在历史审计中所标识的不适用报告的模式、对历史报告和历史审计的线性判别分析或者对历史报告和历史审计的文本分析。在一些实现中,报告分析平台可以基于以下中的至少一个来确定无监督模型特征集合:对个体的个体内分析、对个体的个体间分析或者对历史报告的内核密度估计(KDE)异常检测分析。
在一些实现中,报告分析平台可以基于以下中的至少一个来确定多实体简档:个体、与历史报告相关联的供应者或者与个体、供应者或者组织相关联的位置。在一些实现中,监督模型特征集合标识历史报告中所包括的适用历史报告和非适用历史报告的特征,其中非适用历史报告包括问题,而适用历史报告不包括问题。在一些实现中,无监督模型特征集合标识指示与历史报告相关的数据的模式的历史报告的特征。在一些实现中,报告分析平台可以基于分数将报告标记为包括问题或者不包括问题,并且可以在数据结构中存储标识报告的信息和标识报告是包括问题还是不包括问题的标识符。
虽然图4示出了过程400的示例框,但是在一些实现中,与在图4中描绘的那些框相比,过程400可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地或者备选地,可以并行执行过程400的框中的两个或者更多个框。
图5是用于检测与报告相关的问题的示例过程500的流程图。在一些实现中,图5所示一个或者多个过程框可以由报告分析平台(例如,报告分析平台230)执行。在一些实现中,图5所示一个或者多个过程框可以由与报告分析平台分离或者包括报告分析平台的另一设备或者一组设备执行,诸如,客户端设备(例如,客户端设备210)、服务器设备(例如,服务器设备220)和计算资源(例如,计算资源234)。
如在图5中示出的,过程500可以包括:接收与训练模型相关的数据以标识报告中所包括的问题(框510)。例如,报告分析平台(例如,使用计算资源234、处理器320、输出组件350、通信接口370等的报告分析平台230)可以按照与本文其他地方描述的方式相同或相似的方式,接收与训练模型相关的数据以标识报告中所包括的问题。
如在图5中进一步示出的,过程500可以包括:在接收到数据之后确定针对数据的多实体简档,其中多实体简档包括数据的根据数据中所包括的属性集合的分组集合(框520)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,在接收到数据之后确定针对数据的多实体简档。在一些实现中,多实体简档包括数据的根据数据中所包括的属性集合的分组集合。
如在图5中进一步示出的,过程500可以包括:使用多实体简档,基于历史审计来确定针对历史报告的监督模型特征集合,其中监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联(框530)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,使用多实体简档确定针对历史报告的监督模型特征集合。在一些实现中,监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联。
如在图5中进一步示出的,过程500可以包括:使用多实体简档独立于历史审计确定针对历史报告的无监督模型特征集合,其中无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联(框540)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,使用多实体简档独立于历史审计确定针对历史报告的无监督模型特征集合。在一些实现中,无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联。
如在图5中进一步示出的,过程500可以包括:在模型使用监督模型特征集合和无监督模型特征集合而被训练之后,利用模型来处理报告以标识指示报告中是否包括问题的分数(框550)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,在模型使用监督模型特征集合和无监督模型特征集合而被训练之后,利用模型来处理报告以标识指示报告中是否包括问题的分数。
如在图5中进一步示出的,过程500可以包括:基于分数将报告标记为包括问题或者不包括问题(框560)。例如,报告分析平台(例如,使用计算资源234、处理器320、输出组件360、通信接口370等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,基于分数将报告标记为包括问题或者不包括问题。
过程500可以包括附加的实现,诸如,任何单种实现或者下面描述的实现和/或结合本文其他地方描述的一个或者多个其他过程的实现的任何组合。
在一些实现中,报告分析平台可以利用监督模型特征集合和无监督模型特征集合来训练模型,以标识报告中包括问题的可能性。在一些实现中,报告分析平台可以在训练模型之后处理报告,以标识报告中所包括的问题。
在一些实现中,报告分析平台可以在训练模型之后,利用模型来确定针对报告的分数,其中分数指示报告中包括问题的可能性,并且可以在确定分数之后将报告标记为包括问题,其中分数满足阈值,或者在确定分数之后将报告标记为不包括问题,其中分数不满足阈值。在一些实现中,报告分析平台可以基于以下中的至少一个来确定监督模型特征集合:历史报告中所包括的并且在历史审计中所标识的不适用报告的模式、对历史报告和历史审计的线性判别分析或者对历史报告和历史审计的文本分析,并且可以基于以下中的至少一个来确定无监督模型特征集合:对个体的个体内分析、对个体的个体间分析或者对历史报告的内核密度估计(KDE)异常检测分析。
在一些实现中,报告分析平台可以在将报告标记为包括问题之后触发警报。在一些实现中,报告分析平台可以在处理报告之后存储与处理报告相关的日志,其中日志标识报告包括问题或者不包括问题。
虽然图5示出了过程500的示例框,但是在一些实现中,与在图5中描绘的那些框相比,过程500可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地或者备选地,可以并行执行过程500的框中的两个或者更多个框。
图6是用于检测与报告相关的问题的示例过程600的流程图。在一些实现中,图6所示一个或者多个过程框可以由报告分析平台(例如,报告分析平台230)执行。在一些实现中,图6所示一个或者多个过程框可以由与报告分析平台分离或者包括报告分析平台的另一设备或者一组设备执行,诸如,客户端设备(例如,客户端设备210)、服务器设备(例如,服务器设备220)和计算资源(例如,计算资源234)。
如在图6中示出的,过程600可以包括:接收将被用来训练模型的数据以标识报告中所包括的问题,其中,数据与以下内容相关:与组织相关联的历史报告、这些历史报告的历史审计和与历史报告相关联的个体(框610)。例如,报告分析平台(例如,使用计算资源234、处理器320、输出组件350、通信接口370等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,接收将被用来训练模型的数据以标识报告中所包括的问题。在一些实现中,数据与以下内容相关:与组织相关联的历史报告、这些历史报告的历史审计和与历史报告相关联的个体。
如在图6中进一步示出的,过程600可以包括:在接收到数据之后确定针对数据的多实体简档,其中,多实体简档包括数据的根据数据中所包括的属性集合的分组集合(框620)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,在接收到数据之后确定针对数据的多实体简档。在一些实现中,多实体简档包括数据的根据数据中所包括的属性集合的分组集合。
如在图6中进一步示出的,过程600可以包括:使用多实体简档,基于历史审计来确定针对历史报告的监督模型特征集合,其中,监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联(框630)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,使用多实体简档确定针对历史报告的监督模型特征集合。在一些实现中,监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联。
如在图6中进一步示出的,过程600可以包括:使用多实体简档独立于历史审计确定针对历史报告的无监督模型特征集合,其中,无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联(框640)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,使用多实体简档独立于历史审计确定针对历史报告的无监督模型特征集合。在一些实现中,无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联。
如在图6中进一步示出的,过程600可以包括:在确定监督模型特征集合和无监督模型特征集合之后,基于监督模型特征集合和无监督模型特征集合来训练模型(框650)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,在确定监督模型特征集合和无监督模型特征集合之后,基于监督模型特征集合和无监督模型特征集合来训练模型。
如在图6中进一步示出的,过程600可以包括:在训练模型之后,利用模型来确定针对报告的分数,其中分数指示与报告相关的问题的可能性(框660)。例如,报告分析平台(例如,使用计算资源234、处理器320等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,在训练模型之后,利用模型来确定针对报告的分数。在一些实现中,分数指示与报告相关的问题的可能性。
如在图6中进一步示出的,过程600可以包括:基于分数来执行一个或者多个动作(框670)。例如,报告分析平台(例如,使用计算资源234、处理器320、输出组件360、通信接口370等的报告分析平台230)可以按照与本文其他地方描述的方式相同或者相似的方式,基于分数执行一个或者多个动作。
过程600可以包括附加的实现,诸如,任何单种实现或者下面描述的实现和/或结合本文其他地方描述的一个或者多个其他过程的实现的任何组合。
在一些实现中,报告分析平台可以在确定监督模型特征集合和无监督模型特征集合之后,将监督模型特征集合和无监督模型特征集合组合成超模型,并且可以在将监督模型特征集合和无监督模型特征集合组合成超模型之后,利用超模型来训练模型。在一些实现中,报告分析平台可以在确定监督模型特征集合和无监督模型特征集合之后,将监督模型特征集合和无监督模型特征集合组合成梯度提升树,其中梯度提升树是超模型,并且可以在将监督模型特征集合和无监督模型特征集合组合成梯度提升树之后,基于梯度提升树来训练模型。
在一些实现中,报告分析平台可以在确定分数之后向客户端设备发送消息,其中消息包括标识报告、分数或者报告是否包括问题的信息。在一些实现中,报告分析平台可以在确定分数之后,基于分数满足阈值而确定报告包括问题,可以在确定报告包括问题之后标识报告中所包括的问题的类型,并且可以在标识问题的类型之后,基于问题的类型来执行一个或者多个动作。在一些实现中,报告分析平台可以在标识问题的类型之后,用标识报告的信息来填充用户界面,提供该用户界面以便经由与设备相关联的显示器进行显示,其中,用户界面与问题的类型相关联,并且与显示与包括问题的类型的报告集合相关的信息相关联。
虽然图6示出了过程600的示例框,但是在一些实现中,与在图6中描绘的那些框相比,过程600可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地或者备选地,可以并行执行过程600的框中的两个或者更多个框。
按照这种方式,报告分析平台230提供了可以按照技术方式和/或客观方式来处理报告以确定报告是否包括问题的工具。这提高了处理报告的准确度和/或消除了由于手动检查报告的主观性而造成的浪费。另外,报告分析平台230提供了可以被用来在组织所生成的报告的数量增加时处理报告的工具,从而提供了组织可以使用的可扩展工具。进一步地,这减少了或者消除了对报告进行手动检查的需要,从而提高了在检查报告时的灵活性(例如,可以一天24小时检查报告)。进一步地,这增加了检查报告的一致性(例如,这可以降低与对报告检查的质量控制相关联的成本)。
根据一些实施例,此处所描述的方法、设备和非瞬态计算机可读介质可以涉及以下方面:
1.一种方法,包括:由设备接收与以下内容相关的数据:与组织相关联的历史报告,历史报告的历史审计,以及与历史报告相关联的个体;在接收到数据之后,由设备确定针对数据的多实体简档,其中多实体简档包括数据的根据数据中所包括的属性集合的分组集合;由设备使用多实体简档,基于历史审计确定针对历史报告的监督模型特征集合,其中监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联;由设备使用多实体简档,独立于历史审计确定针对历史报告的无监督模型特征集合,其中无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联;在模型使用监督模型特征集合和无监督模型特征集合而被训练之后,由设备利用模型来确定针对报告的分数,其中分数指示与报告相关的问题的可能性;以及由设备基于分数执行一个或者多个动作。
根据方面1的方法,其中确定监督模型特征集合包括:基于以下中的至少一项来确定监督模型特征集合:历史报告中所包括的并且在历史审计中所标识的不适用报告的模式,对历史报告和历史审计的线性判别分析,或者对历史报告和历史审计的文本分析。
3.根据方面1的方法,其中确定无监督模型特征集合包括:基于以下中的至少一项来确定无监督模型特征集合:对个体的个体内分析,对个体的个体间分析,或者对历史报告的内核密度估计(KDE)异常检测分析。
4.根据方面1的方法,其中确定多实体简档包括:基于以下中的至少一项确定多实体简档:个体,与历史报告相关联的供应者,或者与个体、供应者或者组织相关联的位置。
5.根据方面1的方法,其中监督模型特征集合标识历史报告中所包括的适用历史报告和非适用历史报告的特征,其中非适用历史报告包括问题,而适用历史报告不包括问题。
6.根据方面1的方法,其中无监督模型特征集合标识指示与历史报告相关的数据的模式的历史报告的特征。
7.根据方面1的方法,其中执行一个或者多个动作包括:基于分数将报告标记为包括问题或者不包括问题;以及在数据结构中存储标识报告的信息和标识报告包括问题或者不包括问题的标识符。
8.一种设备,包括:一个或者多个存储器;以及一个或者多个处理器,被通信地耦合至一个或者多个存储器,一个或者多个处理器用以:接收与训练模型相关的数据,以标识报告中所包括的问题;在接收到数据之后,确定针对数据的多实体简档,其中多实体简档包括数据的根据数据中所包括的属性集合的分组集合;使用多实体简档,基于历史审计来确定针对历史报告的监督模型特征集合,其中监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联;使用多实体简档独立于历史审计确定针对历史报告的无监督模型特征集合,其中无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联;在模型使用监督模型特征集合和无监督模型特征集合而被训练之后,利用模型来处理报告,以标识指示问题是否被包括在报告中的分数;以及基于分数来将报告标记为包括问题或者不包括问题。
9.根据方面8的设备,其中一个或者多个处理器还用以:利用监督模型特征集合和无监督模型特征集合来训练模型,以标识问题被包括在报告中的可能性。
10.根据方面9的设备,其中一个或者多个处理器在处理报告时用以:在训练模型之后处理报告,以标识报告中所包括的问题。
11.根据方面10的设备,其中一个或者多个处理器在处理报告时用以:在训练模型之后,利用模型来确定针对报告的分数,其中分数指示问题被包括在报告中的可能性;并且其中一个或者多个处理器在对问题进行标记时用以:在确定分数之后将报告标记为包括问题,其中分数满足阈值,或者在确定分数之后将报告标记为不包括问题,其中分数不满足阈值。
12.根据方面8的设备,其中一个或者多个处理器在确定监督模型特征集合时用以:基于以下中的至少一项确定监督模型特征集合:历史报告中所包括的并且在历史审计中所标识的不适用报告的模式,对历史报告和历史审计的线性判别分析,或者对历史报告和历史审计的文本分析;以及其中一个或者多个处理器在确定无监督模型特征集合时用以:基于以下中的至少一项确定无监督模型特征集合:对个体的个体内分析,对个体的个体间分析,或者对历史报告的内核密度估计(KDE)异常检测分析。
13.根据方面8的设备,其中一个或者多个处理器还用以:在将报告标记为包括问题之后触发警报。
14.根据方面8的设备,其中一个或者多个处理器还用以:在处理报告之后存储与处理报告相关的日志,其中日志标识报告包括问题或者不包括问题。
15.一种存储指令的非瞬态计算机可读介质,指令包括:一个或者多个指令,一个或者多个指令在由一个或者多个处理器执行时使一个或者多个处理器:接收将被用来训练模型的数据以标识报告中所包括的问题,其中数据与以下内容相关:与组织相关联的历史报告,历史报告的历史审计,以及与历史报告相关联的个体;在接收到数据之后,确定针对数据的多实体简档,其中多实体简档包括数据的根据数据中所包括的属性集合的分组集合;使用多实体简档,基于历史审计确定针对历史报告的监督模型特征集合,其中监督模型特征集合与在历史审计的上下文中训练模型以处理报告相关联;使用多实体简档独立于历史审计确定针对历史报告的无监督模型特征集合,其中无监督模型特征集合与独立于历史审计的上下文训练模型以处理报告相关联;在确定监督模型特征集合和无监督模型特征集合之后,基于监督模型特征集合和无监督模型特征集合训练模型;在训练模型之后,利用模型来确定针对报告的分数,其中分数指示与报告相关的问题的可能性;以及基于分数执行一个或者多个动作。
16.根据方面15的非瞬态计算机可读介质,其中一个或者多个指令在由一个或者多个处理器执行时还使一个或者多个处理器:在确定监督模型特征集合和无监督模型特征集合之后,将监督模型特征集合和无监督模型特征集合组合成超模型;并且其中使一个或者多个处理器训练模型的一个或者多个指令使一个或者多个处理器:在将监督模型特征集合和无监督模型特征集合组合成超模型之后,利用超模型来训练模型。
17.根据方面16的非瞬态计算机可读介质,其中使一个或者多个处理器将监督模型特征集合和无监督模型特征集合组合成超模型的一个或者多个指令使一个或者多个处理器:在确定监督模型特征集合和无监督模型特征集合之后,将监督模型特征集合和无监督模型特征集合组合成梯度提升树,其中梯度提升树是超模型;以及其中使一个或者多个处理器训练模型的一个或者多个指令使一个或者多个处理器:在将监督模型特征集合和无监督模型特征集合组合成梯度提升树之后,基于梯度提升树来训练模型。
18.根据方面15的非瞬态计算机可读介质,其中使一个或者多个处理器执行一个或者多个动作的一个或者多个指令使一个或者多个处理器:在确定分数之后,向客户端设备发送消息,其中消息包括标识报告、分数或者报告是否包括问题的信息。
19.根据方面15的非瞬态计算机可读介质,其中一个或者多个指令在由一个或者多个处理器执行时还使一个或者多个处理器:在确定分数之后,基于分数满足阈值而确定报告包括问题;在确定报告包括问题之后,标识报告中所包括的问题的类型;并且其中使一个或者多个处理器执行一个或者多个动作的一个或者多个指令使一个或者多个处理器:在标识问题的类型之后,基于问题的类型来执行一个或者多个动作。
20.根据方面19的非瞬态计算机可读介质,其中使一个或者多个处理器执行一个或者多个动作的一个或者多个指令使一个或者多个处理器:在标识问题的类型之后,用标识报告的信息来填充用户界面,用户界面被提供以用于经由与设备相关联的显示器进行显示,其中用户界面与问题的类型相关联,并且与显示与包括问题的类型的报告集合相关的信息相关联。
前述公开内容提供了说明和描述,但是不旨在是详尽的或者将实现限于所公开的精确形式。鉴于上面的公开内容,修改和变型是可能的,或者可以从实现的实践来获得。
如本文使用的,术语“组件”旨在被广泛地解释为硬件、固件和/或硬件和软件的组合。
本文结合阈值描述了一些实现。如本文使用的,满足阈值可以指值大于阈值、多于阈值、高于阈值、大于或者等于阈值、小于阈值、少于阈值、低于阈值、小于或者等于阈值、等于阈值等。
将明显的是,本文描述的***和/或方法可以按照不同形式的硬件、固件或者硬件和软件的组合被实现。被用来实现这些***和/或方法的实际专用控制硬件或者软件代码不是对实现的限制。因此,本文描述了***和/或方法的操作和行为,但是未参照特定软件代码—应该理解,软件和硬件可以被设计为基于本文的描述来实现***和/或方法。
虽然在权利要求书中叙述了和/或在本说明书中公开了特征的特定组合,但是这些组合不旨在限制对可能实现的公开。实际上,这些特征中的许多特征可以按照未在权利要求书中具体叙述和/或在本说明书中公开的方式被组合。虽然下面列出的每项从属权利要求可以仅直接依赖于一项权利要求,但是可能实现的公开内容包括每项从属权利要求与权利要求集合中的每项其他权利要求的组合。
本文使用的元件、动作或者指令都不应该被解释为是关键的或者必要的,除非明确地如此描述。而且,如本文使用的,冠词“一”和“一个”旨在包括一个或者多个项,并且可以与“一个或者多个”互换使用。此外,如本文使用的,术语“集合”旨在包括一个或者多个项(例如,相关项、不相关项、相关项和不相关项的组合等),并且可以与“一个或者多个”互换使用。在预期仅一个项的情况下,使用术语“一个”或者相似的语言。而且,如本文使用的,术语“具有(has)”、“具有(have)”、“具有(having)”等旨在是开放式术语。进一步地,短语“基于”旨在表示“至少部分地基于”,除非另有明确说明。

Claims (20)

1.一种方法,包括:
由设备接收与以下内容相关的数据:
与组织相关联的历史报告,
所述历史报告的历史审计,以及
与所述历史报告相关联的个体;
在接收到所述数据之后,由所述设备确定针对所述数据的多实体简档,
其中所述多实体简档包括所述数据的根据所述数据中所包括的属性集合的分组集合;
由所述设备使用所述多实体简档,基于所述历史审计确定针对所述历史报告的监督模型特征集合,
其中所述监督模型特征集合与在所述历史审计的上下文中训练模型以处理报告相关联;
由所述设备使用所述多实体简档,独立于所述历史审计确定针对所述历史报告的无监督模型特征集合,
其中所述无监督模型特征集合与独立于所述历史审计的所述上下文训练所述模型以处理所述报告相关联;
在所述模型使用所述监督模型特征集合和所述无监督模型特征集合而被训练之后,由所述设备利用所述模型来确定针对所述报告的分数,
其中所述分数指示与所述报告相关的问题的可能性;以及
由所述设备基于所述分数执行一个或者多个动作。
2.根据权利要求1所述的方法,其中确定所述监督模型特征集合包括:
基于以下中的至少一项来确定所述监督模型特征集合:
所述历史报告中所包括的并且在所述历史审计中所标识的不适用报告的模式,
对所述历史报告和所述历史审计的线性判别分析,或者
对所述历史报告和所述历史审计的文本分析。
3.根据权利要求1所述的方法,其中确定所述无监督模型特征集合包括:
基于以下中的至少一项来确定所述无监督模型特征集合:
对所述个体的个体内分析,
对所述个体的个体间分析,或者
对所述历史报告的内核密度估计(KDE)异常检测分析。
4.根据权利要求1所述的方法,其中确定所述多实体简档包括:
基于以下中的至少一项确定所述多实体简档:
所述个体,
与所述历史报告相关联的供应者,或者
与所述个体、所述供应者或者所述组织相关联的位置。
5.根据权利要求1所述的方法,其中所述监督模型特征集合标识所述历史报告中所包括的适用历史报告和非适用历史报告的特征,
其中所述非适用历史报告包括所述问题,而所述适用历史报告不包括所述问题。
6.根据权利要求1所述的方法,其中所述无监督模型特征集合标识指示与所述历史报告相关的所述数据的模式的所述历史报告的特征。
7.根据权利要求1所述的方法,其中执行所述一个或者多个动作包括:
基于所述分数将所述报告标记为包括所述问题或者不包括所述问题;以及
在数据结构中存储标识所述报告的信息和标识所述报告包括所述问题或者不包括所述问题的标识符。
8.一种设备,包括:
一个或者多个存储器;以及
一个或者多个处理器,被通信地耦合至所述一个或者多个存储器,所述一个或者多个处理器用以:
接收与训练模型相关的数据,以标识报告中所包括的问题;
在接收到所述数据之后,确定针对所述数据的多实体简档,
其中所述多实体简档包括所述数据的根据所述数据中所包括的属性集合的分组集合;
使用所述多实体简档,基于历史审计来确定针对历史报告的监督模型特征集合,
其中所述监督模型特征集合与在所述历史审计的上下文中训练所述模型以处理所述报告相关联;
使用所述多实体简档独立于所述历史审计确定针对所述历史报告的无监督模型特征集合,
其中所述无监督模型特征集合与独立于所述历史审计的所述上下文训练所述模型以处理所述报告相关联;
在所述模型使用所述监督模型特征集合和所述无监督模型特征集合而被训练之后,利用所述模型来处理所述报告,以标识指示所述问题是否被包括在所述报告中的分数;以及
基于所述分数来将所述报告标记为包括所述问题或者不包括所述问题。
9.根据权利要求8所述的设备,其中所述一个或者多个处理器还用以:
利用所述监督模型特征集合和所述无监督模型特征集合来训练所述模型,以标识所述问题被包括在所述报告中的可能性。
10.根据权利要求9所述的设备,其中所述一个或者多个处理器在处理所述报告时用以:
在训练所述模型之后处理所述报告,以标识所述报告中所包括的所述问题。
11.根据权利要求10所述的设备,其中所述一个或者多个处理器在处理所述报告时用以:
在训练所述模型之后,利用所述模型来确定针对所述报告的所述分数,
其中所述分数指示所述问题被包括在所述报告中的所述可能性;并且
其中所述一个或者多个处理器在对所述问题进行标记时用以:
在确定所述分数之后将所述报告标记为包括所述问题,
其中所述分数满足阈值,或者
在确定所述分数之后将所述报告标记为不包括所述问题,
其中所述分数不满足所述阈值。
12.根据权利要求8所述的设备,其中所述一个或者多个处理器在确定所述监督模型特征集合时用以:
基于以下中的至少一项确定所述监督模型特征集合:
所述历史报告中所包括的并且在所述历史审计中所标识的不适用报告的模式,
对所述历史报告和所述历史审计的线性判别分析,或者
对所述历史报告和所述历史审计的文本分析;以及
其中所述一个或者多个处理器在确定所述无监督模型特征集合时用以:
基于以下中的至少一项确定所述无监督模型特征集合:
对个体的个体内分析,
对所述个体的个体间分析,或者
对所述历史报告的内核密度估计(KDE)异常检测分析。
13.根据权利要求8所述的设备,其中所述一个或者多个处理器还用以:
在将所述报告标记为包括所述问题之后触发警报。
14.根据权利要求8所述的设备,其中所述一个或者多个处理器还用以:
在处理所述报告之后存储与处理所述报告相关的日志,
其中所述日志标识所述报告包括所述问题或者不包括所述问题。
15.一种存储指令的非瞬态计算机可读介质,所述指令包括:
一个或者多个指令,所述一个或者多个指令在由一个或者多个处理器执行时使所述一个或者多个处理器:
接收将被用来训练模型的数据以标识报告中所包括的问题,
其中所述数据与以下内容相关:
与组织相关联的历史报告,
所述历史报告的历史审计,以及
与所述历史报告相关联的个体;
在接收到所述数据之后,确定针对所述数据的多实体简档,
其中所述多实体简档包括所述数据的根据所述数据中所包括的属性集合的分组集合;
使用所述多实体简档,基于所述历史审计确定针对所述历史报告的监督模型特征集合,
其中所述监督模型特征集合与在所述历史审计的上下文中训练所述模型以处理所述报告相关联;
使用所述多实体简档独立于所述历史审计确定针对所述历史报告的无监督模型特征集合,
其中所述无监督模型特征集合与独立于所述历史审计的所述上下文训练所述模型以处理所述报告相关联;
在确定所述监督模型特征集合和所述无监督模型特征集合之后,基于所述监督模型特征集合和无监督模型特征集合训练所述模型;
在训练所述模型之后,利用所述模型来确定针对所述报告的分数,
其中所述分数指示与所述报告相关的所述问题的可能性;以及
基于所述分数执行一个或者多个动作。
16.根据权利要求15所述的非瞬态计算机可读介质,其中所述一个或者多个指令在由所述一个或者多个处理器执行时还使所述一个或者多个处理器:
在确定所述监督模型特征集合和所述无监督模型特征集合之后,将所述监督模型特征集合和所述无监督模型特征集合组合成超模型;并且
其中使所述一个或者多个处理器训练所述模型的所述一个或者多个指令使所述一个或者多个处理器:
在将所述监督模型特征集合和所述无监督模型特征集合组合成所述超模型之后,利用所述超模型来训练所述模型。
17.根据权利要求16所述的非瞬态计算机可读介质,其中使所述一个或者多个处理器将所述监督模型特征集合和所述无监督模型特征集合组合成所述超模型的所述一个或者多个指令使所述一个或者多个处理器:
在确定所述监督模型特征集合和所述无监督模型特征集合之后,将所述监督模型特征集合和所述无监督模型特征集合组合成梯度提升树,
其中所述梯度提升树是所述超模型;以及
其中使所述一个或者多个处理器训练所述模型的所述一个或者多个指令使所述一个或者多个处理器:
在将所述监督模型特征集合和所述无监督模型特征集合组合成所述梯度提升树之后,基于所述梯度提升树来训练所述模型。
18.根据权利要求15所述的非瞬态计算机可读介质,其中使所述一个或者多个处理器执行所述一个或者多个动作的所述一个或者多个指令使所述一个或者多个处理器:
在确定所述分数之后,向客户端设备发送消息,
其中所述消息包括标识所述报告、所述分数或者所述报告是否包括所述问题的信息。
19.根据权利要求15所述的非瞬态计算机可读介质,其中所述一个或者多个指令在由所述一个或者多个处理器执行时还使所述一个或者多个处理器:
在确定所述分数之后,基于所述分数满足阈值而确定所述报告包括所述问题;
在确定所述报告包括所述问题之后,标识所述报告中所包括的所述问题的类型;并且
其中使所述一个或者多个处理器执行所述一个或者多个动作的所述一个或者多个指令使所述一个或者多个处理器:
在标识所述问题的所述类型之后,基于所述问题的所述类型来执行所述一个或者多个动作。
20.根据权利要求19所述的非瞬态计算机可读介质,其中使所述一个或者多个处理器执行所述一个或者多个动作的所述一个或者多个指令使所述一个或者多个处理器:
在标识所述问题的所述类型之后,用标识所述报告的信息来填充用户界面,所述用户界面被提供以用于经由与设备相关联的显示器进行显示,
其中所述用户界面与所述问题的所述类型相关联,并且与显示与包括所述问题的所述类型的报告集合相关的信息相关联。
CN201910809385.9A 2018-08-31 2019-08-29 检测与报告相关的问题 Active CN110874715B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/119,606 US11562315B2 (en) 2018-08-31 2018-08-31 Detecting an issue related to a report
US16/119,606 2018-08-31

Publications (2)

Publication Number Publication Date
CN110874715A true CN110874715A (zh) 2020-03-10
CN110874715B CN110874715B (zh) 2023-08-01

Family

ID=69641302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910809385.9A Active CN110874715B (zh) 2018-08-31 2019-08-29 检测与报告相关的问题

Country Status (2)

Country Link
US (1) US11562315B2 (zh)
CN (1) CN110874715B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544327B2 (en) * 2018-11-28 2023-01-03 Kroll Government Solutions, Llc Method and system for streamlined auditing
US11544328B2 (en) * 2018-11-28 2023-01-03 Kroll Government Solutions, Llc Method and system for streamlined auditing
US10853634B2 (en) * 2019-01-04 2020-12-01 Citrix Systems, Inc. Methods and systems for updating a database based on object recognition
US11282078B2 (en) * 2019-07-03 2022-03-22 Sap Se Transaction auditing using token extraction and model matching
US11113689B2 (en) 2019-07-03 2021-09-07 Sap Se Transaction policy audit
US11605137B2 (en) 2019-09-11 2023-03-14 Oracle International Corporation Expense report submission interface
WO2021113593A1 (en) * 2019-12-05 2021-06-10 Wilshinsky Murray B Method and system for self-aggregation of personal data and control thereof
US12026788B2 (en) * 2020-07-08 2024-07-02 Mastercard International Incorporated Intelligent expense report determination system
US20220035795A1 (en) * 2020-08-03 2022-02-03 Adp, Llc Report management system
US20220076139A1 (en) * 2020-09-09 2022-03-10 Jpmorgan Chase Bank, N.A. Multi-model analytics engine for analyzing reports
US12014430B2 (en) * 2022-04-29 2024-06-18 Truist Bank Time-based input and output monitoring and analysis to predict future inputs and outputs
US20230351523A1 (en) * 2022-04-29 2023-11-02 Sap Se Expense-type audit machine learning modeling system

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047697A (zh) * 2008-05-27 2011-05-04 高通股份有限公司 用于基于周期性位置锁定生成用户简档的方法和装置
US20120084235A1 (en) * 2010-09-30 2012-04-05 Massachusetts Institute Of Technology Structured prediction model learning apparatus, method, program, and recording medium
US20130132275A1 (en) * 2011-11-22 2013-05-23 The Western Union Company Risk analysis of money transfer transactions
US20160117778A1 (en) * 2014-10-23 2016-04-28 Insurance Services Office, Inc. Systems and Methods for Computerized Fraud Detection Using Machine Learning and Network Analysis
CN105874767A (zh) * 2013-12-19 2016-08-17 微软技术许可有限责任公司 检测来自在线服务的帐户的异常活动
US20160358268A1 (en) * 2013-03-06 2016-12-08 Kunal Verma Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
US20170251007A1 (en) * 2016-02-29 2017-08-31 Soliton Systems K.K. Automated computer behavioral analysis system and methods
CN107967618A (zh) * 2016-10-20 2018-04-27 微软技术授权有限责任公司 电子内容交换中的在线欺诈检测***
US20180219759A1 (en) * 2017-01-27 2018-08-02 International Business Machines Corporation Monitoring and alerting a user to variants from predicted patterns based on real time device analysis

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184123A1 (en) 2001-05-31 2002-12-05 Sun Microsystems, Inc. Methods and system for performing electronic invoice presentment and payment dispute handling with line item level granularity
US7437327B2 (en) 2002-05-24 2008-10-14 Jp Morgan Chase Bank Method and system for buyer centric dispute resolution in electronic payment system
US8589227B1 (en) 2004-03-26 2013-11-19 Media Management, Incorporated Method and system for reconciling advertising invoices and for providing prompt payment therefor
US8065397B2 (en) 2006-12-26 2011-11-22 Axeda Acquisition Corporation Managing configurations of distributed devices
US9336302B1 (en) * 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9535917B1 (en) 2012-09-28 2017-01-03 Emc Corporation Detection of anomalous utility usage
US9460155B2 (en) 2013-03-06 2016-10-04 Kunal Verma Method and system of continuous contextual user engagement
US20140278165A1 (en) 2013-03-14 2014-09-18 Johnson Controls Technology Company Systems and methods for analyzing energy consumption model data
AU2014210579B2 (en) 2014-07-09 2019-10-10 Baylor College Of Medicine Providing information to a user through somatosensory feedback
US10296843B2 (en) 2014-09-24 2019-05-21 C3 Iot, Inc. Systems and methods for utilizing machine learning to identify non-technical loss
US9668066B1 (en) 2015-04-03 2017-05-30 Cedar Audio Ltd. Blind source separation systems
JP6313730B2 (ja) 2015-04-10 2018-04-18 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 異常検出システムおよび方法
US9865156B2 (en) 2015-09-23 2018-01-09 Schneider Electric Systems Usa, Inc. System for contextualizing and resolving alerts
GB201613225D0 (en) 2016-08-01 2016-09-14 Univ Liverpool John Moores Analysing energy usage
US20180040064A1 (en) 2016-08-04 2018-02-08 Xero Limited Network-based automated prediction modeling
US10872383B2 (en) 2017-02-14 2020-12-22 Oracle International Corporation Using a model to estimate a payment delinquency for an invoice
WO2018204701A1 (en) * 2017-05-04 2018-11-08 Zestfinance, Inc. Systems and methods for providing machine learning model explainability information
US10740212B2 (en) 2017-06-01 2020-08-11 Nec Corporation Content-level anomaly detector for systems with limited memory
US20180350006A1 (en) * 2017-06-02 2018-12-06 Visa International Service Association System, Method, and Apparatus for Self-Adaptive Scoring to Detect Misuse or Abuse of Commercial Cards
US10733675B2 (en) 2017-11-09 2020-08-04 Wolters Kluwer Elm Solutions, Inc. Accuracy and speed of automatically processing records in an automated environment
US10698868B2 (en) 2017-11-17 2020-06-30 Accenture Global Solutions Limited Identification of domain information for use in machine learning models
US10038611B1 (en) 2018-02-08 2018-07-31 Extrahop Networks, Inc. Personalization of alerts based on network monitoring
US10585979B2 (en) 2018-02-13 2020-03-10 Open Text GXS ULC Rules/model-based data processing system for intelligent event prediction in an electronic data interchange system
US20190369570A1 (en) 2018-05-30 2019-12-05 Mitsubishi Electric Us, Inc. System and method for automatically detecting anomalies in a power-usage data set
US10417059B1 (en) 2018-08-03 2019-09-17 Intuit Inc. Staged application programming interface
US10516999B1 (en) 2018-10-11 2019-12-24 Verizon Patent And Licensing Inc. Systems and methods for self-organizing network provisioning based on signal path image
US10904298B2 (en) 2018-10-19 2021-01-26 Oracle International Corporation Machine-learning processing at native-location storage system to generate collections action plan
US11449712B2 (en) 2018-12-14 2022-09-20 Adobe Inc. Anomaly detection and reporting for machine learning models
US10771562B2 (en) 2018-12-19 2020-09-08 Accenture Global Solutions Limited Analyzing device-related data to generate and/or suppress device-related alerts
US11087245B2 (en) 2019-01-11 2021-08-10 Accenture Global Solutions Limited Predictive issue detection
US20200265119A1 (en) 2019-02-14 2020-08-20 Accenture Global Solutions Limited Site-specific anomaly detection

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047697A (zh) * 2008-05-27 2011-05-04 高通股份有限公司 用于基于周期性位置锁定生成用户简档的方法和装置
US20120084235A1 (en) * 2010-09-30 2012-04-05 Massachusetts Institute Of Technology Structured prediction model learning apparatus, method, program, and recording medium
US20130132275A1 (en) * 2011-11-22 2013-05-23 The Western Union Company Risk analysis of money transfer transactions
US20160358268A1 (en) * 2013-03-06 2016-12-08 Kunal Verma Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
CN105874767A (zh) * 2013-12-19 2016-08-17 微软技术许可有限责任公司 检测来自在线服务的帐户的异常活动
US20160117778A1 (en) * 2014-10-23 2016-04-28 Insurance Services Office, Inc. Systems and Methods for Computerized Fraud Detection Using Machine Learning and Network Analysis
US20170251007A1 (en) * 2016-02-29 2017-08-31 Soliton Systems K.K. Automated computer behavioral analysis system and methods
CN107967618A (zh) * 2016-10-20 2018-04-27 微软技术授权有限责任公司 电子内容交换中的在线欺诈检测***
US20180219759A1 (en) * 2017-01-27 2018-08-02 International Business Machines Corporation Monitoring and alerting a user to variants from predicted patterns based on real time device analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘卫国 等: "一种全部属性聚类和特征属性聚类相结合的无监督异常检测模型", 《铁道学报》, vol. 32, no. 5, pages 59 - 64 *

Also Published As

Publication number Publication date
US20200074359A1 (en) 2020-03-05
US11562315B2 (en) 2023-01-24
CN110874715B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN110874715B (zh) 检测与报告相关的问题
US11087245B2 (en) Predictive issue detection
US10423403B1 (en) Utilizing a machine learning model to predict metrics for an application development process
US10990901B2 (en) Training, validating, and monitoring artificial intelligence and machine learning models
US20200273570A1 (en) Predictive analysis platform
US11151573B2 (en) Intelligent chargeback processing platform
CN111639516B (zh) 基于机器学***台
US20210279164A1 (en) Real Time Application Error Identification and Mitigation
US11531987B2 (en) User profiling based on transaction data associated with a user
US20230105532A1 (en) Updating a machine learning fraud model based on third party transaction information
US20210241273A1 (en) Smart contract platform
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
WO2021154428A1 (en) System and method for improving machine learning models based on confusion error evaluation
US20240078545A1 (en) Automatic transaction execution based on transaction log analysis
US11550707B2 (en) Systems and methods for generating and executing a test case plan for a software product
CN115146865A (zh) 基于人工智能的任务优化方法及相关设备
US20220051270A1 (en) Event analysis based on transaction data associated with a user
US11238486B2 (en) Multi-customer offer
US20220138736A1 (en) Updating automatic payment method to avoid service disruption
US20230169054A1 (en) End-to-end identification of erroneous data using machine learning and similarity analysis
CN113868227A (zh) 一种数据迁移的方法及其装置
CN115130610A (zh) 基于人工智能的分类模型构建方法及相关设备
CN115408400A (zh) 业务数据跑批方法、装置、电子设备及存储介质
CN117764704A (zh) 基于大数据的风险管理方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant