CN113763143A - 审计处理方法、计算机设备及存储装置 - Google Patents

审计处理方法、计算机设备及存储装置 Download PDF

Info

Publication number
CN113763143A
CN113763143A CN202110888051.2A CN202110888051A CN113763143A CN 113763143 A CN113763143 A CN 113763143A CN 202110888051 A CN202110888051 A CN 202110888051A CN 113763143 A CN113763143 A CN 113763143A
Authority
CN
China
Prior art keywords
audited
file
audit
files
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110888051.2A
Other languages
English (en)
Inventor
吴士泓
***
李向
谢峰
徐静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanguang Software Co Ltd
Original Assignee
Yuanguang Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuanguang Software Co Ltd filed Critical Yuanguang Software Co Ltd
Priority to CN202110888051.2A priority Critical patent/CN113763143A/zh
Publication of CN113763143A publication Critical patent/CN113763143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种审计处理方法、计算机设备及存储装置。该方法包括:建立待审计项目的审计文件库,其中,审计文件库用于存储关于待审计项目的待审计文件;从审计文件库中获取至少一个待审计文件,并获取待审计文件的审计关键信息;基于审计关键信息,对待审计文件进行审计处理。上述方案,能够提高审计处理效率。

Description

审计处理方法、计算机设备及存储装置
技术领域
本申请涉及审计处理技术领域,特别是涉及一种审计处理方法、计算机设备及存储装置。
背景技术
各企业在项目招投标过程中,存在各项目和投标企业的大量投标文件,审计部门通常需要对各项目的招投标等工作进行审计监督。
目前,在进行人工审计的过程中,需要人工收集各项目和投标企业的投标文件,并需要大量审计人员对投标文件进行逐个查阅,以手工查找和记录各类审计信息,对全部的投标文件进行审计。该过程审计工作量大,效率低。
发明内容
本申请主要解决的技术问题是提供一种审计处理方法、计算机设备及存储装置,能够提高审计处理效率。
为了解决上述问题,本申请第一方面提供了一种审计处理方法,该方法包括:建立待审计项目的审计文件库,其中,审计文件库用于存储关于待审计项目的待审计文件;从审计文件库中获取至少一个待审计文件,并获取待审计文件的审计关键信息;基于审计关键信息,对待审计文件进行审计处理。
为了解决上述问题,本申请第二方面提供了一种计算机设备,该计算机设备包括相互耦接的存储器和处理器,存储器中存储有程序数据,处理器用于执行程序数据以实现上述审计处理方法中的任一步骤。
为了解决上述问题,本申请第三方面提供了一种存储装置,该存储装置存储有能够被处理器运行的程序数据,程序数据用于实现上述审计处理方法中的任一步骤。
上述方案,本申请中,通过建立待审计项目的审计文件库,审计文件库用于存储关于待审计项目的待审计文件;从审计文件库中获取至少一个待审计文件,并获取待审计文件的审计关键信息;基于审计关键信息,对待审计文件进行审计处理,能够避免审计人员手工对待审计文件进行审计,节省审计工作量,提高审计处理效率。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要的附图作简单的介绍,显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请审计处理方法一实施例的流程示意图;
图2是本申请图1中步骤S12一实施例的流程示意图;
图3是本申请提取文件中信息的方法一实施例的流程示意图;
图4是本申请图3中步骤S23一实施例的流程示意图;
图5是本申请图1中步骤S13一实施例的流程示意图;
图6是本申请文本相似度的计算方法一实施例的流程示意图;
图7是本申请图6中步骤S33一实施例的流程示意图;
图8是本申请文本相似度的计算方法另一实施例的流程示意图;
图9是本申请计算机设备一实施例的结构示意图;
图10是本申请存储装置一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供以下实施例,下面对各实施例进行具体说明。
请参阅图1,图1是本申请审计处理方法一实施例的流程示意图。该方法可以包括以下步骤:
S11:建立待审计项目的审计文件库,其中,审计文件库用于存储关于待审计项目的待审计文件。
审计作为一种监督机制,审计是由国家授权或接受委托的专职机构和人员,依照国家法规、审计准则和会计理论,运用专门的方法,对被审计单位的财政、财务收支、经营管理活动及其相关资料的真实性、正确性、合规性、合法性、效益性进行审查和监督,评价经济责任,鉴证经济业务,用以维护财经法纪、改善经营管理、提高经济效益的一项独立性的经济监督活动。
在对审计项目等进行审计监督的过程中,需要对审计项目中的大量审计文件进行审计。本申请以招投标项目作为待审计项目为例进行说明,本申请不限于此。
在进行审计处理的过程中,可以建立待审计项目的审计文件库,其中,审计文件库可用于存储关于待审计项目的待审计文件。在审计文件库中,可以存储多个待审计项目的招标文件和投标文件,可以将投标文件和/或招标文件作为待审计文件,本申请以投标文件作为待审计文件为例进行说明。
其中,招标文件是招标工程建设的大纲,是建设单位实施工程建设的工作依据,是向投标单位提供参加投标所需要的一切情况。
投标文件是指投标人应招标文件要求编制的响应性文件,一般由商务文件、技术文件、报价文件和其他部分组成。其中,投标文件一般包含了三部分:资信部分、***分、技术部分。资信部分包括公司资质,公司情况介绍等一系列内容,同时也是招标文件要求提供的其他文件等相关内容,包括公司的业绩和各种证件、报告等。技术部分包括工程的描述、设计和施工方案等技术方案,工程量清单、人员配置、图纸、表格等和技术相关的资料。***分包括投标报价说明,投标总价,主要材料价格表和合同条件(通用和专用)等。
建立待审计项目的审计文件库,具体地,可以按照待审计项目、待审计文件的文件格式,将待审计文件分类存储在审计文件库中;其中,文件格式包括:电子文档格式和其他格式中的至少一种,其他格式包括图片、便携式文档格式(Portable Document Format,PDF简称)中的任一种。例如将不同待审计项目的待审计文件分类存储,将同一待审计项目的中不同文件格式的待审计文件分类存储在审计文件库中。另外,可以采用分布式文件***将待审计文件分类存储在审计文件库中。
S12:从审计文件库中获取至少一个待审计文件,并获取待审计文件的审计关键信息。
可以从审计文件库中获取至少一个待审计文件,若对一个目标待审计项目进行审计,则可以从审计文件库中获取该目标待审计项目的多个待审计文件,即获取该目标待审计项目的多个或所有投标文件。从多个待审计文件中获取对该待审计项目进行审计所需的审计关键信息,可以根据具体的审计项目提取对应审计所需的审计关键信息。例如投标企业、投标企业资质、投标报价、投标技术等,本申请不限于此。
S13:基于审计关键信息,对待审计文件进行审计处理。
基于提取的各待审计项目的多个待审计文件的审计关键信息,例如基于各审计关键信息之间的关联关系,可以对各审计关键信息进行分析和挖掘,以对待审计文件进行审计处理。另外,还可以基于各审计关键信息,得到各待审计文件之间的相似度,从而基于各待审计文件之间的相似度,对待审计文件进行审计处理。
本实施例中,通过建立待审计项目的审计文件库,审计文件库用于存储关于待审计项目的待审计文件;从审计文件库中获取至少一个待审计文件,并获取待审计文件的审计关键信息;基于审计关键信息,对待审计文件进行审计处理,能够避免审计人员手工对待审计文件进行审计,节省审计工作量,提高审计处理效率。
在一些实施例中,请参阅图2,上述步骤S12中,可以包括以下步骤:
S121:若待审计文件的文件格式为其他格式,则将待审计文件的转换为电子文档格式文件或结构化数据,其中,其他格式包括图片、便携式文档格式中的任一种。
在上述步骤S12中获取待审计文件的审计关键信息之前,可以包括:检测待审计文件的文件格式,若待审计文件的文件格式为其他格式,其他格式包括图片、便携式文档格式中的任一种,则将待审计文件的转换为电子文档格式文件或结构化数据。其中,电子文档格式可以是电子书格式,例如可以包括DOC(Document,文档)、PPT(PowerPoint,幻灯片格式)、TXT(文本文档)等任何格式,此格式具有记录图文信息等功能。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据例如为EXcel文档格式的数据等,本申请不限于此。
可选地,可以将待审计文件的转换为电子文档格式文件或结构化数据。具体地,可以利用光学字符识别技术(Optical Character Recognition,简称OCR技术)对待审计文件进行字符识别,识别出待审计文件中的字符信息,例如可以利用OCR技术对图片格式的待审计进行字符识别,将图片中文字转换成文本格式,以得到识别的结果。从而,可以基于识别的结果生成电子文档格式文件或结构化数据的待审计文件。
可选地,还可以获取对待审计文件的输入补录信息,补录信息可以是工作人员对待审计文件进行手工输入的信息。可以基于输入补录信息将待审计文件转换为电子文档格式文件或结构化数据的待审计文件。
可选地,在利用光学字符识别技术对待审计文件进行字符识别时,对于未能识别的字符,可以获取对待审计文件的输入补录信息,补录信息为工作人员对进行OCR技术识别中未能识别的字符进行手工输入的信息。从而,可以基于OCR技术的识别的结果、输入补录信息生成电子文档格式文件或结构化数据的待审计文件。
上述步骤12中获取待审计文件的审计关键信息,可以包括以下步骤:
S122:利用预设提取模型,提取投标商务文件中的审计商务信息。
待审计文件包括关于待审计项目中的投标商务文件、投标技术文件。也即是待审计文件中至少包括投标文件中的投标商务文件、投标技术文件。另外,在一些实施例中,待审计文件还可以包括投标文件中的报价文件、其他部分文件,本申请不限于此。
可以分别针对投标商务文件、投标技术文件分别采用不同的提取方式,提取投标商务文件和投标技术文件中的审计关键信息。
对于投标商务文件,可以利用预设提取模型,提取投标商务文件中的审计商务信息,其中,预设提取模型是基于机器学习建立的模型,在使用预设提取模型之前,可以对预设提取模型进行训练。对预设提取模型进行训练过程具体可以参考下述实施例。
其中,提取得到投标商务文件中的审计商务信息可以包括:投标企业的资质信息、投标企业的企业信息、投标报价信息、交付日期等中的至少一种。
在一些实施例中,审计商务信息还可以包括:投标项目名称、投标项目编号、投标企业名称、投标代理人名称、投标代理人身份证号、投标时间中至少一种。对于审计商务信息本申请不限于此。
S123:基于预设提取规则,利用正则表达式提取投标技术文件中的审计方案信息。
对于投标技术文件,可以基于预设提取规则,利用正则表达式提取投标技术文件中的审计方案信息。其中,预设提取规则可以是基于待审计项目的投标技术文件预先配置的提取规则。
对投标技术文件提取得到的审计方案信息可以包括:投标项目名称、投标项目编号、投标企业名称、投标代理人名称、投标代理人身份证号、投标时间、章节结构信息中至少一种。另外章节结构信息包括项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施章节文本中至少一种,本申请不限于此。
在一些实施例中,在获取待审计文件的审计关键信息之后,还可以将审计关键信息存储在审计文件库中。例如可以在审计文件库中建立投标信息表和投标技术数据表,投标信息表可以用于存储从投标商务文件中提取的审计商务信息,也即是存储投标项目名称、投标项目编号、投标企业名称、投标代理人名称、投标代理人身份证号、投标时间中至少一种。投标技术数据表用于存储从投标技术文件中提取的审计方案信息,也即是可以用于存储投标项目名称、投标项目编号、投标企业名称、投标代理人名称、投标代理人身份证号、投标时间、项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施章节文本中至少一种。
在一些实施例中,对于上述步骤S12,本申请还提供一种提取文件中信息的方法。请参阅图3,图3是本申请提取文件中信息的方法一实施例的流程示意图。该方法包括以下步骤:
S21:获取待审计项目的待审计文件;其中,待审计文件包括关于待审计项目中的投标商务文件、投标技术文件。
在审计文件库中分类存储有关于待审计项目的招标文件、投标文件。投标文件还可以包括投标商务文件、投标技术文件。
可以从审计文件库中获取待审计项目的待审计文件,其中,审计文件库中存储的待审计文件是按照待审计项目、待审计文件的文件格式分类存储的,其中文件格式包括:电子文档格式和其他格式中的至少一种。
在获取待审计项目的待审计文件之后,若待审计文件的文件格式为其他格式,则将待审计文件的转换为电子文档格式文件或结构化数据;其中,其他格式包括图片、便携式文档格式中的任一种。将待审计文件的转换为电子文档格式文件或结构化数据,包括:利用光学字符识别技术对待审计文件进行识别,并基于识别的结果生成电子文档格式文件或结构化数据;和/或,获取对待审计文件的输入补录信息,基于输入补录信息将待审计文件转换为电子文档格式文件或结构化数据。
S22:利用预设提取模型,提取投标商务文件中的审计商务信息。
S23:基于预设提取规则,利用正则表达式提取投标技术文件中的审计方案信息。
本实施例中,步骤S22、步骤S23步骤可以同时执行,本申请中步骤S22、步骤S23的执行顺序不限于此。
该实施例中步骤S21的具体实施方式可参考上述实施例中步骤S12的具体实施过程,在此不再赘述。
该实施例中,通过获取待审计项目的待审计文件;待审计文件包括关于待审计项目中的投标商务文件、投标技术文件;利用预设提取模型,提取投标商务文件中的审计商务信息;以及基于预设提取规则,利用正则表达式提取投标技术文件中的审计方案信息,能够自动从待审计文件中提取的审计所需的信息,从而辅助审计人员进行审计,避免审计人员逐个阅读待审计文件,以提高审计工作效率。
在一些实施例中,在上述步骤22之前,可以预先训练预设提取模型。再利用训练好的预设提取模型,提取投标商务文件中的审计商务信息。
具体地,可以采集多个待审计文件样本,其中,待审计文件样本可以是从归集的投标文件中筛选的具体代表性的投标文件。另外,在待审计文件样本标注有参考审计商务信息,其参考审计商务信息可以是针对投标文件中需要提取的审计商务信息,对投标文件进行人工标注得到的。
将待审计文件样本输入预设提取模型,基于序列标注算法,对预设提取模型进行训练。其中,序列标注算法例如为条件随机场算法(Conditional Random Fields,简称CRF算法),可以采用CRF算法训练预设提取模型,CRF算法可以用于标注和切分有序数据,可以用来解决序列标注问题。在预设提取模型的训练过程中,可以标注和切分待审计文件样本中的参考审计商务信息。
在一些实施例中,请参阅图4,上述步骤S23可以包括以下步骤:
S231:按照投标技术文件的章节结构,为投标技术文件配置预设提取规则。
可以按照投标技术文件的章节结构,为投标技术文件配置预设提取规则。例如投标技术文件的章节结构包括:项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施。可以针对每个章节结构配置对应的预设提取规则。
S232:基于预设提取规则,采用正则表达式提取投标技术文件中各章节结构信息,以得到审计方案信息。
基于预设提取规则,可以采用正则表达是实现预设提取规则。其中,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式可以被用来检索、替换那些符合某个模式(规则)的文本。
采用正则表达式可以提取投标技术文件中各章节结构信息,以将各章节结构信息作为审计方案信息。其中,章节结构信息包括项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施章节文本中至少一种。
本申请中,上述步骤22和S23得到的审计商务信息和/或审计方案信息可以用于对待审计项目的待审计文件进行审计处理。审计商务信息和/或审计方案信息可以作为审计关键信息,在对待审计文件进行审计处理可以包括:利用各待审计文件中的审计商务信息和/或审计方案信息之间的关联关系,对待审计项目的待审计文件进行审计处理。利用预设相似度算法,获取待审计项目中的各待审计文件的审计方案信息之间的相似度;将相似度大于预设阈值的待审计文件作为异常文件,并生成对待审计项目的审计结果。该过程具体可以参考下述实施例。
在一些实施例中,请参阅图5,上述步骤S13中,基于审计关键信息,对待审计文件进行审计处理,可以包括以下步骤:
S131:利用各待审计文件的审计关键信息之间的关联关系,对待审计文件进行审计处理。
审计商务信息和/或审计方案信息可以作为审计关键信息,也即是,审计关键信息可以包括审计商务信息可以包括:投标企业的资质信息、投标企业的企业信息、投标报价信息、交付日期、投标项目名称、投标项目编号、投标企业名称、投标代理人名称、投标代理人身份证号、投标时间、项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施中的至少一种。
利用各待审计文件的审计关键信息之间的关联关系,对待审计文件进行审计处理。例如各待审计项目、投标企业、投标代理人之间的关联关系进行分析,可以获取频繁交换投标代理人的企业列表等信息,可以利用各审计关键信息之间的关联关系进行分析和挖掘,从而得到分析结果,为审计提供参考价值。
S132:利用预设相似度算法,获取待审计项目中的各待审计文件之间的相似度;将相似度大于预设阈值的待审计文件作为异常文件,并生成对待审计项目的审计结果。
可以基于各审计文件的审计关键信息,利用预设相似度算法,获取待审计项目中各待审计文件之间的相似度,从而基于相似度对待审计文件进行审计处理。基于各待审计文件之间的相似度,获取各待审计文件的重复率,也即是可以对各待审计文件进行查重处理,从而可以提取待审计文件雷同的投标企业列表。
可选地,可以基于投标技术文件中的审计方案信息,利用预设相似度算法获取待审计项目各待审计文件之间的相似度,其中,预设相似度算法可以是基于编辑距离的文本相似度算法。若其中两件待审计文件之间的相似度大于预设阈值,预设阈值可以设置为0.4-0.6之间;则可以认为两件待审计文件可能出现雷同,将相似度大于预设阈值的待审计文件作为异常文件,并基于异常文件生成对待审项目的审计结果。另外,还可以将该两件待审计文件中相似度高的章节结构信息作为审计证据。
在一些实施例中,对于上述步骤S13,本申请提供一种文本相似度的计算方法。请参阅图6,图6是本申请文本相似度的计算方法一实施例的流程示意图。该方法包括以下步骤:
S31:获取待审计项目的若干待审计文件,并获取若干待审计文件各章节结构信息。
可以从审计文件库中获取待审计项目的待审计文件,其中,审计文件库中存储的若干待审计文件是按照待审计项目、待审计文件的文件格式分类存储的,其中,文件格式包括:电子文档格式和其他格式中的至少一种,其他格式可以包括图片格式或便携式文档格式,本申请不限于此。
可选地,本实施例中的待审计文件可以包括投标文件中的投标技术文件。在获取待审计文件各章节结构信息时,可以按照投标技术文件的章节结构,为投标技术文件配置预设提取规则,从而,基于预设提取规则,采用正则表达式提取投标技术文件中各章节结构信息,以作为本实施例中待审计文件各章节结构信息。
待审计文件的章节结构信息可以包括项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施章节文本中至少一种。
本实施中该步骤的具体实施过程可以参考上述实施例的实施过程,本申请在此不再赘述。
S32:基于若干待审计文件之间各章节结构信息,确定若干待审计文件之间对应各章节结构的相似度。
利用基于编辑距离的文本相似度算法,确定若干待审计文件之间对应各章节结构的相似度。也即是可以得到若干待审计文件中对应的每个章节结构即项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施的相似度。其中,文本的编辑距离(EditDistance,简称ED)可以是指两个文本字符串之间,将一个字符串转化为另一个字符串所需的最少编辑操作次数。编辑操作包含以下几种:增加一个字符、删除一个字符、修改一个字符。最小编辑距离很直接的从字面上反映了两个文本间的差异程度,即两个文本越相似,其编辑距离就越小。
S33:基于若干待审计文件之间对应各章节结构的相似度及各章节结构的权重,确定若干待审计文件之间的相似度。
可以基于若干待审计文件的对应各章节结构的相似度和各章节结构的权重进行加权,例如加权求和、加权求平均值等,可以将加权结果作为若干待审计文件之间的相似度。
本实施例中,通过获取待审计项目的若干待审计文件,并获取若干待审计文件各章节结构信息;基于若干待审计文件之间各章节结构信息,确定若干待审计文件之间对应各章节结构的相似度;基于若干待审计文件之间对应各章节结构的相似度及各章节结构的权重,确定若干待审计文件之间的相似度,通过获取各待审计文件之间的相似度,可对海量项目的待审计文件进行分析,找出相似的待审计文件,辅助审计人员进行审计,以提高审计工作效率。
在一些实施例中,请参阅图7,上述步骤S33可以包括以下步骤:
S331:对若干待审计文件的各章节结构的相似度进行归一化处理,将归一化处理的结果作为若干待审计文件对应各章节结构的相似度。
可以将各待审计文件对应的各章节结构的相似度进行归一化处理,使得各章节结构的相似度的范围为0~1之间的浮点数,将归一化处理的结果作为对应各章节结构的相似度。对应章节结构的相似度越接近1,表示两章节结构之间的相似度越高,反之,则表示两章节结构之间的相似度越低。
S332:对若干待审计文件的各章节结构的相似度和各章节结构对应的权重进行加权平均,以得到若干待审计文件之间的相似度。
可以分别对各章节结构设置对应的权重,可以根据具体待审计项目的投标技术文件设置各章节结构对应的权重,本申请对此不做限制。例如章节结构中项目情况的权重为0.1,服务方案介绍的权重为0.4,服务过程及项目结束后的服务安排的权重为0.2,进度控制措施的权重为0.15,质量措施的权重为0.15。
对若干待审计文件中,对每两件待审计文件的各章节结构的相似度和各章节结构对应的权重进行加权平均,将加权平均值作为两件待审计文件之间的相似度。从而,可以得到若干待审计文件中每两件待审计文件之间的相似度。在当前待审计文件与若干待审计文件之间的相似度中,将相似度最高的两件待审计文件的相似度作为该两件待审计文件之间的相似度。
可选地,若干待审计文件之间的相似度可以用于对待审计项目的待审计文件进行审计处理。具体地,若待审计文件的相似度大于预设阈值,则将相似度大于预设阈值的待审计文件作为异常文件,并生成对待审计项目的审计结果。
该实施例的具体实施方式可参考上述实施例的实施过程,在此不再赘述。
请参阅图8,图8是本申请文本相似度的计算方法另一实施例的流程示意图。该方法包括以下步骤:
S40:获取待审计项目的若干待审计文件,并获取若干待审计文件各章节结构信息。
S41:从待审计项目中选择一个审计项目作为目标审计项目。
S42:在目标审计项目下的若干待审计文件中,任意选择两个待审计文件作为目标待审计文件。
S43:基于目标待审计文件之间各章节结构信息,确定目标待审计文件之间对应各章节结构的相似度。
S44:基于目标待审计文件之间对应各章节结构的相似度及各章节结构的权重,确定目标待审计文件之间的相似度。
S45:判断目标待审计文件之间的相似度是否大于预设阈值。
若大于预设阈值,则执行步骤S46;若不大于预设阈值,则执行步骤S47。
S46:将相似度大于预设阈值的目标待审计文件作为异常文件,并生成对目标待审计文件的审计结果。
可以将目标待审计文件中相似的章节结构信息、目标待审计文件对应的投标企业、投标代理人、投标对应的目标待审计项目等生成对目标待审计的审计结果。
S47:检测是否已遍历目标审计项目下的所有待审计文件。
若判断为是,则执行步骤S48,否则,则执行步骤S42。
S48:检测是否已遍历所有待审计项目。
若判断为是,则执行步骤S49;否则,继续执行步骤S41。
S49:输出对待审计项目中待审计文件的审计结果。
可以获取对步骤S46中异常文件生成的审计结果,将异常文件的对应的投标企业、对应投标的待审计项目、投标文件及投标文件中相似的章节结构、投标代理人等作为该待审计文件的审计结果。从而可以生成待审计项目中异常项目、异常文件对应的投标企业等的审计结果。
该实施例中步骤S40至步骤S49的具体实施方式可参考上述实施例的实施过程,在此不再赘述。
对于上述实施例,本申请提供一种计算机设备,请参阅图9,图9是本申请计算机设备一实施例的结构示意图。该计算机设备500包括存储器501和处理器502,其中,存储器501和处理器502相互耦接,存储器501中存储有程序数据,处理器502用于执行程序数据以实现上述任一方法中任一实施例的步骤。
在本实施例中,处理器502还可以称为CPU(Central Processing Unit,中央处理单元)。处理器502可能是一种集成电路芯片,具有信号的处理能力。处理器502还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器502也可以是任何常规的处理器等。
该实施例的具体实施方式可参考上述实施例的实施过程,在此不再赘述。
对于上述实施例的方法,其可以采用计算机程序的形式实现,因而本申请提出一种存储装置,请参阅图10,图10是本申请存储装置一实施例的结构示意图。该存储装置600中存储有能够被处理器运行的程序数据601,程序数据可被处理器执行以实现上述任一方法中任一实施例的步骤。
该实施例的具体实施方式可参考上述实施例的实施过程,在此不再赘述。
本实施例存储装置600可以是U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序数据的介质,或者也可以为存储有该程序数据的服务器,该服务器可将存储的程序数据发送给其他设备运行,或者也可以自运行该存储的程序数据。
在本申请所提供的几个实施例中,应该理解的,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储装置中,该存储装置是一种计算机可读取存储介质。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种审计处理方法,其特征在于,包括:
建立待审计项目的审计文件库,其中,所述审计文件库用于存储关于所述待审计项目的待审计文件;
从所述审计文件库中获取至少一个所述待审计文件,并获取所述待审计文件的审计关键信息;
基于所述审计关键信息,对所述待审计文件进行审计处理。
2.根据权利要求1所述的方法,其特征在于,所述建立待审计项目的审计文件库,包括:
按照所述待审计项目、所述待审计文件的文件格式,将所述待审计文件分类存储在所述审计文件库中;其中,所述文件格式包括:电子文档格式和其他格式中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述将所述待审计文件分类存储在所述审计文件库中,包括:
采用分布式文件***将所述待审计文件分类存储在所述审计文件库中。
4.根据权利要求1所述的方法,其特征在于,
所述待审计文件包括关于所述待审计项目中的投标商务文件、投标技术文件;
所述获取所述待审计文件的审计关键信息,包括:
利用预设提取模型,提取所述投标商务文件中的审计商务信息;
基于预设提取规则,利用正则表达式提取所述投标技术文件中的审计方案信息。
5.根据权利要求4所述的方法,其特征在于,
所述审计商务信息包括:投标企业的资质信息、投标企业的企业信息、投标报价信息中的至少一种;
所述审计方案信息包括:投标项目名称、投标项目编号、投标企业名称、投标代理人名称、投标代理人身份证号、投标时间、章节结构信息中至少一种;
其中,所述章节结构信息包括项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施章节文本中至少一种。
6.根据权利要求4所述的方法,其特征在于,所述获取所述待审计文件的审计关键信息之前,包括:
若所述待审计文件的文件格式为其他格式,则将所述待审计文件的转换为电子文档格式文件或结构化数据;其中,所述其他格式包括图片、便携式文档格式中的任一种。
7.根据权利要求6所述的方法,其特征在于,所述将所述待审计文件的转换为电子文档格式文件或结构化数据,包括:
利用光学字符识别技术对所述待审计文件进行识别,并基于所述识别的结果生成所述电子文档格式文件或结构化数据;和/或,
获取对所述待审计文件的输入补录信息,基于所述输入补录信息将所述待审计文件转换为所述电子文档格式文件或结构化数据。
8.根据权利要求1所述的方法,其特征在于,所述基于所述审计关键信息,对所述待审计文件进行审计处理,包括:
利用各所述待审计文件的所述审计关键信息之间的关联关系,对所述待审计文件进行审计处理;和/或,
利用预设相似度算法,获取所述待审计项目中的各所述待审计文件之间的相似度;将所述相似度大于预设阈值的待审计文件作为异常文件,并生成对所述待审计项目的审计结果。
9.一种计算机设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现权利要求1至8任一项所述方法的步骤。
10.一种存储装置,其特征在于,存储有能够被处理器运行的程序数据,所述程序数据用于实现权利要求1至8任一项所述方法的步骤。
CN202110888051.2A 2021-08-03 2021-08-03 审计处理方法、计算机设备及存储装置 Pending CN113763143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110888051.2A CN113763143A (zh) 2021-08-03 2021-08-03 审计处理方法、计算机设备及存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110888051.2A CN113763143A (zh) 2021-08-03 2021-08-03 审计处理方法、计算机设备及存储装置

Publications (1)

Publication Number Publication Date
CN113763143A true CN113763143A (zh) 2021-12-07

Family

ID=78788485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110888051.2A Pending CN113763143A (zh) 2021-08-03 2021-08-03 审计处理方法、计算机设备及存储装置

Country Status (1)

Country Link
CN (1) CN113763143A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444105A (zh) * 2022-01-28 2022-05-06 北京中友金审科技有限公司 一种智能审计数据报送安全方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993454A (zh) * 2019-04-10 2019-07-09 贵州电网有限责任公司 审计风险处理方法、装置、计算机设备和存储介质
CN110046973A (zh) * 2019-04-17 2019-07-23 成都市审计局 一种基于关联关系大数据分析的围标串标检测方法
CN111815162A (zh) * 2020-07-08 2020-10-23 国网上海市电力公司 一种数字化审计工具及方法
CN112800113A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于数据挖掘分析技术的招投标审计方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993454A (zh) * 2019-04-10 2019-07-09 贵州电网有限责任公司 审计风险处理方法、装置、计算机设备和存储介质
CN110046973A (zh) * 2019-04-17 2019-07-23 成都市审计局 一种基于关联关系大数据分析的围标串标检测方法
CN111815162A (zh) * 2020-07-08 2020-10-23 国网上海市电力公司 一种数字化审计工具及方法
CN112800113A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于数据挖掘分析技术的招投标审计方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114444105A (zh) * 2022-01-28 2022-05-06 北京中友金审科技有限公司 一种智能审计数据报送安全方法

Similar Documents

Publication Publication Date Title
US11574204B2 (en) Integrity evaluation of unstructured processes using artificial intelligence (AI) techniques
Zhaokai et al. Contract analytics in auditing
CN103154991B (zh) 信用风险采集
US20170004128A1 (en) Device and method for analyzing reputation for objects by data mining
US7389306B2 (en) System and method for processing semi-structured business data using selected template designs
US9025890B2 (en) Information classification device, information classification method, and information classification program
US20140280173A1 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及***
US20150242393A1 (en) System and Method for Classifying Text Sentiment Classes Based on Past Examples
Sadasivam et al. Corporate governance fraud detection from annual reports using big data analytics
Falkner et al. Identifying requirements in requests for proposal: A research preview
CN112364645A (zh) 一种自动审核erp财务***业务单据的方法及设备
Adnan et al. Beyond Beall's blacklist: automatic detection of open access predatory research journals
CN113763143A (zh) 审计处理方法、计算机设备及存储装置
CN113762719A (zh) 文本相似度的计算方法、计算机设备及存储装置
CN113626655A (zh) 提取文件中信息的方法、计算机设备及存储装置
Liu et al. Tracking disclosure change trajectories for financial fraud detection
TW202018616A (zh) 智能會計帳務系統與會計憑證的辨識入帳方法
Heidari et al. Financial footnote analysis: developing a text mining approach
TWM575887U (zh) 智能會計帳務系統
EP1286284A1 (en) Spreadsheet data processing system
US20140201103A1 (en) System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof
CN113537964A (zh) 申请单处理方法、设备、存储介质及装置
JP6279782B1 (ja) 情報処理端末、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination