CN115168575A

CN115168575A - 应用于审计领域的主语补全方法及相关设备

Info

Publication number: CN115168575A
Application number: CN202210743520.6A
Authority: CN
Inventors: 王开志; 王开向; 王涌
Original assignee: Beijing Zhizhen Cloud Intelligent Technology Co ltd
Current assignee: Beijing Zhizhen Cloud Intelligent Technology Co ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-10-11

Abstract

本申请提供了一种应用于审计领域的主语补全方法及相关设备，通过命名实体识别模型提取审计文本中的候选主语形成候选主语集合，再通过分类算法模型判断待补全主语的句子中缺失的主语的类型，从而从候选主语集合中挑选相应的候选主语进行主语补全。通过本申请的主语补全方法能够有效对审计文本中缺失的三元组的主语进行补全，以构建完整的审计领域知识图谱。

Description

应用于审计领域的主语补全方法及相关设备

技术领域

本申请涉及知识图谱技术领域，尤其涉及一种应用于审计领域的主语补全方法及相关设备。

背景技术

随着人工智能领域的发展，知识图谱作为一种新型的知识库，面向各个领域的知识图谱构造成为了目前研究的热点。在审计领域，由于审计报告中存在主语缺失的问题，导致无法有效抽取完整的SPO三元组，因而影响了审计领域知识图谱构造的完整程度，难以为审计领域的技术人员提供有效信息。

发明内容

有鉴于此，本申请的目的在于提出一种应用于审计领域的主语补全方法及相关设备。

本申请的第一方面提供了一种应用于审计领域的主语补全方法，包括：

获取审计文本，所述审计文本中包括待补全主语的句子；

将所述审计文本输入至经过第一预训练的命名实体识别模型中，经由所述命名实体识别模型得到候选主语集合；

采用经过第二预训练的分类算法模型对所述待补全主语的句子进行预测，以确定所述待补全主语的句子对应的主语缺失类别；

根据所述主语缺失类别从所述候选主语集合中选取候选主语，以对所述待补全主语的句子进行补全。

可选的，所述第一预训练，包括：

获取历史审计文本；

对所述历史审计文本进行分句处理；

对经过分句处理的所述历史审计文本中的全部主语进行标注；

根据带有标注的历史审计文本对所述命名实体识别模型进行所述第一预训练；

若达到训练截止条件，停止所述第一预训练。

可选的，所述第二预训练，包括：

对经过所述分句处理的所述历史审计文本中的待补全主语的句子对应的缺失的主语进行标注；

根据带有标注的所述历史审计文本中的待补全主语的句子对所述分类算法模型进行所述第二预训练；

若达到训练截止条件，停止所述第二预训练。

可选的，所述候选主语集合中包括多个审计单位和多个被审计单位，所述主语缺失类别包括缺失审计单位主语和缺失被审计单位主语，所述根据所述主语缺失类别从所述候选主语集合中选取候选主语，包括：

若所述主语缺失类别为缺失审计单位主语，从所述候选主语集合中的多个审计单位中选取所述候选主语；

若所述主语缺失类别为缺失被审计单位主语，从所述候选主语集合中的多个被审计单位中选取所述候选主语。

可选的，所述命名实体识别模型为BERT-CRF模型。

可选的，所述分类算法模型为FastText模型。

本申请的第二方面还提供了一种用于审计领域的主语补全装置，包括：

获取模块，被配置为获取审计文本，所述审计文本中包括待补全主语的句子；

候选主语生成模块，被配置为将所述审计文本输入至经过第一预训练的命名实体识别模型中，经由所述命名实体识别模型得到候选主语集合；

缺失类别确定模块，被配置为采用经过第二预训练的分类算法模型对所述待补全主语的句子进行预测，以确定所述待补全主语的句子对应的主语缺失类别；

补全模块，被配置为根据所述主语缺失类别从所述候选主语集合中选取候选主语，以对所述待补全主语的句子进行补全。

可选的，所述补全模块，还被配置为，

本申请的第三方面还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上所述的方法。

本申请的第四方面还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如上所述的方法。

本申请提供的应用于审计领域的主语补全方法及相关设备，通过命名实体识别模型提取审计文本中的候选主语形成候选主语集合，再通过分类算法模型判断待补全主语的句子中缺失的主语的类型，从而从候选主语集合中挑选相应的候选主语进行主语补全。通过本申请的主语补全方法能够有效对审计文本中缺失的三元组的主语进行补全，以构建完整的审计领域知识图谱。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的应用于审计领域的主语补全的流程示意图；

图2为本申请实施例的第一预训练的方法流程示意图；

图3为本申请实施例的第二预训练的方法流程示意图；

图4为本申请实施例的应用于审计领域的主语补全的结构示意图；

图5为本申请实施例的电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术所述，为提升审计领域知识图谱构造的完整程度，在审计单位人员搭建知识图谱的过程中，对其短句或局部文字中的主语进行预测以供参考。本申请采用命名实体识别对审计文本中的主语进行了识别，并使用Fasttext模型对句子或局部文本的主语进行预测分类，实现了审计报告在抽取SPO(S表示主语subject、P表示谓语predicate、O表示宾语object)三元组过程中的主语预测，提高了抽取SPO三元组的完整性。此外，由于SPO三元组完整性的提高，同时也提高了知识图谱中相关信息的完整程度。

以下结合附图来详细说明本申请的实施例。

本申请提供了一种应用于审计领域的主语补全方法，参考图1，包括以下几个步骤：

步骤102、获取审计文本，所述审计文本中包括待补全主语的句子。

具体的，本实施例中的审计文本为审计报告，审计报告是注册会计师对财务报表合法性和公允性发表审计意见的书面文书。在审计报告中会出现大量的审计单位或被审计单位，在一些短句或局部文本中会存在主语缺失的情况，导致审计人员无法根据审计报告构建完整的审计领域知识图谱。所述待补全主语的句子是指缺失审计单位或被审计单位的句子。

步骤104、将所述审计文本输入至经过第一预训练的命名实体识别模型中，经由所述命名实体识别模型得到候选主语集合。

具体的，为了对缺失主语的句子进行补全，需要对审计文本中出现的全部主语进行识别，因为缺失的主语往往存在于审计文本中。对审计文本中的主语进行识别需要借助于命名实体识别模型，通过经过预训练的该模型可以输出审计文本中的主语。将命名实体识别模型输出的主语进行合并以形成候选主语集合。

步骤106、采用经过第二预训练的分类算法模型对所述待补全主语的句子进行预测，以确定所述待补全主语的句子对应的主语缺失类别。

具体的，对于待补全主语的句子所缺失的主语类型可能不同，缺失的可能是审计单位，也可能是被审计单位。因此，需要先确认每个待补全主语的句子缺失主语的类型，才能进一步对句子进行补全。采用分类算法模型可以很好的判别预测句子中缺失的主语类型，因此，将待补全主语的句子输入至分类算法模型，经由分类算法模型即可输出主语缺失类别。

步骤108、根据所述主语缺失类别从所述候选主语集合中选取候选主语，以对所述待补全主语的句子进行补全。

具体的，通过步骤104得到的候选主语集合包括了审计文本中全部的候选主语，根据分类算法模型预测得到的主语缺失类型，相应从候选主语集合中找到对应关联的候选主语进行补全即可。

基于上述步骤102-步骤108，通过引入命名实体识别模型和分类算法模型对缺失主语的审计文本进行补全，能够有效提升审计文本中三元组抽取的完整性，为进一步构建审计领域的知识图谱提供有力支持。

在一些实施例中，所述第一预训练，参考图2，包括以下几个步骤：

步骤202、获取历史审计文本；

步骤204、对所述历史审计文本进行分句处理；

步骤206、对经过分句处理的所述历史审计文本中的全部主语进行标注；

步骤208、根据带有标注的历史审计文本对所述命名实体识别模型进行所述第一预训练；

步骤210、若达到训练截止条件，停止所述第一预训练。

具体的，命名实体识别模型是经过预训练。预训练采用的训练集是从历史审计文本中获取。首先，需要对历史审计文本进行分句处理，例如使用jieba分词工具对历史审计文本进行分句。然后，对经过分句的历史审计文本中的主语进行标注，标记每句中出现的主语及主语类型，形成标注样本。采用带有标记的审计文本的语句对命名实体识别模型进行第一预训练，第一预训练的方法包括将带有标记的审计文本划分为训练集和测试集，通过训练集对命名实体识别模型进行训练，调整模型参数，再通过测试集对命名实体识别模型进行测试，判断模型是否达到预训练的标准。需要说明的是，还可以将采用带有标记的审计文本的语句划分为多组训练集和测试集，根据多组训练集和测试集对命名实体识别模型开展多轮训练，每一轮训练使用一组训练集和测试集，以进一步提高模型的准确性。训练截止条件可以是损模型失函数收敛、或达到预定的训练次数等等。当达到训练截止条件时，即可停止第一预训练，防止模型过拟合。

在一些实施例中，所述第二预训练，参考图3，包括以下几个步骤：

步骤302、对经过所述分句处理的所述历史审计文本中的待补全主语的句子对应的缺失的主语进行标注；

步骤304、根据带有标注的所述历史审计文本中的待补全主语的句子对所述分类算法模型进行所述第二预训练；

步骤306、若达到训练截止条件，停止所述第二预训练。

具体的，针对分类算法模型的第二预训练，可以在上述用于第一预训练的历史审计文本的基础上，将带有标注的所述历史审计文本作为训练数据对分类算法模型进行第二预训练。对经过分句的历史审计文本进行主语缺失类型的标注，形成标注样本。通过标注样本对分类算法模型进行第二预训练，分类算法模型在第二预训练的过程中学习标注样本的向量特征，从而达到准确判别句子缺失主语类型的目的。第二预训练的方法包括将带有标记的审计文本划分为训练集和测试集，通过训练集对分类算法模型进行训练，调整模型参数，再通过测试集对分类算法模型进行测试，判断模型是否达到预训练的标准。需要说明的是，还可以将采用带有标记的审计文本的语句划分为多组训练集和测试集，根据多组训练集和测试集对分类算法模型开展多轮训练，每一轮训练使用一组训练集和测试集，以进一步提高模型的准确性。训练截止条件可以是损模型失函数收敛、或达到预定的训练次数等等。当达到训练截止条件时，即可停止第二预训练，防止模型过拟合。

在一些实施例中，所述候选主语集合中包括多个审计单位和多个被审计单位，所述主语缺失类别包括缺失审计单位主语和缺失被审计单位主语，所述根据所述主语缺失类别从所述候选主语集合中选取候选主语，包括：

具体的，审计报告中涉及的审计单位和被审计单位都可以是一个或多个。候选主语集合中包括了候选审计单位子集合和候选被审计单位子集合。主语缺失类别也相应设置为缺失审计单位主语和缺失被审计单位主语。可以理解的是，当通过分类算法模型确定了主语缺失类别为缺失审计单位主语时，可以从候选主语集合中的候选审计单位子集合中选取相应的审计单位主语对该待补全主语的句子进行补全。当审计单位子集合中包含多个审计单位时，需要联系上下文判断并选取合适的审计单位作为候选主语。当审计单位子集合中仅包含一个审计单位时，则该审计单位就是最终的候选主语。同样的，当通过分类算法模型确定了主语缺失类别为缺失被审计单位主语时，可以从候选主语集合中的候选被审计单位子集合中选取相应的被审计单位主语对该待补全主语的句子进行补全。当被审计单位子集合中包含多个被审计单位时，需要联系上下文判断并选取合适的被审计单位作为候选主语。当被审计单位子集合中仅包含一个被审计单位时，则该被审计单位就是最终的候选主语。

由此可见，通过上述方法，可以准确的选取候选主语对待补全主语的句子进行补全，为审计人员提供参考，提高审计文本中三元组抽取的完整性。

在一些实施例中，所述命名实体识别模型为BERT-CRF模型。

具体的，命名实体识别是自然语言处理中的热点研究方向之一，目的是识别文本中的命名实体并将其归纳到相应的实体类型中。在本实施例中，命名实体识别模型采用的是BERT-CRF模型，BERT-CRF模型相较于其他模型训练速度更快，准确率更高，可以高质量的完成序列标注任务。

在一些实施例中，所述分类算法模型为FastText模型。FastText模型是Facebook提出的一个文本分类工具，其优势是在浅层训练上可以取得一些深层网络类似的精度，且训练速度比较快。FastText模型的结构非常简单，分别三层，输入层、隐藏层和输出层。输入层是对文档进行嵌入之后得到嵌入向量，嵌入向量包含N-gram特征。隐藏层是对输入数据进行求和平均，输出层输出的是文档对应标签。通过FastText模型可以准确的对待补全主语的句子的主语缺失类别进行判定，以保证三元组的补全质量。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请还提供了一种应用于审计领域的主语补全装置。

参考图4，所述应用于审计领域的主语补全装置，包括：

获取模块402，被配置为获取审计文本，所述审计文本中包括待补全主语的句子；

候选主语生成模块404，被配置为将所述审计文本输入至经过第一预训练的命名实体识别模型中，经由所述命名实体识别模型得到候选主语集合；

缺失类别确定模块406，被配置为采用经过第二预训练的分类算法模型对所述待补全主语的句子进行预测，以确定所述待补全主语的句子对应的主语缺失类别；

补全模块408，被配置为根据所述主语缺失类别从所述候选主语集合中选取候选主语，以对所述待补全主语的句子进行补全。

在一些实施例中，还包括第一预训练模块410，被配置为，

获取历史审计文本；

对所述历史审计文本进行分句处理；

若达到训练截止条件，停止所述第一预训练。

在一些实施例中，还包括第二预训练模块412，被配置为，

若达到训练截止条件，停止所述第二预训练。

在一些实施例中，所述候选主语集合中包括多个审计单位和多个被审计单位，所述主语缺失类别包括缺失审计单位主语和缺失被审计单位主语，所述补全模块408，具体被配置为，

在一些实施例中，所述命名实体识别模型为BERT-CRF模型。

在一些实施例中，所述分类算法模型为FastText模型。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的应用于审计领域的主语补全方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的应用于审计领域的主语补全方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的应用于审计领域的主语补全方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的应用于审计领域的主语补全方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的应用于审计领域的主语补全方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种应用于审计领域的主语补全方法，其特征在于，包括：

获取审计文本，所述审计文本中包括待补全主语的句子；

2.根据权利要求1所述的方法，其特征在于，所述第一预训练，包括：

获取历史审计文本；

对所述历史审计文本进行分句处理；

若达到训练截止条件，停止所述第一预训练。

3.根据权利要求2所述的方法，其特征在于，所述第二预训练，包括：

若达到训练截止条件，停止所述第二预训练。

4.根据权利要求1所述的方法，其特征在于，所述候选主语集合中包括多个审计单位和多个被审计单位，所述主语缺失类别包括缺失审计单位主语和缺失被审计单位主语，所述根据所述主语缺失类别从所述候选主语集合中选取候选主语，包括：

5.根据权利要求1所述的方法，其特征在于，所述命名实体识别模型为BERT-CRF模型。

6.根据权利要求1所述的方法，其特征在于，所述分类算法模型为FastText模型。

7.一种应用于审计领域的主语补全装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述补全模块，还被配置为，

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至6任意一项所述的方法。