CN109800784B - 基于神经网络的合同核对方法及装置 - Google Patents
基于神经网络的合同核对方法及装置 Download PDFInfo
- Publication number
- CN109800784B CN109800784B CN201811512895.1A CN201811512895A CN109800784B CN 109800784 B CN109800784 B CN 109800784B CN 201811512895 A CN201811512895 A CN 201811512895A CN 109800784 B CN109800784 B CN 109800784B
- Authority
- CN
- China
- Prior art keywords
- contract
- checked
- keywords
- text
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 43
- 238000003062 neural network model Methods 0.000 claims description 46
- 230000015654 memory Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本公开涉及人工智能技术领域,具体揭示了一种基于神经网络的合同核对方法及装置,包括:获取对照合同的文本图像和待核对合同的文本图像;对所述对照合同的文本图像进行字符识别,获得为进行合同核对所配置的每一关键字在所述对照合同的文本图像中所在的像素信息;按照所述像素信息,在所述待核对合同的文本图像中提取位于所述像素信息所指示像素的待核对关键字;对所述关键字和所述待核对关键字进行匹配,确定所述待核对关键字是否与所述关键字一致;若不一致,在所述待核对合同的文本图像中标注出所述待核对关键字。提高了合同核对的效率和速率,解决了现有技术中合同核对效率低的问题。
Description
技术领域
本公开涉及人工智能技术领域,特别涉及一种基于神经网络的合同核对方法及装置。
背景技术
在合同双方达成合同约定后,需要合同双方责任人进行签字或者盖章,而在合同双方责任人进行签字或者签章之前,需要人工核对待签字/签章的合同是否与约定的合同相同,从而避免合同被篡改。但是由于合同文本较长,涉及关键信息多,人工校验效率低且很容易遗漏出错。
由上可知,如何提高合同核对效率的问题还有待解决。
发明内容
为了解决相关技术中存在的问题,本公开提供了一种基于神经网络的合同核对方法及装置。
第一方面,一种基于神经网络的合同核对方法,包括:
获取对照合同的文本图像和待核对合同的文本图像;
对所述对照合同的文本图像进行字符识别,获得为进行合同核对所配置的每一关键字在所述对照合同的文本图像中所在的像素信息;
按照所述像素信息,在所述待核对合同的文本图像中提取位于所述像素信息所指示像素的待核对关键字;
对所述关键字和所述待核对关键字进行匹配,确定所述待核对关键字是否与所述关键字一致;
若不一致,在所述待核对合同的文本图像中标注出所述待核对关键字。
第二方面,一种基于神经网络的合同核对装置,包括:
获取模块,被配置为:获取对照合同的文本图像和待核对合同的文本图像;
字符识别模块,被配置为:对所述对照合同的文本图像进行字符识别,获得为进行合同核对所配置的每一关键字在所述对照合同的文本图像中所在的像素信息;
待核对关键字提取模块,被配置为:按照所述像素信息,在所述待核对合同的文本图像中提取位于所述像素信息所指示像素的待核对关键字;
匹配模块,被配置为:对所述关键字和所述待核对关键字进行匹配,确定所述待核对关键字是否与所述关键字一致;
标注模块,被配置为:若匹配模块确定所述待核对关键字与所述关键字不一致,在所述待核对合同的文本图像中标注出所述待核对关键字。
在一实施例中,所述获取模块包括:
获取单元,被配置为:获取根据所述对照合同所获得的对照合同图像,和获取根据所述待核对合同所获得的待核对合同图像;
预处理单元,被配置为:对所述对照合同图像进行预处理得到所述对照合同的文本图像,以及对所述待核对合同图像进行预处理,得到所述待核对合同的文本图像。
在一实施例中,所述基于神经网络的合同核对装置还包括:
文本信息获取模块,被配置为:获取所述对照合同的文本信息;
关键字预测模块,被配置为:通过神经网络模型对所述文本信息进行关键字预测,得到为所述对照合同所预测的若干所述关键字。
在一实施例中,所述基于神经网络的合同核对装置还包括:
样本获取模块,被配置为:获取若干样本合同和为每一所述样本合同所设定的若干样本关键字;
训练模块,被配置为:通过所述若干样本合同和所对应设定的所述样本关键字训练所述神经网络模型;
训练结束模块,被配置为:当所述神经网络模型收敛,结束所述神经网络模型的训练。
在一实施例中,所述字符识别模块包括:
字符识别单元,被配置为:通过对所述对照合同的文本图像进行字符识别,确定所述对照合同的文本内容,并获得所述文本内容中每一字符的像素信息,所述像素信息指示了所述字符在所述对照合同的文本图像中的像素;
关键字查找单元,被配置为:在所述对照合同的文本内容中分别进行每一所述关键字的查找;
像素信息获取单元,被配置为:根据所查找到的所述关键字所在像素,获得所述关键字在所述对照合同的文本图像中的像素信息。
在一实施例中,待核对关键字提取模块包括:
像素定位单元,被配置为:在所述待核对合同的文本图像中进行所述像素信息所指示像素的定位;
待核对关键字获取单元,被配置为:对位于所定位到像素的字符进行字符识别,获得所述待核对关键字。
在一实施例中,匹配模块包括:
关键字名称匹配单元,被配置为:对所述关键字中的关键字名称和所述待核对关键字中的关键字名称进行匹配;
第一确定单元,被配置为:若所述关键字名称匹配单元确定关键字名称不相同,则确定所述待核对关键字与所述关键字不一致;以及
关键字内容匹配单元,被配置为:若所述关键字名称相同,则继续对所述关键字中的关键字内容和所述待核对关键字中的关键字内容进行匹配;
第二确定单元,被配置为:若关键字内容匹配单元确定所述关键字内容不相同,则确定所述待核对关键字与所述关键字不一致。
第三方面,一种基于神经网络的合同核对装置,包括:
处理器;及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的方法。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
通过在对照合同的文本图像中获取每一关键字的像素信息,然后根据像素信息在对照合同的文本图像中进行对应像素的定位,从而针对性提取位于所定位到像素的待核对关键字,进行关键字和待核对关键字的核对。一方面,不需要由人工按照合同文本逐一进行对比;另一方面,根据关键字的像素信息在待核对合同的文本图像中有针对性的提取位于像素信息所指示像素的待核对关键字,从而不需要识别待核对合同的文本图像中的全部文字。从而大幅提高了合同核对的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种装置的框图;
图2是根据一示例性实施例示出的一种基于神经网络的合同核对方法的流程图;
图3是图2对应实施例的步骤S110的流程图;
图4是图2对应实施例的步骤S130之前步骤的流程图;
图5是图4对应实施例的步骤S020之前步骤的流程图;
图6是图2对应实施例的步骤S130的流程图;
图7是图2对应实施例的步骤S150的流程图;
图8是图2对应实施例的步骤S170的流程图;
图9是根据一示例性实施例示出的一种基于神经网络的合同核对装置的框图;
图10是根据另一示例性实施例示出的一种基于神经网络的合同核对装置的框图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种装置200的框图。装置200可以作为本公开基于神经网络的合同核对方法的执行主体。其中装置200可以是可供应用程序运行的通信设备。通信设备比如可以是智能手机、平板电脑、台式电脑、笔记本电脑、服务器等。
参照图2,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电源组件206,多媒体组件208,音频组件210,传感器组件214以及通信组件216。
处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件202可以包括一个或多个处理器218来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模块,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。
存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器204中还存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理器218执行,以完成下述方法实施例中任一所示方法中的全部或者部分步骤。
电源组件206为装置200的各种组件提供电力。电源组件206可以包括电源管理***,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。
多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display ,简称OLED)。
音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克风(Microphone,简称MIC),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。
传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到装置200的打开/关闭状态,组件的相对定位,传感器组件214还可以检测装置200或装置200一个组件的位置改变以及装置200的温度变化。在一些实施例中,该传感器组件214还可以包括磁传感器,压力传感器或温度传感器。
通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如WiFi(WIreless-Fidelity,无线保真)。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件216还包括近场通信(Near FieldCommunication,简称NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RadioFrequency Identification,简称RFID)技术,红外数据协会(Infrared Data Association,简称IrDA)技术,超宽带(Ultra Wideband ,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置200可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit ,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
图2是根据一示例性实施例示出的一种基于神经网络的合同核对方法的流程图。该基于神经网络的合同核对方法可以由图1所示的装置200执行,可以包括以下步骤。
步骤S110,获取对照合同的文本图像和待核对合同的文本图像。
其中,待核对合同即是待进行核对的合同,本公开的基于神经网络的合同核对方法即是以对照合同作为核对参照,进行待核对合同与对照合同的比较,判断待核对合同中的合同内容与对照合同中的合同内容是否一致。
举例来说,在合同双方达成合同约定之后,在合同双方进行签字或者盖章之前,需要核对待进行签字或者盖章的合同与所约定合同是否一致,从而避免合同被篡改。在该种应用场景中,待核对合同即为待进行签字或者盖章的合同,对照合同即为合同双方所约定的合同。
对照合同的文本图像即由对照合同的文本所对应的像素构成的图像。对照合同的文本图像来源于根据对照合同所得到的对照合同图像,对照合同图像可以是拍摄纸质对照合同得到,也可以是扫描纸质的对照合同得到。在对照合同图像中,除了包括对照合同的文本外,还包括背景等,而在对照合同的文本图像中,仅包括对照合同的文本。也即是说,对照合同的文本图像是对对照合同图像进行去噪之后,而得到的仅包括对照合同的文本的图像。在具体实施例中,为了便于后续步骤中的字符识别,还可以对去噪之后的对照合同图像进行二值化处理,从而得到对照合同的文本图像。
同理,待核对合同的文本图像为由待核对合同的文本所对应的像素构成的图像。
步骤S130,对对照合同的文本图像进行字符识别,获得为进行合同核对所配置的每一关键字在对照合同的文本图像中所在的像素信息。
字符识别即光学字符识别(Optical Character Recognition, OCR),对对照合同的文本图像所进行的字符识别即对对照合同的文本图像进行分析识别处理,获得对照合同的文本图像中字符的过程。其中包括在对照合同的文本图像中进行文字检测和文本识别两个过程。文字检测即检测在文本图像中字符所在的区域。文本识别即对文本图像中的各个字符进行识别,以确定合同的内容。
关键字即待进行核对的关键要素,可以是合同中涉及金额、日期等关键要素,或者是涉及责任归属的重要内容,例如需要核对待核对合同中的抵押金额是否为对照合同中所约定的“抵押金额壹佰万元整”,则可以将对照合同中的“抵押金额壹佰万元整”配置为关键字。
在一具体实施例中,每一所配置的关键字包括关键字名称和关键字内容。以上述所配置的关键字“抵押金额壹佰万元整”来说,“抵押金额”即为关键字名称,“壹佰万元整”即为关键字内容。
对于每一需要进行核对的合同,其中需要核对的关键内容均可以通过设定关键字的方式来进行核对。所以为合同核对所配置的关键字可以是一个或者多个。而每一关键字在对照合同中的出现次数可能不止一次。所获取的每一关键字在对照合同的文本图像中所在的像素信息,即根据关键字在对照合同的文本图像中的位置,对应获得关键字在每一位置所对应的像素信息。
在一实施例中,如图6所示,步骤S130包括:
步骤S131,通过对对照合同的文本图像进行字符识别,确定对照合同的文本内容,并获得文本内容中每一字符的像素信息,像素信息指示了字符在对照合同的文本图像中的像素。
在字符识别过程中,对对照合同的文本图像中的字符进行切割,从而确定每个字符在对照合同的文本图像中的像素,得到字符的像素信息。在字符切割完成后,对每一字符进行识别,即确定每一字符所对应的文字,从而获得对照合同的文本内容。
在具体实施中,进行字符识别可以采用循环神经网络模型(Recurrent NeuralNetwork,RNN),还可以采用长短期记忆网络模型(Long Short-Term Memory,LSTM),当然还可以是其他可以进行文本识别的神经网络模型,在此不进行具体限定。
由于每一合同中的文字都是有对应的上下文,所以为了提高字符识别的精度,还可以在所使用的神经网络模型中引入注意力机制,从而在字符识别过程中结合上下文来进行识别,例如在识别过程中结合上下文的内容来调整字符切分位置,从而提高字符识别精度。
步骤S132,在对照合同的文本内容中分别进行每一关键字的查找。
所进行的查找即确定在对照合同的文本内容中哪些位置存在所配置的关键字。从而查找到所配置的每一关键字在对照合同的文本内容中的位置。
步骤S133,根据所查找到的关键字所在像素,获得关键字在对照合同的文本图像中的像素信息。
在对照合同的文本内容中,每一文字对应于对照合同的文本图像中的一字符,从而,关键字所在的像素即为在对照合同的文本图像中对应字符的像素,从而获得关键字在对照合同的文本图像中的像素信息。
步骤S150,按照像素信息,在待核对合同的文本图像中提取位于像素信息所指示像素的待核对关键字。
其中,为了按照本公开的方法进行合同核对,步骤S110中所获取的对照合同的文本图像和待核对合同的文本图像,两者的文本图像的像素排布是相同的。从而在步骤S130中,获得每一关键字在对照合同的文本图像中的像素信息之后,可以将每一关键字的像素信息对应到待核对合同的文本图像中。从而从待核对合同的文本图像中按照像素信息进行像素信息所指示像素的定位。
在一实施例中,如图7所示,步骤S150包括:
步骤S151,在待核对合同的文本图像中进行像素信息所指示像素的定位。
步骤S152,对位于所定位到像素的字符进行字符识别,获得待核对关键字。
即根据像素信息在待核对合同的文本图像中对应像素的定位之后,对位于所定位到像素的字符进行字符识别,从而确定字符所对应的文字,即得到待核对关键字。
通过按照在对照合同的文本图像中所确定的关键字的像素信息直接在待核对合同的文本图像中进行像素信息所指示像素的定位,从而,不需要对待核对合同的文本图像进行全部字符的识别,而仅对位于像素信息所指示像素的字符进行识别,得到待核对关键字,提高到了待核对关键字的获取的效率。
步骤S170,对关键字和待核对关键字进行匹配,确定待核对关键字是否与关键字一致。
其中,所进行的匹配是基于匹配算法进行的,匹配算法可以是Rabin-Karp算法、KMP算法、BM算法等,在此不进行具体限定。
在一实施例中,如图8所示,步骤S170包括:
步骤S171,对关键字中的关键字名称和待核对关键字中的关键字名称进行匹配。
步骤S172,若关键字名称不相同,则确定待核对关键字与关键字不一致;以及
步骤S173,若关键字名称相同,则继续对关键字中的关键字内容和待核对关键字中的关键字内容进行匹配;若关键字内容不相同,则确定待核对关键字与关键字不一致。
即在该实施例中,按照顺序进行关键字和待核对关键字中的关键字名称和关键字内容进行匹配,而且,在匹配过程中,如果关键字名称不相同,则确定关键字和待核对关键字不一致,不需要再对关键字内容进行匹配,从而提高效率。如果关键字名称相同再进一步地进行关键字内容的核对,如果关键字内容相同,则确定关键字和待核对关键字一致。换言之,仅在关键字名称和关键字内容均相同的情况下,关键字和待核对关键字一致。
步骤S190,若不一致,在待核对合同的文本图像中标注出待核对关键字。
从而,如果关键字和待核对关键字不一致,在待核对合同的文本图像中标注出待核对关键字,从而便于用户直接根据标注定位到待核对合同的文本图像中存在异常的内容。
通过本公开的方案,通过在对照合同的文本图像中获取每一关键字的像素信息,然后根据像素信息在对照合同的文本图像中进行对应像素的定位,从而针对性提取位于所定位到像素的待核对关键字,进行关键字和待核对关键字的核对。一方面,不需要由人工按照合同文本逐一进行对比;另一方面,根据关键字的像素信息在待核对合同的文本图像中有针对性的提取位于像素信息所指示像素的待核对关键字,从而不需要识别待核对合同的文本图像中的全部文字。从而大幅提高了合同核对的效率。
在一实施例中,如图3所示,步骤S110包括:
步骤S111,获取根据对照合同所获得的对照合同图像,和获取根据待核对合同所获得的待核对合同图像。
步骤S112,对对照合同图像进行预处理得到对照合同的文本图像,以及对待核对合同图像进行预处理,得到待核对合同的文本图像。
其中,对对照合同图像(或待核对合同图像)所进行的预处理包括去噪处理以及二值化处理等。
图像的去噪处理即减少对照合同图像和待核对合同图像中的噪声,从而降低噪声对图像中的字符识别的准确度。
图像的二值化处理就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果,例如将对照合同图像中的字符的灰度值设置为255,将非字符的灰度值设为0,从而便于进行字符识别。
在一实施例中,如图4所示,步骤S130之前还包括:
步骤S010,获取对照合同的文本信息。
步骤S020,通过神经网络模型对文本信息进行关键字预测,得到为对照合同所预测的若干关键字。
其中所采用的神经网络模型可以是循环神经网络模型、卷积神经网络模型、随机森林网络模型、递归神经网络模型等,在此不进行具体限定。
在通过神经网络模型进行对照合同的关键字预测的过程中,对对照合同的文本信息进行特征提取,并构建得到对照合同的文本信息的特征向量,然后根据所构建的特征向量进行关键字的预测,得到为对照合同所预测的若干关键字。所构建的特征向量可以是对照合同的文本语义向量,从而,在神经网络模型根据文本语义向量进行关键字的预测。
由于合同中待核对的关键要素可以是多个,所以,可以根据对照合同的合同文本,自定义关键字的数量,从而在神经网路模型输出关键字的时候,按照自定义的数量进行关键字的输出,其中所输出的关键字为关键字权重靠前的关键字。即在神经网络模型中,根据预定的关键字输出数量,根据关键字的权重进行关键字的排序,如果自定义的关键字数量N小于所预定的关键字输出数量T,则输出关键字排序中的前N个关键字。
通过神经网络模型来进行关键字预测,从而可以针对不同的对照合同对应进行关键字的预测。
在一实施例中,如图5所示,步骤S020之前,还包括:
步骤S210,获取若干样本合同和为每一样本合同所设定的若干样本关键字。
步骤S220,通过若干样本合同和所对应设定的样本关键字训练神经网络模型。
步骤S230,当神经网络模型收敛,结束神经网络模型的训练。
在训练过程中,神经网络模型对每一样本合同进行分类预测,得到该样本合同的若干关键字,如果所预测得到的关键字与所设定的样本关键字不相同,则调整神经网络模型的参数,直至所预测得到的关键字与所设定的样本关键字一致。
训练一段时间之后,对神经网络模型进行预测精度测试,即将若干样本合同输入到神经网络模型中,神经网络模型预测得到每一样本合同的若干关键字,并将每一样本合同的关键字与对该样本合同所设定的样本关键字进行对比,如果一致,则该神经网络模型对该样本合同的预测准确,如果不一致,则该神经网络模型对该样本合同的预测错误,从而统计得到神经网络模型的预测准确率(预测准确率=预测准确的测样本合同数量/样本合同总数量),如果所得到的预测准确率满足设定的准确率要求,则该训练之后的神经网络模型收敛,从而结束该神经网络模型的训练,并将结束训练的神经网络模型用于步骤S020中对对照合同进行关键字预测。
通过样本合同以及对应的样本关键字对神经网络模型进行训练,从而可以保证神经网络模型的关键字预测精度。当然,为了进一步提高神经网络模型的精度,通过延长神经网络模型训练的时间和/或增加样本合同的数量。
下述为本公开装置实施例,可以用于执行本公开上述装置200执行的基于神经网络的合同核对方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开基于神经网络的合同核对方法实施例。
图9是根据一示例性实施例示出的一种基于神经网络的合同核对装置的框图,该基于神经网络的合同核对装置可以部署于装置200中,执行上述基于神经网络的合同核对方法实施例中任一所示的基于神经网络的合同核对方法的全部或者部分步骤。如图9所示,该基于神经网络的合同核对装置包括:
获取模块110,被配置为:获取对照合同的文本图像和待核对合同的文本图像。
字符识别模块130,被配置为:对对照合同的文本图像进行字符识别,获得为进行合同核对所配置的每一关键字在对照合同的文本图像中所在的像素信息。
待核对关键字提取模块150,被配置为:按照像素信息,在待核对合同的文本图像中提取位于像素信息所指示像素的待核对关键字。
匹配模块170,被配置为:对关键字和待核对关键字进行匹配,确定待核对关键字是否与关键字一致。
标注模块190,被配置为:若匹配模块确定待核对关键字与关键字不一致,在待核对合同的文本图像中标注出待核对关键字。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于神经网络的合同核对方法中对应步骤的实现过程,在此不再赘述。
可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图2的处理器218所执行的存储在存储器204中的程序。
在一实施例中,获取模块110包括:
获取单元,被配置为:获取根据对照合同所获得的对照合同图像,和获取根据待核对合同所获得的待核对合同图像。
预处理单元,被配置为:对对照合同图像进行预处理得到对照合同的文本图像,以及对待核对合同图像进行预处理,得到待核对合同的文本图像。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于神经网络的合同核对方法中对应步骤的实现过程,在此不再赘述。
在一实施例中,基于神经网络的合同核对装置还包括:
文本信息获取模块,被配置为:获取对照合同的文本信息。
关键字预测模块,被配置为:通过神经网络模型对文本信息进行关键字预测,得到为对照合同所预测的若干关键字。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于神经网络的合同核对方法中对应步骤的实现过程,在此不再赘述。
在一实施例中,基于神经网络的合同核对装置还包括:
样本获取模块,被配置为:获取若干样本合同和为每一样本合同所设定的若干样本关键字。
训练模块,被配置为:通过若干样本合同和所对应设定的样本关键字训练神经网络模型。
训练结束模块,被配置为:当神经网络模型收敛,结束神经网络模型的训练。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于神经网络的合同核对方法中对应步骤的实现过程,在此不再赘述。
在一实施例中,字符识别模块130包括:
字符识别单元,被配置为:通过对对照合同的文本图像进行字符识别,确定对照合同的文本内容,并获得文本内容中每一字符的像素信息,像素信息指示了字符在对照合同的文本图像中的像素。
关键字查找单元,被配置为:在对照合同的文本内容中分别进行每一关键字的查找。
像素信息获取单元,被配置为:根据所查找到的关键字所在像素,获得关键字在对照合同的文本图像中的像素信息。
上述装置中各个单元的功能和作用的实现过程具体详见上述基于神经网络的合同核对方法中对应步骤的实现过程,在此不再赘述。
在一实施例中,待核对关键字提取模块150包括:
像素定位单元,被配置为:在待核对合同的文本图像中进行像素信息所指示像素的定位。
待核对关键字获取单元,被配置为:对位于所定位到像素的字符进行字符识别,获得待核对关键字。
上述装置中各个单元的功能和作用的实现过程具体详见上述基于神经网络的合同核对方法中对应步骤的实现过程,在此不再赘述。
在一实施例中,匹配模块170包括:
关键字名称匹配单元,被配置为:对关键字中的关键字名称和待核对关键字中的关键字名称进行匹配。
第一确定单元,被配置为:若关键字名称匹配单元确定关键字名称不相同,则确定待核对关键字与关键字不一致。以及
关键字内容匹配单元,被配置为:若关键字名称相同,则继续对关键字中的关键字内容和待核对关键字中的关键字内容进行匹配。
第二确定单元,被配置为:若关键字内容匹配单元确定关键字内容不相同,则确定待核对关键字与关键字不一致。
上述装置中各个单元的功能和作用的实现过程具体详见上述基于神经网络的合同核对方法中对应步骤的实现过程,在此不再赘述。
可选的,本公开还提供一种基于神经网络的合同核对装置,该装置可以部署于图1所示的装置200中,执行以上方法实施例中任一所示的基于神经网络的合同核对方法的全部或者部分步骤。如图10所示,基于神经网络的合同核对装置1000包括:
处理器1001;及
存储器1002,存储器1002上存储有计算机可读指令,计算机可读指令被处理器1001执行时实现以上方法实施中任一项的方法。
其中,可执行指令被处理器1001执行时实现以上任一实施例中的方法。其中可执行指令比如是计算机可读指令,在处理器1001执行时,处理器通过与存储器之间所连接的通信线/总线1003读取存储于存储器中的计算机可读指令。
该实施例中的装置的处理器执行操作的具体方式已经在有关该基于神经网络的合同核对方法的实施例中执行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上任一方法实施例中的基于神经网络的合同核对方法。其中计算机可读存储介质例如包括计算机程序的存储器250,上述指令可由服务器的中央处理器270执行以实现上述基于神经网络的合同核对方法。
该实施例中的处理器执行操作的具体方式已经在有关该基于神经网络的合同核对方法的实施例中执行了详细描述,此处将不做详细阐述说明。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (7)
1.一种基于神经网络的合同核对方法,其特征在于,包括:
获取对照合同的文本图像和待核对合同的文本图像;
获取若干样本合同和为每一所述样本合同所设定的若干样本关键字;
通过所述若干样本合同和所对应设定的所述样本关键字训练所述神经网络模型;
当所述神经网络模型收敛,结束所述神经网络模型的训练;
获取所述对照合同的文本信息;
通过神经网络模型对所述文本信息进行关键字预测,得到为所述对照合同所预测的若干所述关键字;
通过对所述对照合同的文本图像进行字符识别,确定所述对照合同的文本内容,并获得所述文本内容中每一字符的像素信息,所述像素信息指示了所述字符在所述对照合同的文本图像中的像素;
在所述对照合同的文本内容中分别进行每一所述关键字的查找;
根据所查找到的所述关键字所在像素,获得所述关键字在所述对照合同的文本图像中的像素信息;
按照所述像素信息,在所述待核对合同的文本图像中提取位于所述像素信息所指示像素的待核对关键字;
对所述关键字和所述待核对关键字进行匹配,确定所述待核对关键字是否与所述关键字一致;
若不一致,在所述待核对合同的文本图像中标注出所述待核对关键字。
2.根据权利要求1所述的方法,其特征在于,所述获取对照合同的文本图像和待核对合同的文本图像,包括:
获取根据所述对照合同所获得的对照合同图像,和获取根据所述待核对合同所获得的待核对合同图像;
对所述对照合同图像进行预处理得到所述对照合同的文本图像,以及对所述待核对合同图像进行预处理,得到所述待核对合同的文本图像。
3.根据权利要求1所述的方法,其特征在于,所述按照所述像素信息,在所述待核对合同的文本图像中提取位于所述像素信息所指示像素的待核对关键字,包括:
在所述待核对合同的文本图像中进行所述像素信息所指示像素的定位;
对位于所定位到像素的字符进行字符识别,获得所述待核对关键字。
4.根据权利要求1所述的方法,其特征在于,所述对所述关键字和所述待核对关键字进行匹配,确定所述待核对关键字是否与所述关键字一致,包括:
对所述关键字中的关键字名称和所述待核对关键字中的关键字名称进行匹配;
若所述关键字名称不相同,则确定所述待核对关键字与所述关键字不一致;以及
若所述关键字名称相同,则继续对所述关键字中的关键字内容和所述待核对关键字中的关键字内容进行匹配;若所述关键字内容不相同,则确定所述待核对关键字与所述关键字不一致。
5.一种基于神经网络的合同核对装置,其特征在于,包括:
获取模块,被配置为:获取对照合同的文本图像和待核对合同的文本图像;
字符识别模块,被配置为:获取若干样本合同和为每一所述样本合同所设定的若干样本关键字;通过所述若干样本合同和所对应设定的所述样本关键字训练所述神经网络模型;当所述神经网络模型收敛,结束所述神经网络模型的训练;获取所述对照合同的文本信息;通过神经网络模型对所述文本信息进行关键字预测,得到为所述对照合同所预测的若干所述关键字;通过对所述对照合同的文本图像进行字符识别,确定所述对照合同的文本内容,并获得所述文本内容中每一字符的像素信息,所述像素信息指示了所述字符在所述对照合同的文本图像中的像素;在所述对照合同的文本内容中分别进行每一所述关键字的查找;根据所查找到的所述关键字所在像素,获得所述关键字在所述对照合同的文本图像中的像素信息;
待核对关键字提取模块,被配置为:按照所述像素信息,在所述待核对合同的文本图像中提取位于所述像素信息所指示像素的待核对关键字;
匹配模块,被配置为:对所述关键字和所述待核对关键字进行匹配,确定所述待核对关键字是否与所述关键字一致;
标注模块,被配置为:若匹配模块确定所述待核对关键字与所述关键字不一致,在所述待核对合同的文本图像中标注出所述待核对关键字。
6.一种基于神经网络的合同核对装置,其特征在于,包括:
处理器;及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至4中任一项所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512895.1A CN109800784B (zh) | 2018-12-11 | 2018-12-11 | 基于神经网络的合同核对方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512895.1A CN109800784B (zh) | 2018-12-11 | 2018-12-11 | 基于神经网络的合同核对方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109800784A CN109800784A (zh) | 2019-05-24 |
CN109800784B true CN109800784B (zh) | 2024-03-19 |
Family
ID=66556597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811512895.1A Active CN109800784B (zh) | 2018-12-11 | 2018-12-11 | 基于神经网络的合同核对方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800784B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570085A (zh) * | 2019-08-02 | 2019-12-13 | 杭州云证网络科技有限公司 | 一种互联网金融借贷管理方法 |
CN110956140B (zh) * | 2019-12-02 | 2022-09-02 | 蚂蚁胜信(上海)信息技术有限公司 | 图像信息提取方法、装置、设备以及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10134141A (ja) * | 1996-10-30 | 1998-05-22 | Nec Corp | 文書照合装置および方法 |
CN105591750A (zh) * | 2015-10-30 | 2016-05-18 | ***股份有限公司 | 电子签名生成方法及*** |
CN106447295A (zh) * | 2016-09-29 | 2017-02-22 | 广州鹤互联网科技有限公司 | 一种签核文件模板生成方法及装置 |
CN106484266A (zh) * | 2016-10-18 | 2017-03-08 | 北京锤子数码科技有限公司 | 一种文本处理方法及装置 |
CN106844337A (zh) * | 2016-12-30 | 2017-06-13 | 全民互联科技(天津)有限公司 | 一种合同缺失条款自动扫描方法及*** |
CN107977665A (zh) * | 2017-12-15 | 2018-05-01 | 北京科摩仕捷科技有限公司 | 一种***中关键信息的识别方法及计算设备 |
CN107992941A (zh) * | 2017-12-28 | 2018-05-04 | 武汉璞华大数据技术有限公司 | 一种合同条款分类方法 |
CN108897727A (zh) * | 2018-05-23 | 2018-11-27 | 平安科技(深圳)有限公司 | 合同备案方法、装置、计算机设备和存储介质 |
-
2018
- 2018-12-11 CN CN201811512895.1A patent/CN109800784B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10134141A (ja) * | 1996-10-30 | 1998-05-22 | Nec Corp | 文書照合装置および方法 |
CN105591750A (zh) * | 2015-10-30 | 2016-05-18 | ***股份有限公司 | 电子签名生成方法及*** |
CN106447295A (zh) * | 2016-09-29 | 2017-02-22 | 广州鹤互联网科技有限公司 | 一种签核文件模板生成方法及装置 |
CN106484266A (zh) * | 2016-10-18 | 2017-03-08 | 北京锤子数码科技有限公司 | 一种文本处理方法及装置 |
CN106844337A (zh) * | 2016-12-30 | 2017-06-13 | 全民互联科技(天津)有限公司 | 一种合同缺失条款自动扫描方法及*** |
CN107977665A (zh) * | 2017-12-15 | 2018-05-01 | 北京科摩仕捷科技有限公司 | 一种***中关键信息的识别方法及计算设备 |
CN107992941A (zh) * | 2017-12-28 | 2018-05-04 | 武汉璞华大数据技术有限公司 | 一种合同条款分类方法 |
CN108897727A (zh) * | 2018-05-23 | 2018-11-27 | 平安科技(深圳)有限公司 | 合同备案方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109800784A (zh) | 2019-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220350822A1 (en) | Machine learning for machine-assisted data classification | |
CN107102746B (zh) | 候选词生成方法、装置以及用于候选词生成的装置 | |
US11335087B2 (en) | Method and system for object identification | |
CN108171203B (zh) | 用于识别车辆的方法和装置 | |
CN108830329B (zh) | 图片处理方法和装置 | |
CN110069401B (zh) | 基于数据建模的***测试异常定位方法及*** | |
CN110175223A (zh) | 一种实现问题生成的方法及装置 | |
CN111539443A (zh) | 一种图像识别模型训练方法及装置、存储介质 | |
CN106485261B (zh) | 一种图像识别的方法和装置 | |
WO2020062803A1 (zh) | 基于模型树算法的异常流量分析方法、装置、电子设备及非易失性可读存储介质 | |
CN110717509B (zh) | 基于树***算法的数据样本分析方法及装置 | |
CN113792207A (zh) | 一种基于多层次特征表示对齐的跨模态检索方法 | |
US9355338B2 (en) | Image recognition device, image recognition method, and recording medium | |
CN110825611A (zh) | 异常程序的分析方法及装置和计算机可读存储介质 | |
CN109800784B (zh) | 基于神经网络的合同核对方法及装置 | |
CN112417318A (zh) | 一种兴趣点的状态确定方法、装置、电子设备及介质 | |
CN111046927B (zh) | 标注数据的处理方法、装置、电子设备及存储介质 | |
US10691314B1 (en) | Connecting users to entities based on recognized objects | |
CN113779257A (zh) | 文本分类模型的解析方法、装置、设备、介质及产品 | |
CN113869063A (zh) | 数据推荐方法、装置、电子设备及存储介质 | |
CN111428806B (zh) | 图像标签确定方法、装置、电子设备及存储介质 | |
CN110738267B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN109842688B (zh) | 一种内容推荐方法、装置、电子设备及存储介质 | |
CN113240480A (zh) | 订单处理方法、装置、电子终端及存储介质 | |
CN112328809A (zh) | 实体分类方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |