CN116228265A - ***风险识别方法、装置和设备 - Google Patents
***风险识别方法、装置和设备 Download PDFInfo
- Publication number
- CN116228265A CN116228265A CN202310302024.1A CN202310302024A CN116228265A CN 116228265 A CN116228265 A CN 116228265A CN 202310302024 A CN202310302024 A CN 202310302024A CN 116228265 A CN116228265 A CN 116228265A
- Authority
- CN
- China
- Prior art keywords
- invoice
- information
- invoice information
- risk
- registration text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012795 verification Methods 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 7
- 230000000737 periodic effect Effects 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010200 validation analysis Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W90/00—Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开中一种***风险识别方法、装置和设备,其中,***风险识别方法包括:获取企业信息和***信息;基于企业信息,下载企业信息对应的资产登记文本;基于***信息和资产登记文本,识别是否存在***重复使用风险。通过本公开的***风险识别方法可以自动识别出***在融资活动中是否存在重复使用风险,从而提高了***风险识别的效率和准确性。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种***风险识别方法、装置和设备。
背景技术
在供应链金融的融资活动中,融资方需要向融资机构提供资产的***,以佐证资产真实存在。但如果***在其它融资过程中使用过,则该融资项目存在较大风险,因此,融资机构查验***是否存在重复使用的风险,对融资项目的风险防控至关重要。
目前,在查验***是否存在重复使用的风险时,主要通过融资机构的资料审核人员登录到中国人民银行征信中心动产融资统一登记公示***(后简称“中登网”),查询融资方的相关的资产登记文字,并通过人工比对的方式逐一核实各项资产登记文本中是否已经登记过此次融资过程中提供的***(即是否存在***重复使用风险)。通过人工方式查验***是否存在重复使用风险,使得查验效果效率低、查验准确性差。
发明内容
有鉴于此,本公开提出了一种***风险识别方法、装置和设备,可以自动完成***风险识别,提高***风险识别的效率和准确性。
根据本公开的第一方面,提供了一种***风险识别方法,包括:
获取企业信息和***信息;
基于所述企业信息,下载所述企业信息对应的资产登记文本;
基于所述***信息和所述资产登记文本,识别是否存在***重复使用风险。
在一种可能的实现方式中,在基于所述***信息和所述资产登记文本,识别是否存在***重复使用风险时,包括:
对所述资产登记文本进行分词处理,得到所述资产登记文本的分词结果;
基于所述***信息和所述分词结果,计算所述***信息与登记文本的关联度;
基于所述***信息与登记文本之间的关联度,识别是否存在***重复使用风险。
在一种可能的实现方式中,所述***信息包括至少两个分级***信息;
在基于所述***信息和所述分词结果,计算所述***信息与登记文本的关联度时,包括:
基于各所述分级***信息和所述分词结果,计算各所述分级***信息与所述登记文本的关联度;
基于各所述分级***信息与所述登记文本的关联度,计算所述***信息与登记文本的关联度。
在一种可能的实现方式中,在获取***信息时,包括:
获取***文件,并基于光字识别算法识别出所述***文件中的初始***信息;
基于预设的验证规则,验证所述初始***信息是否准确;
在验证所述初始***信息准确的情况下,验证所述初始***信息是否真实;
在验证所述初始***信息真实的情况下,将所述初始***信息作为所述***信息。
在一种可能的实现方式中,在验证所述初始***信息不准确或者所述初始***信息不真实的情况下,对所述初始***信息异常进行告警。
在一种可能的实现方式中,在获取企业信息和***信息之后,还包括:验证所述企业信息与所述***信息是否一致;
在验证所述企业信息与所述***信息一致的情况下,在执行基于所述企业信息,下载所述企业信息对应的资产登记文本的操作。
在一种可能的实现方式中,在识别出***存在重复使用风险时,对所述***重复使用风险进行告警。
在一种可能的实现方式中,所述方法还包括:生成所述***风险识别的实例,并将所述实例加入风控任务中心,以根据所述风控任务中心的调度,对所述***进行周期性风险识别。
根据本公开的第二方面,提供了一种***风险识别装置,包括:
第一数据获取模块,用于获取企业信息和***信息;
第二数据获取模块,用于基于所述企业信息,下载所述企业信息对应的资产登记文本;
风险识别模块,用于基于所述***信息和所述资产登记文本,识别是否存在***重复使用风险。
根据本公开的第三方面,提供了一种***风险识别设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本公开第一方面所述的方法。
在本公开中一种***风险识别方法,包括获取企业信息和***信息;基于企业信息,下载企业信息对应的资产登记文本;基于***信息和资产登记文本,识别是否存在***重复使用风险。通过本公开的***风险识别方法可以自动识别出***在融资活动中是否存在重复使用风险,从而提高了***风险识别的效率和准确性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例***风险识别方法的流程图;
图2示出根据本公开一实施例***风险识别方法的示例流程图;
图3示出根据本公开一实施例***风险识别装置的示意性框图;
图4示出根据本公开一实施例***风险识别设备的示意性框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
<方法实施例>
图1示出根据本公开一实施例***风险识别方法的流程图。如图1所示,该方法包括步骤S1100-S1300。
S1100,获取企业信息和***信息。其中,该企业信息可以包括企业的名称和纳税人识别号中的至少一种。该***信息可以包括***号码、***代码、***类型、加密数据、购买方信息、销售方信息、货物名称、数量、单价、金额、税率、税额和开票日期中的至少一种。
在一种可能的实现方式中,在获取***信息时,可以包括以下步骤:
首先,获取***文件,并基于光字识别算法识别出***文件中的初始***信息。其中,***文件为***的电子文件,该***文件的文件类型可以是PDF、可以OFD,可以是PNG,可以是JPG,还可以是其他文件类型,在此不作具体限定。
在一种可能的实现方式中,在获取到***文件后,先对***文件的文件类型进行识别,在识别出***文件的文件类型为PDF或者OFD时,对***文件的文件类型进行转换,以得到PNG类型的***文件;然后,对PNG类型的***文件进行初始***信息的识别。在识别出***文件的文件类型为PNG或JPG时,可以直接基于PNG或JPG类型的***文件进行初始***信息的识别。
其次,基于预设的验证规则,验证初始***信息是否准确。
在一种可能的实现方式中,预设的验证规则可以包括:第一验证规则和第二验证规则和第三验证规则中的至少一种。
在一种可能的实现方式中,第一验证规则可以是:购买方名称长度为1~100位;购买方纳税人识别号长度为15~20位,且仅支持大写字母和数字;购买方地址长度为0~100位;电话长度为0~100位;购买方开户行长度为0~100位;商品名称长度为1~100位;规格型号长度为0~40位;计量单位长度为0~22位中的至少一种。通过第一验证规则可以验证识别出的各项初始***信息是否完整、规范以及识别出的各项***信息是否有效。
在一种可能的实现方式中,第二验证规则可以是:验证***号码、***代码和***类型三者之间是否符合设定的约束关系,在符合设定约束关系的情况下,确定初始***信息准确。其中,设定的约束关系可以是:当***代码为空时,***号码长度为20位;当***代码不为空时,***代码长度为8~12位,***号码长度为8位。
在一种可能的实现方式中,第三验证规则可以是:对加密数据进行解析,验证解析出的数据与初始***信息是否一致,在一致的情况下,确定初始***信息准确。举例来说,对加密数据进行解析后,将得到***号码、***代码、开票日期、金额和税额等解析数据。分别判断解析出的***号码、***代码、开票日期、金额和税额与初始***信息中的***号码、***代码、开票日期、金额和税额是否一致,在均一致的情况下,确定初始***信息准确。
在验证规则包括第一验证规则、第二验证规则和第三验证规则的可实现方式中,可以依次使用第一验证规则、第二验证规则和第三验证规则对初始***信息的准确性进行验证,当初始***信息满足三个验证规则的情况下,确定所述初始***信息准确。当初始***信息不满足任一验证规则的情况下,确定所述初始***信息不准确。
再次,在验证初始***信息准确的情况下,验证初始***信息是否真实。
此处需要说明的是,验证初始***信息是否准确只能确定***信息本身是否存在内容缺失、填写不规范和由于篡改造成的自相矛盾等情况,但并不能确定***是否真实开具过,即***是否为真实开具的***,因此,在验证初始***信息准确的情况下,还要进一步地验证初始***是否真实。
在一种可能的实现方式中,在验证初始***信息是否真实时,基于国家税务总局提供的***真实性查询接口实现。具体地,调用***验真接口(***验真应用程序接口(Application Programming Interface,API)),通过向***验真API的服务端地址发送HTTPS、GET或POST请求,并按照***验真API接口说明在请求中加入相应请求参数来调用***验证API。其中,相应请求参数可以包括校验码、初始***信息中的***代码、***号码、开票日期以及不含税金额中的至少一种。启动***验真服务对初始***信息进行真伪查验,若查验结果为真,则返回真实***信息,其中,返回的真实***信息为JSON(JavaScriptObject Notation)格式的结构化信息数据。也就是说,当收到***验真接口返回的真实***信息的情况下,即可以确定初始***信息真实。返回的真实***信息可以包括:***号码、***代码、***类型、销售方名称、销售方纳税人识别号、销售方联系方式、销售方开户行、购方名称、购方纳税人识别号、购方联系方式、购方开户行、***校验码、***机器码、是否作废、税额合计、价格合计、价税合计、数量合计、更新时间、税局查验次数以及备注信息中的至少一种。
最后,在验证初始***信息真实的情况下,将初始***信息作为***信息。
在该可实现方式中,先由***信息中识别出初始***信息,然后通过本地预设的验证规则验证初始***信息的准确性,在初始***信息准确的情况下,再通过国家税务总局提供的***真实性查询接口进行初始***信息真实性的验证,并在验证真实的情况下,将初始***信息作为用于重复使用风险识别的***信息,这样,可以提高获取有效***信息的效率。
在一种可能的实现方式中,在获取到***信息的情况下,还包括生成***信息的唯一标识,并将***信息以及***信息的唯一标识进行存储,这样,后续便可以基于***信息的唯一标识读取存储的***信息。
在一种可能的实现方式中,在验证初始***信息不准确或者初始***信息不真实的情况下,还包括对初始***信息异常进行告警的操作。具体地,在初始***信息不准确的情况下,将生成反映初始***信息不准确的第一告警消息,并将第一告警消息以广播的方式或者短信的方式发送至指定的外部应用端。在初始***信息不真实的情况下,将生成反映初始***信息不真实的第二告警消息,并将第二告警消息以广播或者短信的方式发送至指定的外部应用端。这样,用户便可以通过外部应用端及时接收告警消息,并根据告警消息对初始***信息异常的***文件进行处理。
此处需要说明的是,在企业向融资机构进行融资时,需要提供与自身企业相关的***信息,因此,在一种可能的实现方式中,在获取企业信息和***信息之后,还包括:验证企业信息与***信息是否一致,在验证企业信息与***信息一致的情况下,在执行基于企业信息,下载企业信息对应的资产登记文本的操作,这样,可以避免由***信息与企业信息不一致造成的***重复使用风险识别错误。
在企业信息包括企业名称和纳税人识别号的可实现方式中,可以验证企业名称和纳税人识别号是否与***信息中购买方信息或者销售方信息一致,在一致的情况下,则确定企业信息与***信息一致。其中,购买方信息包括购买方的企业名称和纳税人识别号,销售方信息包括销售方的企业名称和纳税人识别号。
S1200,基于企业信息,下载企业信息对应的资产登记文本。具体地,先基于企业信息,由中登网中下载与企业信息相关的资产登记文件。然后,基于资产登记文件,生成资产登记文本。其中,资产登记文件的类型可以是PDF,可以是OFD,可以是openXML,还可以是其它文件类型,在此不作具体限定。
在一种可能的实现方式时,在基于资产登记文件,生成资产登记文本时,基于资产登记文件的文件类型实现。具体地,在获取到资产登记文件后,识别资产登记文件的文件类型,选择与资产登记文件的文件类型相匹配算法提取出资产登记文件中的文本内容,生成资产登记文本。
在一种可能的实现方式中,在资产登记文件的文件类型为PDF或者OFD时,选择光字识别算法提取出资产登记文件中的文本内容,得到资产登记文本。
在一种可能的实现方式中,在资产登记文件的文件类型为openXML时,选择标签分析算法提取出资产登记文件中的文本内容,得到资产登记文本。具体地,资产登记文件中的文本中包括各类openXML标签,根据文本的长度匹配相应数量的线程实例对文本中的各类openXML标签进行分类匹配、整理和拼装,以得到资产登记文件对应的文本内容,并基于该文本内容生成资产登记文本。其中,各类openXML标签参见openXML的标准化工作技术委员会TC45提出的“Ecma Office Open XML”标准,标准是针对字处理文档、演示文稿和电子表格的国际化开放标准。通过选取与文本的长度匹配相应数量的线程实例对文本中的各类openXML标签进行分类匹配、整理和拼装,可以资产登记文件的处理速度。
在该可实现方式中,在根据文本的长度匹配相应数量的线程实例对文本中的各类openXML标签进行分类匹配、整理和拼装,以得到资产登记文件对应的文本内容时,可以包括以下步骤:
第一,使用fileLoader读取文件openXmlFile,判断openXmlFile是否属于待处理的openXML格式。其中,待处理的openXML格式包括:xlsx、docx。
第二,选用与penXmlFile的格式相匹配的算法,对openXmlFile文件进行处理以得到资产登记文本对应的文本内容。
下面以xlsx格式的penXmlFile为例,对第二步进行详细说明。
首先,解压缩openXmlFile为openXmlDirectory文件夹,按照目录规则获取相应XML文件。其中,xl/worksheets/sheet1.xml 为表结构文件,xl/sharedStrings.xml 为字符串共享存储文件。读取表结构文件为sheet1,读取字符串共享存储文件为sharedString。
其次,读取sheet1为Xml结构sheetXml1,读取sharedString为Xml结构sharedStringXml。
最后,获取sheetXml1的行数组sheetXml1Rows[],处理行数组的数据为sheetXmlStr。具体地,1)获取行内所有单元格cells。2)根据单元格类型选择相应的值处理办法。当单元格类型为s即字符串类型时,从sharedStringXml中按下标索引获取对应文本并返回;当单元格类型为n即数字类型时,直接获取v即value值返回;当单元格类型为其他类型时,正则去除所有xml标签,拼接剩余内容并返回。3)汇总行内所有单元格文本,通过半角逗号隔开,汇总成行文本字符串。4)为行文本尾部加入行下标补正编号。5)汇总行数组文本,通过"|"隔开,汇总成表文本字符串(即资产登记文本对应的文本内容)。
此处需要说明的是,在资产登记文件的文件类型为文本时,直接将该资产登记文件作为资产登记文本。
在得到资产登记文本后,可以将所有资产登记文本缓存至本地服务器中。其中,资产登记文本在本地服务器中的缓存时间可以根据具体的应用场景进行设置。例如,可以将资产登记文本在本地服务器中的缓存时间设置为4小时。
S1300,基于***信息和资产登记文本,识别是否存在***重复使用风险。
在一种可能的实现方式中,在基于***信息和资产登记文本,识别是否存在***重复使用风险时,可以包括以下步骤:
第一,对资产登记文本进行分词处理,得到资产登记文本的分词结果。具体地,可以采用自然语言处理工具对资产登记文本进行分词处理,从而得到包括多个分词的分词结果。
第二,基于***信息和分词结果,计算***信息与登记文本的关联度。
在一种可能的实现方式中,在基于***信息和分词结果,计算***信息与登记文本的关联度时,基于预设的***信息分级实现。
在一种可能的实现方式中,预设的***信息分级可以是至少两级。例如,可以将***信息分为二级,其中,将***信息中的***号码作为第一级***信息,将***信息中的金额作为第二级***信息。又如,还可以将***信息分为三级,其中,可以将***信息中的***号码作为第一级***信息,将***信息中的购买方纳税人识别号作为第二级***信息,将***信息中的购买方名称作为第三级***信息。
在该可实现方式中,在基于***信息和分词结果,计算***信息与登记文本的关联度时,可以包括以下步骤:
首先,基于各分级***信息和分词结果,计算各分级***信息与登记文本的关联度。
举例来说,预设的***信息分级分为N级,分别为第一级***信息、第二级***信息,…,第N级***信息。在依次计算各级***信息与登记文本的关联度时,包括:先基于第一级***信息和分词结果,计算第一级***信息与登记文本的关联度。具体地,可以将第一级***信息和分词结果输入至TF-IDF模型,计算出第一级***信息在登记文本中第一词频,并计算第一词频与预设的一级权重的乘积,将该乘积作为第一级***信息与登记文本的关联度。再基于第二级***信息和分词结果,计算第二级***信息与登记文本的关联度。具体地,将可以将第二级***信息和分词结果输入至TF-IDF模型,计算出第二级***信息在登记文本中第二词频,并计算第二词频、第二词频的前一词频(即第一词频)和预设的二级权重的乘积,并将该乘积作为第二级***信息与登记文本的关联度。接着,依次计算第三级***信息至第N级***信息与登记文本的关联度。具体地计算过程参见第二级***信息与登记文本的关联度的计算过程,在此不再赘述。
此处需要说明的是,各级***信息对应的预设权重可以根据具体需求进行配置,在此不作具体限定。例如,在***信息分为二级,***信息中的***号码作为第一级***信息,***信息中的金额作为第二级***信息的可实现方式中,可以将一级权重设置为0.85,将二级权重设置为0.89。又如,在***信息分为三级,***信息中的***号码作为第一级***信息,***信息中的购买方纳税人识别号作为第二级***信息,***信息中的购买方名称作为第三级***信息的可实现方式中,各级***信息对应的权重可以依次设置为0.85,0.82,0.63。
其次,基于各分级***信息与登记文本的关联度,计算***信息与登记文本的关联度。具体地,可以将各级***信息与登记文本的关联度的平均值作为***信息与登记文本之间的关联度。
第三,基于***信息与登记文本之间的关联度,识别是否存在***重复使用风险。具体地,可以预设配置风险识别阈值,在***信息与登记文本之间的关联度大于风险识别阈值的情况下,确定该***信息对应的***文件存在重复使用风险。其中,风险识别阈值可以根据具体的应用需求进行配置,例如,可以将风险识别阈值设置为0.85。
在一种可能的实现方式中,在识别出***存在重复使用风险时,对***重复使用风险进行告警。具体地,在识别出***存在重复使用风险时,可以生成反映***存在重复使用风险的第三告警消息,并将第三告警消息以广播或者短信的方式发送至指定的外部应用端。这样,用户便可根据外部应用端接收到的第三告警消息对存在重复使用的***文件进行处理。
在一种可能的实现方式中,***风险识别方法还包括:生成***风险识别的实例,并将实例加入风控任务中心,以根据风控任务中心的调度,对***进行周期性风险识别。进一步地,在***所在的融资活动结束后,可以从风控任务中心中移除实例,以结束对***的周期性风险识别。通过本实施例,可以在整个融资周期内对***的重复使用风险进行识别,从而提高融资周期内的风险防控能力。
在本公开中提供了一种***风险识别方法,包括:获取企业信息和***信息;基于企业信息,下载企业信息对应的资产登记文本;基于***信息和资产登记文本,识别是否存在***重复使用风险。通过本公开的***风险识别方法可以自动识别出***在融资活动中是否存在重复使用的风险,从而提高了***风险识别的效率和准确性。
<方法示例>
图2示出根据本公开一实施例的***风险识别方法的示例的流程图。该示例由外部应用端和***风险识别***交互实施。其中,***风险识别***中包括***风控服务模块和基础服务模块。如图2所示,该方法包括步骤S2001-S2012。
S2001,通过外部应用端向***风控服务模块发送***验证请求,其中,该***验证请求中包括融资过程中使用的***文件。
S2002,***风控服务模块在接收到***验证请求后,向基础服务模块发送OCR识别请求,其中,该OCR识别请求中包括步骤S2001中的***文件。
S2003,基础服务模块在接收到OCR识别请求后,由OCR识别请求中解析出***文件并对***文件进行文件类型转换,采用光字识别算法由***文件中识别出***信息。
S2004,基础服务模块将识别出的***信息发送至***风控服务模块。
S2005,***风控服务模块在接收到***信息后,对***信息的准确性和真实性进行验证。
S2006,***风控服务模块将***信息以及***信息的准确性和真实性验证结果反馈至外部应用端,并对***的准确性和真实性异常进行告警。同时,对于准确且真实的***信息进行存储,其中,存储的每一***信息均对应设置由唯一***标识,这样,后续便可以基于唯一的***标识获取对应的***信息。
S2007,通过外部应用端向***风控服务模块发送的***查重请求,其中,该***查重请求中包括企业信息和融资使用的***的***标识。
S2008,***风控服务模块在接收到***查重请求后,将该***查重请求发送至基础服务模块。
S2009,基础服务模块在接收到***查重请求后,由***查重请求中解析出企业信息和***标识信息,并基于企业信息由中登网拉去与企业信息相关的资产登记文件。
S2010,基础服务模块将企业信息、***标识信息以及资产登记文件发送至***风控服务模块。
S2011,***风控服务模块,基于***标识信息读取对应的***信息,将资产登记文件转换成资产登记文本,并基于***信息和资产登记文本,识别是否存在***重复使用风险。
S2012,***风控服务模块将***重复使用风险的识别结果反馈至外部应用端,并对***重复使用风险进行告警。
在该方法示例中,***风险识别方法还包括以下步骤:
由***风控服务模块将上述S2011-S2012封装成实例,加入风控任务中心,并根据风控任务中心的调度,对***进行周期性风险识别。其中,每个实例对应设置由唯一的实例标识。
通过外部应用端向***风控服务模块发送的结束***查重请求,其中,该结束***查重请求中包括结束实例标识,***风控服务模块在接收到该结束***查重请求时,基于实例标识移除风控任务中心的实例,以结束对该***风险识别。
<装置实施例>
图3示出根据本公开一实施例***风险识别装置的示意性框图。如图3所示,***风险识别装置100包括:
第一数据获取模块110,用于获取企业信息和***信息;
第二数据获取模块120,用于基于所述企业信息,下载所述企业信息对应的资产登记文本;
风险识别模块130,用于基于所述***信息和所述资产登记文本,识别是否存在***重复使用风险。
<设备实施例>
图4示出根据本公开一实施例***风险识别设备的示意性框图。如图4所示,***风险识别设备200包括:处理器210以及用于存储处理器210可执行指令的存储器220。其中,处理器210被配置为执行可执行指令时实现前面任一所述的***风险识别方法。
此处,应当指出的是,处理器210的个数可以为一个或多个。同时,在本公开实施例的***风险识别设备200中,还可以包括输入装置230和输出装置240。其中,处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的***风险识别方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块,从而执行***风险识别设备200的各种功能应用及数据处理。
输入装置230可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种***风险识别方法,其特征在于,包括:
获取企业信息和***信息;
基于所述企业信息,下载所述企业信息对应的资产登记文本;
基于所述***信息和所述资产登记文本,识别是否存在***重复使用风险。
2.根据权利要求1所述的方法,其特征在于,在基于所述***信息和所述资产登记文本,识别是否存在***重复使用风险时,包括:
对所述资产登记文本进行分词处理,得到所述资产登记文本的分词结果;
基于所述***信息和所述分词结果,计算所述***信息与登记文本的关联度;
基于所述***信息与登记文本之间的关联度,识别是否存在***重复使用风险。
3.根据权利要求2所述的方法,其特征在于,所述***信息包括至少两个分级***信息;
在基于所述***信息和所述分词结果,计算所述***信息与登记文本的关联度时,包括:
基于各所述分级***信息和所述分词结果,计算各所述分级***信息与所述登记文本的关联度;
基于各所述分级***信息与所述登记文本的关联度,计算所述***信息与登记文本的关联度。
4.根据权利要求1所述的方法,其特征在于,在获取***信息时,包括:
获取***文件,并基于光字识别算法识别出所述***文件中的初始***信息;
基于预设的验证规则,验证所述初始***信息是否准确;
在验证所述初始***信息准确的情况下,验证所述初始***信息是否真实;
在验证所述初始***信息真实的情况下,将所述初始***信息作为所述***信息。
5.根据权利要求4所述的方法,其特征在于,在验证所述初始***信息不准确或者所述初始***信息不真实的情况下,对所述初始***信息异常进行告警。
6.根据权利要求1所述的方法,其特征在于,在获取企业信息和***信息之后,还包括:验证所述企业信息与所述***信息是否一致;
在验证所述企业信息与所述***信息一致的情况下,在执行基于所述企业信息,下载所述企业信息对应的资产登记文本的操作。
7.根据权利要求1-6任一项所述的方法,其特征在于,在识别出***存在重复使用风险时,对所述***重复使用风险进行告警。
8.根据权利要求1-6任一项所述的方法,其特征在于,还包括:生成***风险识别的实例,并将所述***风险识别的实例加入风控任务中心,以根据所述风控任务中心的调度,对***进行周期性风险识别。
9.一种***风险识别装置,其特征在于,包括:
第一数据获取模块,用于获取企业信息和***信息;
第二数据获取模型,用于基于所述企业信息,下载所述企业信息对应的资产登记文本;
风险识别模块,用于基于所述***信息和所述资产登记文本,识别是否存在***重复使用风险。
10.一种***风险识别设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1至8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310302024.1A CN116228265A (zh) | 2023-03-24 | 2023-03-24 | ***风险识别方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310302024.1A CN116228265A (zh) | 2023-03-24 | 2023-03-24 | ***风险识别方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116228265A true CN116228265A (zh) | 2023-06-06 |
Family
ID=86582579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310302024.1A Pending CN116228265A (zh) | 2023-03-24 | 2023-03-24 | ***风险识别方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116228265A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118152548A (zh) * | 2024-05-13 | 2024-06-07 | 杭州律途科技有限公司 | 基于问答式图片文本提取模型的医保数据溯源方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2606400Y (zh) * | 2002-02-22 | 2004-03-10 | 何长杰 | 鉴别***真伪的*** |
WO2008108861A1 (en) * | 2006-06-12 | 2008-09-12 | Datacert, Inc | Electronic document processing |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106339378A (zh) * | 2015-07-07 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词导向的主题网络爬虫的数据搜集方法 |
CN109472918A (zh) * | 2018-10-12 | 2019-03-15 | 深圳壹账通智能科技有限公司 | ***验证方法、融资审核方法、装置、设备及介质 |
CN109523685A (zh) * | 2018-09-04 | 2019-03-26 | 航天信息股份有限公司 | 一种基于ofd格式文件的电子***查验方法及*** |
WO2020119287A1 (zh) * | 2018-12-13 | 2020-06-18 | 阿里巴巴集团控股有限公司 | 基于区块链的***创建方法及装置、电子设备 |
CN112069808A (zh) * | 2020-09-28 | 2020-12-11 | 深圳壹账通智能科技有限公司 | 融资风控方法、装置、计算机设备及存储介质 |
CN115018613A (zh) * | 2022-04-20 | 2022-09-06 | 中银金融科技有限公司 | 报告分析方法、装置、设备、存储介质及产品 |
-
2023
- 2023-03-24 CN CN202310302024.1A patent/CN116228265A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2606400Y (zh) * | 2002-02-22 | 2004-03-10 | 何长杰 | 鉴别***真伪的*** |
WO2008108861A1 (en) * | 2006-06-12 | 2008-09-12 | Datacert, Inc | Electronic document processing |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106339378A (zh) * | 2015-07-07 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词导向的主题网络爬虫的数据搜集方法 |
CN109523685A (zh) * | 2018-09-04 | 2019-03-26 | 航天信息股份有限公司 | 一种基于ofd格式文件的电子***查验方法及*** |
CN109472918A (zh) * | 2018-10-12 | 2019-03-15 | 深圳壹账通智能科技有限公司 | ***验证方法、融资审核方法、装置、设备及介质 |
WO2020119287A1 (zh) * | 2018-12-13 | 2020-06-18 | 阿里巴巴集团控股有限公司 | 基于区块链的***创建方法及装置、电子设备 |
CN112069808A (zh) * | 2020-09-28 | 2020-12-11 | 深圳壹账通智能科技有限公司 | 融资风控方法、装置、计算机设备及存储介质 |
CN115018613A (zh) * | 2022-04-20 | 2022-09-06 | 中银金融科技有限公司 | 报告分析方法、装置、设备、存储介质及产品 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118152548A (zh) * | 2024-05-13 | 2024-06-07 | 杭州律途科技有限公司 | 基于问答式图片文本提取模型的医保数据溯源方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887153B (zh) | 一种财税处理方法和处理*** | |
US11195008B2 (en) | Electronic document data extraction | |
CN108876213B (zh) | 基于区块链的产品管理方法、装置、介质及电子设备 | |
CN109062872B (zh) | 一种对不同格式报关文件进行统一处理的方法 | |
US9691065B2 (en) | Automated transactions clearing system and method | |
CN116228265A (zh) | ***风险识别方法、装置和设备 | |
CN110599319B (zh) | 自动审计方法、装置、终端及存储介质 | |
CN113918583B (zh) | 一种业务单据中审核节点风险等级的确定方法及确定装置 | |
CN115249007A (zh) | 一种基于电子投标文件比对的围串标行为检测方法及装置 | |
CN111582786A (zh) | 基于机器学习的快递单号识别方法、装置和设备 | |
CN117010779A (zh) | 基于智能编码的海关进出口申报方法、***、设备及介质 | |
CN115713399B (zh) | 一种结合第三方数据源的用户信用评估*** | |
CN114861622A (zh) | 跟单信用证生成方法、装置、设备、存储介质和程序产品 | |
US20130300562A1 (en) | Generating delivery notification | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN111223230A (zh) | 一种基于crnn算法的***文件真伪识别方法 | |
TWI768744B (zh) | 參考單據產生方法及系統 | |
CN117809325B (zh) | 一种全量***查验认证管理方法及*** | |
US20240143919A1 (en) | Systems and methods for extracting data from documents | |
CN113887955B (zh) | 业务单据的审查方法、装置、电子设备及可读存储介质 | |
CN113469758B (zh) | 区块链与税务***的开票方法、装置、设备和存储介质 | |
CN117541180A (zh) | 一种***处理方法、装置及介质 | |
CN116384854A (zh) | 物流分发费账单管理方法、装置、设备及存储介质 | |
CN116629230A (zh) | 单据处理方法、装置、设备及存储介质 | |
CN112861613A (zh) | 一种电子***版式文件的识别查验方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |