CN111782917A - 用于对金融处罚数据进行可视化分析的方法及装置 - Google Patents

用于对金融处罚数据进行可视化分析的方法及装置 Download PDF

Info

Publication number
CN111782917A
CN111782917A CN202010842522.1A CN202010842522A CN111782917A CN 111782917 A CN111782917 A CN 111782917A CN 202010842522 A CN202010842522 A CN 202010842522A CN 111782917 A CN111782917 A CN 111782917A
Authority
CN
China
Prior art keywords
penalty
information field
financial
field
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010842522.1A
Other languages
English (en)
Inventor
苏豫陇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010842522.1A priority Critical patent/CN111782917A/zh
Publication of CN111782917A publication Critical patent/CN111782917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本说明书实施例提供了一种用于对金融处罚数据进行可视化分析的方法及装置。在该方法中,利用网络爬虫从金融监管网站爬取金融处罚信息,对所爬取的金融处罚信息进行结构化解析,以得到处罚信息字段对应的处罚字段数据;再对所得到的处罚字段数据进行聚类分析以得到各个处罚信息字段对应的处罚统计量,以及根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。

Description

用于对金融处罚数据进行可视化分析的方法及装置
技术领域
本说明书实施例涉及数据处理技术领域,具体地,涉及一种用于对金融处罚数据进行可视化分析的方法及装置。
背景技术
金融监管机构对各个金融机构进行监督管理,以确保各个金融机构合法合规地运作。当金融机构出现违规运作时,金融监管机构会对违规的金融机构实施处罚,并在官网上对处罚案件进行公示。
金融监管机构公示的处罚案件中包括有处罚事由、处罚金额、处罚金额等各种处罚信息,这些处罚信息在一定程度上可以反映出当前或近期的金融处罚力度、处罚的金融业务范围等,而这些都与金融机构的合规风险业务息息相关。因此,如何基于公开的金融处罚信息进行针对合规风险的数据分析是亟待解决的问题。
发明内容
鉴于上述,本说明书实施例提供了一种用于对金融处罚数据进行可视化分析的方法及装置。在该方法及装置中,利用网络爬虫从金融监管网站爬取金融处罚信息,并对所爬取的金融处罚信息进行结构化解析,再对所得到的处罚字段数据进行聚类分析以得到针对各个处罚信息字段的处罚统计量,以及根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。通过上述方法及装置,实现了基于金融处罚信息进行的针对合规风险的可视化分析。
根据本说明书实施例的一个方面,提供了一种用于对金融处罚数据进行可视化分析的方法,包括:利用网络爬虫从金融监管网站爬取金融处罚信息;对所爬取的金融处罚信息进行结构化解析,以得到处罚信息字段对应的处罚字段数据;对所得到的处罚字段数据进行聚类分析,以得到各个处罚信息字段对应的处罚统计量;以及根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。
可选地,在上述方面的一个示例中,每种处罚信息字段包括多种字段数据类别,根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图包括:在处罚信息字段中的字段数据类别对应的处罚统计量大于处罚量阈值时,确定针对该处罚信息字段存在合规风险;以及根据存在合规风险的处罚信息字段对应的处罚统计量生成针对该处罚信息字段的预警图。
可选地,在上述方面的一个示例中,处罚信息字段中的各个字段数据类别对应的处罚量阈值不同。
可选地,在上述方面的一个示例中,还包括:将存在合规风险的处罚信息字段对应的处罚统计量提供给经过训练的合规风险预测模型,以预测得到针对该处罚信息字段的合规风险趋势图。
可选地,在上述方面的一个示例中,还包括:将所生成的预警图推送给相关人员。
可选地,在上述方面的一个示例中,将所生成的预警图推送给相关人员包括:根据处罚信息字段和推送关键词将所生成的预警图推送给相关人员。
可选地,在上述方面的一个示例中,所述处罚信息字段包括处罚文书号、监管机构名称、被处罚机构名称、处罚时间、处罚地区、处罚金额和处罚事由中的至少一种。
根据本说明书实施例的另一方面,还提供一种用于对金融处罚数据进行可视化分析的装置,包括:信息爬取单元,利用网络爬虫从金融监管网站爬取金融处罚信息;信息结构化解析单元,对所爬取的金融处罚信息进行结构化解析,以得到处罚信息字段对应的处罚字段数据;数据聚类分析单元,对所得到的处罚字段数据进行聚类分析,以得到各个处罚信息字段对应的处罚统计量;以及预警图生成单元,根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。
可选地,在上述方面的一个示例中,每种处罚信息字段包括多种字段数据类别,所述预警图生成单元:在处罚信息字段中的字段数据类别对应的处罚统计量大于处罚量阈值时,确定针对该处罚信息字段存在合规风险;以及根据存在合规风险的处罚信息字段对应的处罚统计量生成针对该处罚信息字段的预警图。
可选地,在上述方面的一个示例中,还包括:风险趋势预测单元,将存在合规风险的处罚信息字段对应的处罚统计量提供给经过训练的合规风险预测模型,以预测得到针对该处罚信息字段的合规风险趋势图。
可选地,在上述方面的一个示例中,还包括:预警图推送单元,将所生成的预警图推送给相关人员。
可选地,在上述方面的一个示例中,所述预警图推送单元:根据处罚信息字段和推送关键词将所生成的预警图推送给相关人员。
根据本说明书实施例的另一方面,还提供一种电子设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于对金融处罚数据进行可视化分析的方法。
根据本说明书实施例的另一方面,还提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于对金融处罚数据进行可视化分析的方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了本说明书实施例的用于对金融处罚数据进行可视化分析的方法的一个示例的流程图。
图2示出了本说明书实施例提供的得到的处罚信息字段对应的处罚字段数据的一个示例的示意图。
图3A示出了本说明书实施例的预警图的一个示例的示意图。
图3B示出了本说明书实施例的预警图的另一个示例的示意图。
图4示出了本说明书实施例的用于对金融处罚数据进行可视化分析的装置的一个示例的方框图。
图5示出了本说明书的实施例的实现用于对金融处罚数据进行可视化分析的方法的电子设备的方框图。
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本说明书中,术语“合规”是指金融机构的经营活动与法律、规则和准则相一致。术语“合规风险”是指金融机构未能遵循法律法规、监管要求、规则、自律性组织制定的有关准则、已经适用于银行自身业务活动的行为准则,而可能遭受法律制裁或监管处罚、重大财务损失或声誉损失的风险。
图1示出了本说明书实施例的用于对金融处罚数据进行可视化分析的方法100的一个示例的流程图。
如图1所示,在110,利用网络爬虫从金融监管网站爬取金融处罚信息。
在本说明书实施例中,金融监管网站可以是指定的,比如,中国人民银行、中国***以及中国银***的官方网站。金融处罚信息是公示的金融监管机构对金融机构的处罚信息,公示的金融处罚信息可以包括网页文本、word、pdf、excel、图片等格式的文件。
在本说明书实施例中,网络爬虫可以包括通用网络爬虫、聚焦网络爬虫等。在一个示例中,网络爬虫可以爬取各个金融监管网站中的所有信息,所有信息包括各个金融监管网站的所有网页和附件资源,这些网页和附件资源中包括金融处罚信息以及其他信息。在爬取到本地后再对从所爬取的信息中筛选出金融处罚信息。在该示例中,网络爬虫仅需执行爬取操作,无需同时执行信息筛选等操作,提高了网络爬虫的爬取效率。
在另一个示例中,网络爬虫可以只针对各个金融监管网站中的金融处罚信息进行爬取,金融处罚信息可以是来源于网页、附件等。比如,网络爬虫可以通过正则化表达式可以将网页中的金融处罚信息进行筛选并爬取。这样,减少了网络爬虫从各个金融监管网站的爬取量,而且网络爬虫爬取的信息基本上是金融处罚信息,从而网络爬虫爬取的信息质量更高。
网络爬虫可以在指定时间爬取金融处罚信息,指定时间可以是指定时间点或者指定时间间隔。
当金融监管网站上包括有不同时间点发布的多个金融处罚信息时,网络爬虫在每次爬取时可以确定上一次爬取的时间点,然后爬取上一次爬取时间点到当前时间点之间的金融处罚信息。这样可以避免重复爬取,提高了网络爬虫的爬取效率。
在本说明书实施例中,金融处罚只由特定的金融监管机构作出,金融处罚信息也由作出处罚的金融监管机构公示,金融监管网站上公示的金融处罚信息一般是首次发布,其他网站上的金融处罚信息可能是从金融监管网站转载的相同的金融处罚信息。因此,本说明书实施例中有针对性地从指定的金融监管网站爬取金融处罚信息,无需全网爬取,不仅减少了爬取的信息量,网络爬虫爬取的效率更高,而且从金融监管网站爬取的金融处罚信息是首次发布,避免从其他网站爬取重复的金融处罚信息,从而提高了爬取的信息质量。
在爬取到金融处罚信息后,在120,对所爬取的金融处罚信息进行结构化解析,以得到处罚信息字段对应的处罚字段数据。
在本说明书实施例中,处罚信息字段用于表示结构化字段,可以包括处罚文书号、监管机构名称、被处罚机构名称、处罚时间、处罚地区、处罚金额和处罚事由等字段中的至少一种。处罚信息字段对应的处罚字段数据是处罚信息字段所表示的字段中存储的结构化数据。
处罚文书号与金融处罚信息对应,用于唯一标识金融处罚信息。处罚事由可以包括信贷管理违规、案件防控管理不足、表外业务违规、内控管理不到位、授信管理违规、员工行为违规、违规调节监管指标或监管指标不达标以及违规开展投资业务等。
在对金融处罚信息进行结构化解析之前,可以先对金融处罚信息进行预处理。具体地,可以先将各种格式的金融处罚信息转换成统一格式的文本信息,这样便于后续从各个金融处罚信息中提取明细数据。然后,对各个文本信息进行语义识别处理,将每个文本信息整理成对应的明细数据,明细数据都是来自于对应的文本信息中的具体且详细的数据。
例如,一条金融处罚信息的内容是“A银行B地区支行因为非标理财投资信息披露不充分,违反了《商业银行理财产品销售管理办法》第十三条,《关于规范商业银行理财业务投资运作有关问题的通知》第三条,《中华人民共和国银行业监督管理法》第四十六条,被罚款人民币20万元”,经过上述预处理得到的该金融处罚信息对应的明细数据包括:A银行、B地区支行、非标理财投资信息披露不充分、罚款人民币20万元。
再对预处理得到的明细数据进行结构化解析,将明细数据整理成结构化数据。针对一个金融处罚信息转换得到的明细数据,经过整理后的结构化数据可以包括:标题、发布时间、发布单位名称、处罚文书号、监管机构名称、被处罚机构名称、处罚时间、处罚地区、处罚金额和处罚事由等。上述举例中,对所得到的明细数据进行结构化解析,所得到的结构化数据包括:被处罚机构名称:A银行B地区支行,处罚地区:B地区,处罚事由:非标理财投资信息披露不充分,处罚金额:20万元人民币。
每个金融处罚信息可以对应得到多个结构化数据,每个结构化数据对应一个结构化字段。在结构化解析后,从结构化解析后的结构化数据中筛选出处罚信息字段对应的结构化数据(即,处罚字段数据)。
以图2为例,图2示出了本说明书实施例提供的得到的处罚信息字段对应的处罚字段数据的一个示例200的示意图。
如图2所示,处罚信息字段包括处罚文书号、监管机构名称、被处罚机构名称、处罚时间、处罚地区、处罚金额和处罚事由,每一条金融处罚信息对应的一组处罚字段数据,每组处罚字段数据都包括上述7种处罚信息字段对应的处罚字段数据。
具体地,对于金融处罚信息1,所得到的处罚信息字段对应的处罚字段数据包括:处罚文书号对应的处罚字段数据是[2001]第3号,监管机构名称对应的处罚字段数据是中国人民银行,被处罚机构名称对应的处罚字段数据是A银行B支行,处罚时间对应的处罚字段数据是2001年2月1日,处罚地区对应的处罚字段数据是B地区,处罚金额对应的处罚字段数据是20万人民币,处罚事由对应的处罚字段数据是非标理财投资信息披露不充分。
对于金融处罚信息2,所得到的处罚信息字段对应的处罚字段数据包括:处罚文书号对应的处罚字段数据是[2006]第4号,监管机构名称对应的处罚字段数据是中国银监会,被处罚机构名称对应的处罚字段数据是C银行D支行,处罚时间对应的处罚字段数据是2006年7月6日,处罚地区对应的处罚字段数据是D地区,处罚金额对应的处罚字段数据是50万人民币,处罚事由对应的处罚字段数据是贷后管理失职。
在一个示例中,可以将所得到的各个处罚信息字段对应的处罚字段数据回流至关系数据库中进行存储,以便于线上的前端设备实时获取各个处罚信息字段的处罚字段数据,并基于所获取的处罚字段数据进行可视化分析,实时地得到可视化分析图。
接着,在130,对所得到的处罚字段数据进行聚类分析,以得到各个处罚信息字段对应的处罚统计量。
在一个示例中,针对所得到的处罚字段数据对应的所有处罚信息字段都进行聚类分析。针对每个处罚信息字段,将该处罚信息字段对应的所有处罚字段数据进行分类处理,将属于同一字段数据类别的处罚字段数据进行聚合处理,然后统计处罚信息字段中每一字段数据类别包括的处罚字段数据的数量。
例如,在所得到的处罚字段数据中包括的处罚信息字段有处罚文书号、监管机构名称、被处罚机构名称、处罚时间、处罚地区、处罚金额和处罚事由,则针对上述每一种处罚信息字段都进行聚类分析。以针对处罚地区进行聚类分析为例,处罚地区包括所有省份,则根据处罚地区对应的处罚字段数据来统计每个省份的处罚统计量,所有省份的处罚统计量即为针对处罚地区的处罚统计量。
在该示例中,对处罚字段数据对应的所有处罚信息字段都进行聚类分析,便于后续进行可视化分析时能够实时获取各个处罚信息字段对应的处罚统计量,无需再重新进行聚类分析,提高了可视化分析的时效性。
在另一个示例中,可以仅针对指定的处罚信息字段进行聚类分析,得到指定的处罚信息字段对应的处罚统计量。指定的处罚信息字段可以根据合规风险所针对的关注点来确定。比如,合规风险所针对的关注点可以是处罚地区的合规风险、各种处罚事由的合规风险等。例如,可视化分析所针对的合规风险是处罚地区的合规风险,可视化分析的目的是对于存在合规风险的地区予以警示,基于此,指定的处罚信息字段包括处罚地区。
进一步地,对于一个处罚信息字段,若该处罚信息字段对应有多种字段数据类别的处罚字段数据,则可以仅针对其中指定的字段数据类别的处罚字段数据进行聚类分析,得到指定的字段数据类别对应的处罚统计量。
例如,在所得到的处罚字段数据中,处罚地区对应的字段数据类别包括浙江、河南、山东、陕西等地区,可以将浙江、河南以及山东三个地区作为指定的字段数据类别,然后对该三个地区对应的处罚字段数据进行聚类分析,得到这三个地区对应的处罚统计量。
在上述示例中,仅对指定的处罚字段数据进行聚类分析,减少了聚类分析的数据量,提高了聚类分析的效率,从而生成预警图的效率更高,提升了可视化分析的时效性。
在140,根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。
预警图可以采用饼图、直方图、折线图和地图等展示图中的任一种。在一个示例中,可以根据预警图所针对的处罚信息字段来确定预警图采用的展示图类型。比如,当预警图针对多个处罚信息字段时,每个处罚信息字段对应一个维度以及处罚统计量对应的一个维度,则预警图需要从至少三个维度来展示多个处罚信息字段对应的处罚统计量,基于此,预警图可以采用能够展示至少三个维度的直方图或折线图等。
在另一个示例中,还可以根据预警图所需展示的数据比对形式来确定预警图采用的展示图类型,数据比对形式包括比例占比形式、梯度形式、连续变化形式、地区比对形式等。在预警图需要展示数据的占比时,可以采用饼图;在预警图需要用梯度形式展示数据的差异性时,可以采用直方图;在预警图需要用连续变化形式来展示数据的变化趋势时,可以采用折线图,在预警图需要用地区比对形式展示与地区相关的数据时,可以采用地图。
所生成的每个预警图可以针对一种或多种处罚信息字段。以图3A和3B为例,图3A和3B示出了本说明书实施例的预警图的示例的示意图。图3A所示的预警图是针对处罚地区的处罚统计量,图3B所示的预警图是针对处罚事由中的金融统计或报送违规、处罚金额以及处罚时间。
预警图可以反映所针对的处罚信息字段中的各个字段数据类别对应的处罚统计量以及变化态势,对于预警图反映出的处罚统计量较大的字段数据类别,或者对应的处罚统计量在持续上升的字段数据类别,表示涉及该字段数据类别的业务有存在合规风险的可能性,在合规中涉及该字段数据类别的业务需要引起重视。
在本说明书实施例的一个示例中,每种处罚信息字段可以包括多种字段数据类别。例如,处罚信息字段“处罚地区”可以包括浙江、河南、山东等字段数据类别,处罚信息字段“处罚事由”可以包括授信管理违规、表外业务违规、信贷管理违规等字段数据类别。
所得到的处罚信息字段对应的处罚统计量可以包括该处罚信息字段中的各个字段数据类别对应的处罚统计量,将各个字段数据类别对应的处罚统计量与对应的处罚量阈值进行比较。
在该示例中,处罚量阈值可以是指定的。在一个示例中,一个处罚信息字段对应一个处罚量阈值,不同的处罚信息字段对应的处罚量阈值可以不同。属于同一个处罚信息字段的各个字段数据类别与相同的处罚量阈值进行比较。在另一个示例中,一个处罚信息字段可以对应多个处罚量阈值,不同的字段数据类别对应的处罚量阈值可以不同。在该示例中,可以根据不同的字段数据类别有针对性地设定不同的处罚量阈值,处罚量阈值可以根据字段数据类别的特性来设定,从而使得后续确定合规风险更准确。
例如,针对处罚地区(处罚信息字段),东部地区的省份(对应的字段数据类别)拥有的金融机构相比于西部地区的省份(对应的字段数据类别)会更多,因此,东部地区的各省份对应的处罚量阈值会更大,西部地区的各省份对应的处罚量阈值会更小。
基于各个字段数据类别对应的处罚统计量与处罚量阈值的比较结果,来确定针对处罚信息字段是否存在合规风险。
在一个示例中,当处罚信息字段中存在至少一个字段数据类别对应的处罚统计量大于处罚量阈值时,可以确定针对该处罚信息字段存在合规风险。
在另一个示例中,统计处罚信息字段中对应的处罚统计量大于处罚量阈值的字段数据类别的数量,当所统计的数量大于指定数量阈值时,可以确定针对该处罚信息字段存在合规风险。当所统计的数量不大于指定数量阈值时,可以确定针对该处罚信息字段不存在合规风险。在不存在合规风险的情况下,可以不生成针对该处罚信息字段的预警图。
在该示例中,指定数量阈值可以是指定的,指定数量阈值可以根据处罚信息字段中的字段数据类别的数量来确定。不同的处罚信息字段对应的指定数量阈值可以不同。比如,指定数量阈值是处罚信息字段中的字段数据类别的数量的三分之一,则针对该处罚信息字段,超过三分之一的字段数据类别对应的处罚统计量大于处罚量阈值时,可以确定针对该处罚信息字段存在合规风险。
在确定针对处罚信息字段存在合规风险时,根据存在合规风险的处罚信息字段对应的处罚统计量可以生成针对该处罚信息字段的预警图。例如,确定出存在合规风险的处罚信息字段是处罚地区,该处罚信息字段包括的字段数据类别有:浙江、河南、山东、陕西、江苏、湖南、广东、安徽、福建和湖北,上述每个省份地区对应一个处罚统计量,然后根据这10个省份地区的处罚统计量生成的预警图如图3B所示。
在本说明书实施例的一个示例中,对于存在合规风险的处罚信息字段,还可以将存在合规风险的处罚信息字段对应的处罚统计量提供给经过训练的合规风险预测模型,以预测得到针对该处罚信息字段的合规风险趋势图。
合规风险预测模型可以是机器学习模型,合规风险预测模型可以是使用针对各个处罚信息字段的历史金融处罚信息数据进行训练得到的。经过训练的合规风险预测模型可以根据输入的处罚信息字段对应的处罚统计量来输出针对该处罚信息字段的合规风险趋势图,合规风险趋势图可以示出针对该处罚信息字段中各个字段数据类别对应的处罚次数趋势,基于各个字段数据类别的处罚次数趋势可以预测出针对该处罚信息字段是否存在合规风险。
在生成针对合规风险的预警图后,可以将生成的预警图推送给相关人员。在一个示例中,可以响应于预警图生成,直接将所生成的预警图推送给相关人员。在该示例中,在预警图生成时,生成预警图的装置可以主动推送给相关人员。对于相关人员来说,无需进行请求操作便能够实时地获取到合规风险的预警图,为相关人员提供了方便,便于相关人员及时了解合规风险情况,以便及时地采取相应措施,避免违规受到处罚。
在另一个示例中,可以响应于相关人员的请求,将所生成的预警图推送给相关人员。在该示例中,根据相关人员的请求进行推送,更有针对性且推送效率更高,有需求的人员能够及时接收到预警图,无需求的人员也不会受到推送消息的打扰。
在另一个示例中,可以将预警图推送给所有相关人员,比如,推送给金融机构中的所有工作人员,这样可以让所有相关人员都能获取到预警图,避免遗漏任何一个相关人员。
在另一个示例中,还可以将预警图推送给指定的相关人员,这样有针对性地推送预警图,避免推送给未指定的人员,这些未被指定的人员也不会受到推送消息的打扰。
在另一个示例中,可以根据处罚信息字段和推送关键词来确定待推送的相关人员。推送关键词与待推送的相关人员对应,推送关键词可以是根据对应的待推送的相关人员确定的,推送关键词可以是对应相关人员的特征词,比如,所属地区特征、工作领域特征、工作内容特征等。例如,待推送的相关人员位于浙江,则该人员对应的推送关键词包括浙江。又例如,待推送的相关人员是一家金融机构的合规部门的人员,则该人员对应的推送关键词可以包括:金融机构名称、合规部门名称等工作领域特征词。又例如,待推送的相关人员的工作内容是关于信贷管理工作,则该人员对应的推送关键词可以包括信贷、信贷管理等工作内容特征词。
可以预设推送关键词与相关人员的对应关系,将预警图所针对的处罚信息字段与推送关键词进行匹配,若匹配,则根据预设的对应关系确定出匹配的推送关键词对应的相关人员,再将预警图推送给该相关人员。
例如,处罚信息字段是处罚地区,该处罚信息字段中的字段数据类型包括浙江、河南、山东,则所确定的相关人员的推送关键词分别是浙江、河南和山东,将生成的预警图分别推送给推送关键字为浙江、河南和山东对应的相关人员。
进一步地,可以将处罚信息字段中存在合规风险的字段数据类别与推送关键词进行匹配,仅将预警图推送给与存在合规风险的字段数据类别有关联的相关人员。
通过上述示例中的设置推送关键词,每一次生成预警图的过程中都根据推送关键词来确定待推送的相关人员,这样每一次的过程都仅推送给特定的相关人员。此外,不同的预警图推送根据本次推送的预警图针对的处罚信息字段以及推送关键词所确定出的相关人员可以不同,每一次推送所确定的相关人员都仅与本次过程有关,这样实现了每次推送的个性化服务。
图4示出了本说明书实施例的用于对金融处罚数据进行可视化分析的装置(以下称为可视化分析装置400)的一个示例的方框图。
如图4所示,可视化分析装置400可以包括信息爬取单元410、信息结构化解析单元420、数据聚类分析单元430和预警图生成单元440。
信息爬取单元410被配置为利用网络爬虫从金融监管网站爬取金融处罚信息。信息爬取单元410的操作可以参考上面参照图1描述的块110的操作。
信息结构化解析单元420被配置为对所爬取的金融处罚信息进行结构化解析,以得到处罚信息字段对应的处罚字段数据。信息结构化解析单元420的操作可以参考上面参照图1描述的块120的操作。
数据聚类分析单元430被配置为对所得到的处罚字段数据进行聚类分析,以得到各个处罚信息字段对应的处罚统计量。数据聚类分析单元430的操作可以参考上面参照图1描述的块130的操作。
预警图生成单元440被配置为根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。预警图生成单元440的操作可以参考上面参照图1描述的块140的操作。
在一个示例中,每种处罚信息字段包括多种字段数据类别,预警图生成单元440被配置为:在处罚信息字段中的字段数据类别对应的处罚统计量大于处罚量阈值时,确定针对该处罚信息字段存在合规风险;以及根据存在合规风险的处罚信息字段对应的处罚统计量生成针对该处罚信息字段的预警图。
在一个示例中,可视化分析装置400还可以包括风险趋势预测单元,风险趋势预测单元可以被配置为将存在合规风险的处罚信息字段对应的处罚统计量提供给经过训练的合规风险预测模型,以预测得到针对该处罚信息字段的合规风险趋势图。
在一个示例中,可视化分析装置400还可以包括预警图推送单元,预警图推送单元可以被配置为将所生成的预警图推送给相关人员,还可以被配置为根据处罚信息字段和推送关键词将所生成的预警图推送给相关人员。
以上参照图1到图4,对根据本说明书实施例的用于对金融处罚数据进行可视化分析的方法及装置的实施例进行了描述。
本说明书实施例的用于对金融处罚数据进行可视化分析的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中,用于对金融处罚数据进行可视化分析的装置例如可以利用电子设备实现。
图5示出了本说明书的实施例的实现用于对金融处罚数据进行可视化分析的方法的电子设备500的方框图。
如图5所示,电子设备500可以包括至少一个处理器510、存储器(例如,非易失性存储器)520、内存530和通信接口540,并且至少一个处理器510、存储器520、内存530和通信接口540经由总线550连接在一起。至少一个处理器510执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器510:利用网络爬虫从金融监管网站爬取金融处罚信息;对所爬取的金融处罚信息进行结构化解析,以得到处罚信息字段对应的处罚字段数据;对所得到的处罚字段数据进行聚类分析,以得到各个处罚信息字段对应的处罚统计量;以及根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器510进行本说明书的各个实施例中以上结合图1-4描述的各种操作和功能。
根据一个实施例,提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-4描述的各种操作和功能。
具体地,可以提供配有可读存储介质的***或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书实施例的一部分。
本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写,包括面向对象编程语言,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等,常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL 2002、PHP以及ABAP,动态编程语言如Python、Ruby和Groovy,或者其他编程语言等。该程序编码可以在用户计算机上运行,或者作为独立的软件包在用户计算机上运行,或者部分在用户计算机上运行另一部分在远程计算机运行,或者全部在远程计算机或服务器上运行。在后一种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或者在云计算环境中,或者作为服务使用,比如软件即服务(SaaS)。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上述各流程和各***结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本说明书的实施例的可选实施方式,但是,本说明书的实施例并不限于上述实施方式中的具体细节,在本说明书的实施例的技术构思范围内,可以对本说明书的实施例的技术方案进行多种简单变型,这些简单变型均属于本说明书的实施例的保护范围。
本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说,对本说明书内容进行的各种修改是显而易见的,并且,也可以在不脱离本说明书内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本说明书内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (14)

1.一种用于对金融处罚数据进行可视化分析的方法,包括:
利用网络爬虫从金融监管网站爬取金融处罚信息;
对所爬取的金融处罚信息进行结构化解析,以得到处罚信息字段对应的处罚字段数据;
对所得到的处罚字段数据进行聚类分析,以得到各个处罚信息字段对应的处罚统计量;以及
根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。
2.如权利要求1所述的方法,其中,每种处罚信息字段包括多种字段数据类别,
根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图包括:
在处罚信息字段中的字段数据类别对应的处罚统计量大于处罚量阈值时,确定针对该处罚信息字段存在合规风险;以及
根据存在合规风险的处罚信息字段对应的处罚统计量生成针对该处罚信息字段的预警图。
3.如权利要求2所述的方法,其中,处罚信息字段中的各个字段数据类别对应的处罚量阈值不同。
4.如权利要求2所述的方法,还包括:
将存在合规风险的处罚信息字段对应的处罚统计量提供给经过训练的合规风险预测模型,以预测得到针对该处罚信息字段的合规风险趋势图。
5.如权利要求1所述的方法,还包括:
将所生成的预警图推送给相关人员。
6.如权利要求5所述的方法,其中,将所生成的预警图推送给相关人员包括:
根据处罚信息字段和推送关键词将所生成的预警图推送给相关人员。
7.如权利要求1所述的方法,其中,所述处罚信息字段包括处罚文书号、监管机构名称、被处罚机构名称、处罚时间、处罚地区、处罚金额和处罚事由中的至少一种。
8.一种用于对金融处罚数据进行可视化分析的装置,包括:
信息爬取单元,利用网络爬虫从金融监管网站爬取金融处罚信息;
信息结构化解析单元,对所爬取的金融处罚信息进行结构化解析,以得到处罚信息字段对应的处罚字段数据;
数据聚类分析单元,对所得到的处罚字段数据进行聚类分析,以得到各个处罚信息字段对应的处罚统计量;以及
预警图生成单元,根据聚类分析得到的处罚统计量以及对应的处罚信息字段生成针对合规风险的预警图。
9.如权利要求8所述的装置,其中,每种处罚信息字段包括多种字段数据类别,
所述预警图生成单元:
在处罚信息字段中的字段数据类别对应的处罚统计量大于处罚量阈值时,确定针对该处罚信息字段存在合规风险;以及
根据存在合规风险的处罚信息字段对应的处罚统计量生成针对该处罚信息字段的预警图。
10.如权利要求9所述的装置,还包括:
风险趋势预测单元,将存在合规风险的处罚信息字段对应的处罚统计量提供给经过训练的合规风险预测模型,以预测得到针对该处罚信息字段的合规风险趋势图。
11.如权利要求8所述的装置,还包括:
预警图推送单元,将所生成的预警图推送给相关人员。
12.如权利要求11所述的装置,其中,所述预警图推送单元:
根据处罚信息字段和推送关键词将所生成的预警图推送给相关人员。
13.一种电子设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到7中任一所述的方法。
14.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到7中任一所述的方法。
CN202010842522.1A 2020-08-20 2020-08-20 用于对金融处罚数据进行可视化分析的方法及装置 Pending CN111782917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010842522.1A CN111782917A (zh) 2020-08-20 2020-08-20 用于对金融处罚数据进行可视化分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010842522.1A CN111782917A (zh) 2020-08-20 2020-08-20 用于对金融处罚数据进行可视化分析的方法及装置

Publications (1)

Publication Number Publication Date
CN111782917A true CN111782917A (zh) 2020-10-16

Family

ID=72762840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010842522.1A Pending CN111782917A (zh) 2020-08-20 2020-08-20 用于对金融处罚数据进行可视化分析的方法及装置

Country Status (1)

Country Link
CN (1) CN111782917A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611917A (zh) * 2023-07-19 2023-08-18 建信金融科技有限责任公司 金融风险的预警方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法
CN106339942A (zh) * 2016-08-31 2017-01-18 国信优易数据有限公司 一种金融信息处理方法和***
CN106789831A (zh) * 2015-11-19 2017-05-31 阿里巴巴集团控股有限公司 识别网络攻击的方法和装置
CN107577788A (zh) * 2017-09-15 2018-01-12 广东技术师范学院 一种自动结构化数据的电商网站主题爬虫方法
CN109003039A (zh) * 2018-06-14 2018-12-14 深圳市买买提信息科技有限公司 处罚决议生成方法、装置、设备及存储介质
CN109726327A (zh) * 2018-12-14 2019-05-07 深圳壹账通智能科技有限公司 一种信息推送方法和装置
CN110119423A (zh) * 2019-05-17 2019-08-13 厦门商集网络科技有限责任公司 一种可配置化的数据解析方法和计算机可读存储介质
WO2019157269A2 (en) * 2018-02-08 2019-08-15 Green Check Verified Inc. Financial regulatory compliance platform
CN110472132A (zh) * 2019-08-01 2019-11-19 腾讯科技(深圳)有限公司 一种安全舆情信息的获取方法、装置及介质
CN111125134A (zh) * 2019-12-19 2020-05-08 金蝶蝶金云计算有限公司 一种外币业务统计报表生成方法、***及相关设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN106789831A (zh) * 2015-11-19 2017-05-31 阿里巴巴集团控股有限公司 识别网络攻击的方法和装置
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法
CN106339942A (zh) * 2016-08-31 2017-01-18 国信优易数据有限公司 一种金融信息处理方法和***
CN107577788A (zh) * 2017-09-15 2018-01-12 广东技术师范学院 一种自动结构化数据的电商网站主题爬虫方法
WO2019157269A2 (en) * 2018-02-08 2019-08-15 Green Check Verified Inc. Financial regulatory compliance platform
CN109003039A (zh) * 2018-06-14 2018-12-14 深圳市买买提信息科技有限公司 处罚决议生成方法、装置、设备及存储介质
CN109726327A (zh) * 2018-12-14 2019-05-07 深圳壹账通智能科技有限公司 一种信息推送方法和装置
CN110119423A (zh) * 2019-05-17 2019-08-13 厦门商集网络科技有限责任公司 一种可配置化的数据解析方法和计算机可读存储介质
CN110472132A (zh) * 2019-08-01 2019-11-19 腾讯科技(深圳)有限公司 一种安全舆情信息的获取方法、装置及介质
CN111125134A (zh) * 2019-12-19 2020-05-08 金蝶蝶金云计算有限公司 一种外币业务统计报表生成方法、***及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611917A (zh) * 2023-07-19 2023-08-18 建信金融科技有限责任公司 金融风险的预警方法、装置、设备及存储介质
CN116611917B (zh) * 2023-07-19 2023-10-03 建信金融科技有限责任公司 金融风险的预警方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11954739B2 (en) Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
CA3138730C (en) Public-opinion analysis method and system for providing early warning of enterprise risks
CN108089843B (zh) 一种智能化的银行企业级需求管理***
US20170004128A1 (en) Device and method for analyzing reputation for objects by data mining
US10733675B2 (en) Accuracy and speed of automatically processing records in an automated environment
CN103064987B (zh) 一种虚假交易信息识别方法
CN112182246B (zh) 通过大数据分析建立企业画像的方法、***、介质及应用
CN110825880A (zh) 案件胜率确定方法、装置、设备及计算机可读存储介质
CN117203638A (zh) 使用机器学习技术预测机构风险的***和方法
Fariss et al. Human rights texts: Converting human rights primary source documents into data
CN107533554A (zh) 文档验证***
CN111553318A (zh) 敏感信息提取方法、裁判文书处理方法、装置和电子设备
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN110544035A (zh) 一种内控检测方法、***和计算机可读存储介质
Chatterjee et al. Classifying facts and opinions in Twitter messages: a deep learning-based approach
CN110490750B (zh) 数据识别的方法、***、电子设备及计算机存储介质
CN108737138B (zh) 服务提供方法及服务平台
Permana et al. Perception analysis of the Indonesian society on twitter social media on the increase in BPJS kesehatan contribution in the Covid 19 pandemic era
Monterrubio et al. Coronavirus fake news detection via MedOSINT check in health care official bulletins with CBR explanation: The way to find the real information source through OSINT, the verifier tool for official journals
CN111782917A (zh) 用于对金融处罚数据进行可视化分析的方法及装置
CN116228402A (zh) 一种金融征信特征仓库技术支持***
CN116757820A (zh) 企业风险的确定方法、装置、存储介质及电子设备
CN116108955A (zh) 社会矛盾纠纷的升级预警方法、装置、设备及存储介质
CN115204393A (zh) 一种基于知识图谱的智慧城市知识本体库构建方法和装置
JP6206874B2 (ja) 格成分抽出プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination