CN112418652B - 一种风险识别方法及相关装置 - Google Patents
一种风险识别方法及相关装置 Download PDFInfo
- Publication number
- CN112418652B CN112418652B CN202011302019.3A CN202011302019A CN112418652B CN 112418652 B CN112418652 B CN 112418652B CN 202011302019 A CN202011302019 A CN 202011302019A CN 112418652 B CN112418652 B CN 112418652B
- Authority
- CN
- China
- Prior art keywords
- commodity
- purchase
- organization
- sale
- organizations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008520 organization Effects 0.000 claims abstract description 123
- 238000012545 processing Methods 0.000 claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000012937 correction Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 3
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种风险识别方法,包括:根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵;对所有组织的所述购销商品矩阵进行聚类,得到购销模式聚类结果;从所述购销模式聚类结果将偏离预设比例的组织确定为风险组织。通过对统计出的购销商品矩阵进行聚类,确定对应的购销模式,进而在正常购销模式的基础上确定偏离该购销模式的风险组织,提高了识别风险的准确性。本申请还公开了一种风险识别装置、服务器以及计算机可读存储介质,具有以上有益效果。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种风险识别方法、风险识别装置、服务器以及计算机可读存储介质。
背景技术
随着数据处理技术的不断发展,目前对数据进行了越来越多的数据处理操作。数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是***工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域,极大的通过数据处理对生产处理的各个方面进行了提升。举例来说,通常采用数据处理的相关技术对企业运营数据进行分析,以便确定不同企业中存在的风险。
相关技术中,实现的方案主要聚焦于商贸企业纳税人的风险诊断上来,商贸企业的进销模式相对单一,买入和卖出商品的主要类别及金额只存在毛利率上的差异,若差异过大则会被识别为风险企业。但是,对于其他运营模式的对象来说,例如工业企业以及其它非商贸企业涉及复杂的投入产出关系,在业界尚没有有效的基于纳税人购销货物的风险识别算法,也就是无法针对不同类型的企业数据进行有效的风险识别,降低了风险识别的准确性和精度。
因此,如何提高识别风险的准确性是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种风险识别方法、风险识别装置、服务器以及计算机可读存储介质,通过对统计出的购销商品矩阵进行聚类,确定对应的购销模式,进而在正常购销模式的基础上确定偏离该购销模式的风险组织。
为解决上述技术问题,本申请提供一种风险识别方法,包括:
根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵;
对所有组织的所述购销商品矩阵进行聚类,得到购销模式聚类结果;
从所述购销模式聚类结果将偏离预设比例的组织确定为风险组织。
可选的,根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵,包括:
根据所述商品种类对所述获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据;
根据所述行业标准对每个组织对应的所述商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据;
对每个组织对应的所述行业纠偏商品数据进行数据统计处理,得到所有组织的所述购销商品矩阵。
可选的,根据所述商品种类对所述获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据,包括:
采用自然语言处理模型对所述获取到的多个组织的商品数据进行分类,得到每个组织对应的所述商品分类数据。
可选的,根据所述行业标准对每个组织对应的所述商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据,包括:
根据XGBoost算法对每个组织对应的所述商品分类数据进行行业纠偏处理,得到每个组织对应的所述行业纠偏商品数据。
可选的,对所有组织的所述购销商品矩阵进行聚类,得到购销模式聚类结果,包括:
采用均值漂移聚类对所有组织的所述购销商品矩阵进行聚类,得到所述购销模式聚类结果。
可选的,从所述购销模式聚类结果将偏离预设比例的组织确定为风险组织,包括:
根据所述预设比例从所述购销模式聚类结果中确定出正常购销模式组织;
将所述多个组织中在所述正常购销模式组织之外的组织作为所述风险组织。
本申请还提供一种风险识别装置,包括:
商品数据统计模块,用于根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵;
商品矩阵聚类模块,用于对所有组织的所述购销商品矩阵进行聚类,得到购销模式聚类结果;
风险组织确定模块,用于从所述购销模式聚类结果将偏离预设比例的组织确定为风险组织。
可选的,所述商品数据统计模块,包括:
商品分类单元,用于根据所述商品种类对所述获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据;
行业纠偏单元,用于根据所述行业标准对每个组织对应的所述商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据;
数据统计单元,用于对每个组织对应的所述行业纠偏商品数据进行数据统计处理,得到所有组织的所述购销商品矩阵。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的风险识别方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的风险识别方法的步骤。
本申请所提供的一种风险识别方法,包括:根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵;对所有组织的所述购销商品矩阵进行聚类,得到购销模式聚类结果;从所述购销模式聚类结果将偏离预设比例的组织确定为风险组织。
通过首先对获取到的多个组织的商品数据进行数据统计以便确定到所有组织的购销商品矩阵,然后对该购销商品矩阵进行聚类,确定到购销模式聚类结果,最后从该购销模式聚类结果中确定出偏离正常购销模式的组织作为风险组织,以便从组织的复杂购销行为中识别出风险,而不是只能对简单的同类购入销出进行识别,提高了识别风险的准确性。
本申请还提供一种风险识别装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种风险识别方法的流程图;
图2为本申请实施例所提供的一种风险识别装置的结构示意图。
具体实施方式
本申请的核心是提供一种风险识别方法、风险识别装置、服务器以及计算机可读存储介质,通过对统计出的购销商品矩阵进行聚类,确定对应的购销模式,进而在正常购销模式的基础上确定偏离该购销模式的风险组织,提高了识别风险的准确性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,实现的方案主要聚焦于商贸企业纳税人的风险诊断上来,商贸企业的进销模式相对单一,买入和卖出商品的主要类别及金额只存在毛利率上的差异,若差异过大则会被识别为风险企业。但是,对于其他运营模式的对象来说,例如工业企业以及其它非商贸企业涉及复杂的投入产出关系,在业界尚没有有效的基于纳税人购销货物的风险识别算法,也就是无法针对不同类型的企业数据进行有效的风险识别,降低了风险识别的准确性和精度。
因此,本申请提供一种风险识别方法,通过首先对获取到的多个组织的商品数据进行数据统计以便确定到所有组织的购销商品矩阵,然后对该购销商品矩阵进行聚类,确定到购销模式聚类结果,最后从该购销模式聚类结果中确定出偏离正常购销模式的组织作为风险组织,以便从组织的复杂购销行为中识别出风险,而不是只能对简单的同类购入销出进行识别,提高了识别风险的准确性。
以下通过一个实施例,对本申请提供的一种风险识别方法进行说明。
请参考图1,图1为本申请实施例所提供的一种风险识别方法的流程图。
本实施例中,该方法可以包括:
S101,根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵;
本步骤旨在对获取到的不同组织的商品数据进行数据统计处理,得到每个组织对应的购销商品矩阵,也就是所有组织的购销商品矩阵。其中,商品数据包括购入商品数据和销售商品数据。
其中,商品数据可以从组合的运营数据中获取,也可以是组织产生的***数据中获取,还可以从组织采购销售的数据中获取。可见,本步骤中获取商品数据的方式并不唯一,在此不做具体限定。但是,无论从何获取到商品数据,该商品数据可以是被人工录入的数据。因此,该商品数据就有可能存在一定的数据输入错误等问题。例如,商品的名称不标准,商品的分类不准确。进一步的,由于不同行业的采购使用销售的商品品类差距较大,因此需要按照不同的行业对组织进行分类,以便按照同一行业的商品数据对该行业下的常规模式进行分析,以便确定出偏离常规的组织。
因此,本步骤中为了提高对于商品数据进行统计的准确性。本步骤中还可以对商品数据进行商品名称纠偏处理,并对组织的行业数据进行纠偏处理。以便提高获取到的商品数据的准确性和精度。
最后为了提高数据显示的便利性,本步骤中将商品数据显示为矩阵的形式,以方便对数据进行相应的处理。其中,一个购销商品矩阵一般是指相同行业下所有组织的购销商品矩阵。
进一步的,为了提高数据统计的准确性,本步骤可以包括:
步骤1,根据商品种类对获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据;
步骤2,根据行业标准对每个组织对应的商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据;
步骤3,对每个组织对应的行业纠偏商品数据进行数据统计处理,得到所有组织的购销商品矩阵。
可见,本可选方案中主要是对如何获取到购销商品矩阵进行说明。本可选方案中首先根据商品种类对获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据;然后,根据行业标准对每个组织对应的商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据。可见,首先这两个步骤均是对商品数据进行商品数据进行重新分类,并对行业进行行业纠偏处理。其中,为了提高商品数据分类的准确性,对商品数据进行分类的过程可以首先对商品名称进行纠偏处理,然后再对商品数据进行分类。最后,对每个组织对应的行业纠偏商品数据进行数据统计处理,得到所有组织的购销商品矩阵。也就是,在对商品数据中的商品名称、商品分类以及行业信息进行纠偏的基础上,再对该商品数据进行相应的统计处理。其中,购销商品矩阵的行表示组织或组织数量,购销商品矩阵的列表示购入商品或销售商品。
进一步的,为了提高商品分类的准确性,上一可选方案中的步骤1可以包括:
采用自然语言处理模型对获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据。
可见,本可选方案中主要是对如何进行商品分类进行说明。本可选方案中为了提高商品分类的准确性,采用自然语言处理模型对获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据。其中,通过自然语言处理模型可以提高对于商品名称的识别的准确性,进一步再对偏离的名称进行修正。其中,还可以采用N-gram强规则匹配、核心词提取算法、税务领域专用分词技术以及BERT(Bidirectional EncoderRepresentations from Transformers)自然语言处理深度学习框架。
进一步的,为了提高行业纠偏的准确性,上一可选方案中的步骤2可以包括:
根据XGBoost算法对每个组织对应的商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据。
可见,本可选方案中主要是对如何进行行业纠偏进行说明。本可选方案中根据XGBoost算法对每个组织对应的商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据。其中,XGBoost(eXtreme Gradient Boosting,极端梯度提升)源于梯度提升框架,但是更加高效,秘诀就在于算法能并行计算、近似建树、对稀疏数据的有效处理以及内存使用优化,这使得XGBoost至少比现有梯度提升实现有至少10倍的速度提升。
S102,对所有组织的购销商品矩阵进行聚类,得到购销模式聚类结果;
在S101的基础上,本步骤旨在对所有组织的购销商品矩阵进行聚类,然后得到购销模式聚类结果。也就是,将购销商品矩阵中的数据进行聚类,可以是将同一个购入商品下每个销售商品的数量进行聚类。例如,聚类为A商品购入的情况下,x商品售出的存在3000个组织,y商品售出的存在1250个组织,z商品售出的存在20个组织。
进一步的,为了提高本步骤中进行聚类的效果,本步骤可以包括:
采用均值漂移聚类对所有组织的购销商品矩阵进行聚类,得到购销模式聚类结果。
可见,本可选方案中主要是采用均值漂移聚类算法对购销商品矩阵进行聚类。其中,均值漂移聚类算法是基于滑动窗口的算法,试图找到数据点的密集区域。这是一个基于质心的算法,意味着该算法的目标是定位每个组/类的中心点,通过将中心点的候选点更新为滑动窗口内点的均值来完成。然后,在后处理阶段对这些候选窗口进行过滤以消除近似重复,形成最终的中心点集及其相应的组。
S103,从购销模式聚类结果将偏离预设比例的组织确定为风险组织。
在S102的基础上,本步骤旨在从该购销模式聚类结果中将偏离预设比例的组织数据确定为风险组织。
也就是说,在聚类出购销模式聚类结果的基础上,可以根据预设比例从中确定到大多数组织的正常购销模式。例如,80%的组织中购入B商品,都销售出h商品。那么可以说B商品的购入对应了h商品的售出,该购入和售出的模式可以是正常的购销模式,在该购销模式之外的组织可以标记风险组织。
进一步的,为了对本步骤的操作进行说明,本步骤可以包括:
步骤1,根据预设比例从购销模式聚类结果中确定出正常购销模式组织;
步骤2,将多个组织中在正常购销模式组织之外的组织作为风险组织。
可见,本可选方案中首先根据该预设比例从购销模式聚类结果中确定出正常购销模式组织。也就是,首先确定出正常购销模式组织。然后,将多个组织中在正常购销模式组织之外的组织作为风险组织。也就是,在正常购销模式之外的组织作为风险组织。
综上,本实施例通过首先对获取到的多个组织的商品数据进行数据统计以便确定到所有组织的购销商品矩阵,然后对该购销商品矩阵进行聚类,确定到购销模式聚类结果,最后从该购销模式聚类结果中确定出偏离正常购销模式的组织作为风险组织,以便从组织的复杂购销行为中识别出风险,而不是只能对简单的同类购入销出进行识别,提高了识别风险的准确性。
以下通过一个具体的实施例,对本申请提供的一种风险识别方法进行说明。
本实施例中,以对生产企业的***数据进行分析为例,该方法可以包括:
步骤1,根据分析期间筛选企业组织的***数据,选取企业组织开票时间在t0(分析期间起)与t1(分析期间止)的***数据。
步骤2,对***的品名进行分类。其中,分类的标准依据税务总局颁布的商品和服务税收分类编码表对货物名称的类别进行划分,编码表中共涉及货物及服务类别4000余项。本步骤采用N-gram强规则匹配、核心词提取算法、税务领域专用分词技术以及BERT自然语言处理深度学习框架对货物名称进行商品类别纠偏。
步骤3,按照第二步纠偏后的结果,对数据结构进行转换,构建企业组织购销矩阵Amn,其中m表示样本中的企业组织的数量,n表示购进和销售的编码类别,a(ij)表示第i个企业组织买入或卖出商品编码j的金额占总买入或卖出金额的占比。对企业组织登记的行业进行适当的人为纠偏以保证行业的准确性,使用xgboost算法,学习Amn到企业组织登记行业(人工纠偏后)y的关系,得到行业纠偏算法,并基于行业纠偏算法,对分析期间内拥有进销***企业组织进行行业预测。
步骤4,基于纠偏后的商品编码和行业,统计行业购进和销售的主要商品。将购进商品从大到小排序计算该商品在行业的购进比例,对排序后的购进比例进行累加,当累加值i达到既定阈值90%时,输出行业的主要购进商品编码。进一步的,用相同方式获得销售商品主要编码。
步骤5,筛选企业组织纠偏后为Q的登记行业,得到企业组织购销汇总金额占比数据(按照企业组织和商品编码进行统计),结合第四步中取得的Q行业的主要购进和销售商品编码。对数据结构进行转换,得到Q行业下企业组织购进商品矩阵Abuy和销售商品矩阵Asell,其中Abuy和Asell,行数相等均为该行业下企业组织的数量。Abuy的列表示购入主要商品,Abuy矩阵中的元表示买入主要商品的金额占比,Asell同理。
步骤6,对行业Q下的企业组织买入商品矩阵进行聚类,这里采用的是均值漂移聚类方法,用于确定同行业下因生产工艺不同导致的买卖产品的多样性。比如电线电缆制造行业,购入的主要商品类别为铜丝、铜、铜材、铜盘条等,不同企业由于开具***类别填写错误或生产工艺不同,导致其买入的原材料可能存在多种模式。使用漂移均值聚类的方法可以自动挖掘不同行业下的不同模式,不需要人工确定簇的数量。通过聚类算法得到企业n买入标签a,和卖出标签b。
步骤7,通过统计方法挖掘买入标签与卖出标签之间的关联关系。先从销售商品出发,当销售类别下企业组织数量的倒序排列累加占比达到80%时,将以上类别确定为企业组织销售的主要模式,再按照成立的销售模式去挖掘阈值相对应的购进模式:当买入标签c与卖出标签d下重合的企业组织达到一定比例k=80%时,称该买入卖出模式成立。
步骤8,按照第七步构建的买卖模式,挑选出行业中不符合买卖模式的企业组织作为风险企业。
举例来说,可以对电线电缆行业不同购进模式和销售模式下企业组织的数量进行分析。进一步的,样本选取了5000户企业组织,对其买入和卖出商品编码进行聚类,聚类结果如下:
可见,按照电线电缆行业的企业组织买入的商品,使用漂移均值法聚类共聚成了5个类别,按销售产品则被聚成了7个类别。从销售的视角绝大多数企业组织被划分在了0,1,2中,累加值达到83.9%。因此确定0,1,2为电线电缆行业销售的主要商品模式。从销售类别出发,发现销售类别为0的情况下对应的买入类别为0(达到80%);1的销售模式下对应的买入模式为0,1,2(累加值达到80%);2的销售模式下对应的买入模式为0,1,2(累加值达到80%),因此可判定除了满足以上模式的企业组织均存在一定风险。
很显然,本实施例通过首先对获取到的多个组织的商品数据进行数据统计以便确定到所有组织的购销商品矩阵,然后对该购销商品矩阵进行聚类,确定到购销模式聚类结果,最后从该购销模式聚类结果中确定出偏离正常购销模式的组织作为风险组织,以便从组织的复杂购销行为中识别出风险,而不是只能对简单的同类购入销出进行识别,提高了识别风险的准确性。
下面对本申请实施例提供的风险识别装置进行介绍,下文描述的风险识别装置与上文描述的风险识别方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种风险识别装置的结构示意图。
本实施例中,该装置可以包括:
商品数据统计模块100,用于根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵;
商品矩阵聚类模块200,用于对所有组织的购销商品矩阵进行聚类,得到购销模式聚类结果;
风险组织确定模块300,用于从购销模式聚类结果将偏离预设比例的组织确定为风险组织。
可选的,该商品数据统计模块100,可以包括:
商品分类单元,用于根据商品种类对获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据;
行业纠偏单元,用于根据行业标准对每个组织对应的商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据;
数据统计单元,用于对每个组织对应的行业纠偏商品数据进行数据统计处理,得到所有组织的购销商品矩阵。
本申请实施例还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如以上实施例所述的风险识别方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的风险识别方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种风险识别方法、风险识别装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (8)
1.一种风险识别方法,其特征在于,包括:
根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵;
对所有组织的所述购销商品矩阵进行聚类,得到购销模式聚类结果;
从所述购销模式聚类结果将偏离预设比例的组织确定为风险组织;
其中,根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵,包括:
根据所述商品种类对所述获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据;
根据所述行业标准对每个组织对应的所述商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据;
对每个组织对应的所述行业纠偏商品数据进行数据统计处理,得到所有组织的所述购销商品矩阵。
2.根据权利要求1所述的风险识别方法,其特征在于,根据所述商品种类对所述获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据,包括:
采用自然语言处理模型对所述获取到的多个组织的商品数据进行分类,得到每个组织对应的所述商品分类数据。
3.根据权利要求1所述的风险识别方法,其特征在于,根据所述行业标准对每个组织对应的所述商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据,包括:
根据XGBoost算法对每个组织对应的所述商品分类数据进行行业纠偏处理,得到每个组织对应的所述行业纠偏商品数据。
4.根据权利要求1所述的风险识别方法,其特征在于,对所有组织的所述购销商品矩阵进行聚类,得到购销模式聚类结果,包括:
采用均值漂移聚类对所有组织的所述购销商品矩阵进行聚类,得到所述购销模式聚类结果。
5.根据权利要求1所述的风险识别方法,其特征在于,从所述购销模式聚类结果将偏离预设比例的组织确定为风险组织,包括:
根据所述预设比例从所述购销模式聚类结果中确定出正常购销模式组织;
将所述多个组织中在所述正常购销模式组织之外的组织作为所述风险组织。
6.一种风险识别装置,其特征在于,包括:
商品数据统计模块,用于根据商品种类和行业标准对获取到的多个组织的商品数据进行数据统计处理,得到所有组织的购销商品矩阵;
商品矩阵聚类模块,用于对所有组织的所述购销商品矩阵进行聚类,得到购销模式聚类结果;
风险组织确定模块,用于从所述购销模式聚类结果将偏离预设比例的组织确定为风险组织;
其中,所述商品数据统计模块,包括:
商品分类单元,用于根据所述商品种类对所述获取到的多个组织的商品数据进行分类,得到每个组织对应的商品分类数据;
行业纠偏单元,用于根据所述行业标准对每个组织对应的所述商品分类数据进行行业纠偏处理,得到每个组织对应的行业纠偏商品数据;
数据统计单元,用于对每个组织对应的所述行业纠偏商品数据进行数据统计处理,得到所有组织的所述购销商品矩阵。
7.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的风险识别方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的风险识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011302019.3A CN112418652B (zh) | 2020-11-19 | 2020-11-19 | 一种风险识别方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011302019.3A CN112418652B (zh) | 2020-11-19 | 2020-11-19 | 一种风险识别方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418652A CN112418652A (zh) | 2021-02-26 |
CN112418652B true CN112418652B (zh) | 2024-01-30 |
Family
ID=74774146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011302019.3A Active CN112418652B (zh) | 2020-11-19 | 2020-11-19 | 一种风险识别方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418652B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297319A (zh) * | 2021-12-23 | 2022-04-08 | 税友信息技术有限公司 | 一种数据识别方法及相关装置 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233759A (ja) * | 2003-01-23 | 2003-08-22 | Swychco Infrastructure Services Pty Ltd | 危機管理契約の締結と処理に関する方法及び装置 |
WO2003093960A2 (en) * | 2002-04-29 | 2003-11-13 | Schlumberger Omnes, Inc. | Security maturity assessment method |
JP2004005702A (ja) * | 1999-12-16 | 2004-01-08 | Tokio Marine & Fire Insurance Co Ltd | リスク分析システム及びその方法、保険設計システム及びその方法、保険約款作成方法、並びにコンピュータ上で動作するリスク分析プログラム、保険設計プログラム又は保険約款作成プログラムを記録した記録媒体 |
CN104182835A (zh) * | 2014-08-22 | 2014-12-03 | 国家电网公司 | 基于全寿命周期管理的三维物资分类模型及类型确定方法 |
CN106228399A (zh) * | 2016-07-20 | 2016-12-14 | 福建工程学院 | 一种基于大数据的券商客户风险偏好分类方法 |
CN107247971A (zh) * | 2017-06-28 | 2017-10-13 | 中国人民解放军总医院 | 一种超声甲状腺结节风险指标的智能分析方法及*** |
CN109345339A (zh) * | 2018-09-17 | 2019-02-15 | 贺绍鹏 | “网电”-电力行业垂直产业链一体化交易服务***及方法 |
CN109635007A (zh) * | 2018-12-18 | 2019-04-16 | 税友软件集团股份有限公司 | 一种行为评估方法、装置及相关设备 |
CN110020796A (zh) * | 2019-03-26 | 2019-07-16 | 苏州纤联电子商务有限公司 | 一种纺织行业企业信用风险评估方法及*** |
CN110287313A (zh) * | 2019-05-20 | 2019-09-27 | 阿里巴巴集团控股有限公司 | 一种风险主体的确定方法及服务器 |
CN110390077A (zh) * | 2018-11-30 | 2019-10-29 | 上海德拓信息技术股份有限公司 | 一种用于识别商品价格异常风险的方法 |
CA3007786A1 (en) * | 2018-06-11 | 2019-12-11 | The Governing Council Of The University Of Toronto | Data visualization platform for event-based behavior clustering |
CN110597995A (zh) * | 2019-09-20 | 2019-12-20 | 税友软件集团股份有限公司 | 一种商品名称分类方法、装置、设备及可读存储介质 |
CN110991936A (zh) * | 2019-12-23 | 2020-04-10 | 业如商业保理(重庆)有限公司 | 企业评分评级方法、装置、设备及介质 |
CN111192128A (zh) * | 2019-12-30 | 2020-05-22 | 航天信息股份有限公司 | 识别异常纳税行为的方法 |
CN111325419A (zh) * | 2018-12-13 | 2020-06-23 | 北京沃东天骏信息技术有限公司 | 一种识别黑名单用户的方法和装置 |
CN111369175A (zh) * | 2020-03-25 | 2020-07-03 | 南京德实信息科技有限公司 | 基于大数据的企业产品链分析纠正反馈*** |
CN111914090A (zh) * | 2020-08-18 | 2020-11-10 | 生态环境部环境规划院 | 一种企业行业分类识别及其特征污染物识别的方法及装置 |
CN113869802A (zh) * | 2021-12-01 | 2021-12-31 | 神州数码信息***有限公司 | 一种基于进销项比对的生产企业***虚开风险评估方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11727420B2 (en) * | 2019-03-15 | 2023-08-15 | Target Brands, Inc. | Time series clustering analysis for forecasting demand |
-
2020
- 2020-11-19 CN CN202011302019.3A patent/CN112418652B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004005702A (ja) * | 1999-12-16 | 2004-01-08 | Tokio Marine & Fire Insurance Co Ltd | リスク分析システム及びその方法、保険設計システム及びその方法、保険約款作成方法、並びにコンピュータ上で動作するリスク分析プログラム、保険設計プログラム又は保険約款作成プログラムを記録した記録媒体 |
WO2003093960A2 (en) * | 2002-04-29 | 2003-11-13 | Schlumberger Omnes, Inc. | Security maturity assessment method |
JP2003233759A (ja) * | 2003-01-23 | 2003-08-22 | Swychco Infrastructure Services Pty Ltd | 危機管理契約の締結と処理に関する方法及び装置 |
CN104182835A (zh) * | 2014-08-22 | 2014-12-03 | 国家电网公司 | 基于全寿命周期管理的三维物资分类模型及类型确定方法 |
CN106228399A (zh) * | 2016-07-20 | 2016-12-14 | 福建工程学院 | 一种基于大数据的券商客户风险偏好分类方法 |
CN107247971A (zh) * | 2017-06-28 | 2017-10-13 | 中国人民解放军总医院 | 一种超声甲状腺结节风险指标的智能分析方法及*** |
CA3007786A1 (en) * | 2018-06-11 | 2019-12-11 | The Governing Council Of The University Of Toronto | Data visualization platform for event-based behavior clustering |
CN109345339A (zh) * | 2018-09-17 | 2019-02-15 | 贺绍鹏 | “网电”-电力行业垂直产业链一体化交易服务***及方法 |
CN110390077A (zh) * | 2018-11-30 | 2019-10-29 | 上海德拓信息技术股份有限公司 | 一种用于识别商品价格异常风险的方法 |
CN111325419A (zh) * | 2018-12-13 | 2020-06-23 | 北京沃东天骏信息技术有限公司 | 一种识别黑名单用户的方法和装置 |
CN109635007A (zh) * | 2018-12-18 | 2019-04-16 | 税友软件集团股份有限公司 | 一种行为评估方法、装置及相关设备 |
CN110020796A (zh) * | 2019-03-26 | 2019-07-16 | 苏州纤联电子商务有限公司 | 一种纺织行业企业信用风险评估方法及*** |
CN110287313A (zh) * | 2019-05-20 | 2019-09-27 | 阿里巴巴集团控股有限公司 | 一种风险主体的确定方法及服务器 |
CN110597995A (zh) * | 2019-09-20 | 2019-12-20 | 税友软件集团股份有限公司 | 一种商品名称分类方法、装置、设备及可读存储介质 |
CN110991936A (zh) * | 2019-12-23 | 2020-04-10 | 业如商业保理(重庆)有限公司 | 企业评分评级方法、装置、设备及介质 |
CN111192128A (zh) * | 2019-12-30 | 2020-05-22 | 航天信息股份有限公司 | 识别异常纳税行为的方法 |
CN111369175A (zh) * | 2020-03-25 | 2020-07-03 | 南京德实信息科技有限公司 | 基于大数据的企业产品链分析纠正反馈*** |
CN111914090A (zh) * | 2020-08-18 | 2020-11-10 | 生态环境部环境规划院 | 一种企业行业分类识别及其特征污染物识别的方法及装置 |
CN113869802A (zh) * | 2021-12-01 | 2021-12-31 | 神州数码信息***有限公司 | 一种基于进销项比对的生产企业***虚开风险评估方法 |
Non-Patent Citations (4)
Title |
---|
基于SMOTE和XGBoost的贷款风险预测方法;刘斌;陈凯;;计算机与现代化(第02期);第26-30页 * |
基于数据分析的业务风险防控研究;邢巍;余锦河;曹肖悦;江帆;;现代商业(第09期);第15-17页 * |
基于聚类算法的购物篮压缩研究;张文斌;明勇;褚维伟;黄哲学;;计算机技术与发展(01);全文 * |
电子商务信用风险的预警指标体系构建;支慧;;科技展望(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112418652A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11797503B2 (en) | Systems and methods for enhanced mapping and classification of data | |
CN109711424B (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN105631783A (zh) | 一种客观量化的中国发明专利评估***及方法 | |
CN113505936A (zh) | 项目审批结果的预测方法、装置、设备及存储介质 | |
US20230092559A1 (en) | Systems and methods for unstructured data processing | |
CN112418652B (zh) | 一种风险识别方法及相关装置 | |
CN112037006A (zh) | 小微企业的信用风险识别方法及装置 | |
CN112330441A (zh) | 一种中小企业商业价值信用贷款评价方法 | |
CN111695979A (zh) | 一种原材料与成品的关系分析方法、装置及设备 | |
CN111582315A (zh) | 样本数据处理方法、装置及电子设备 | |
CN114139725A (zh) | 业务对象的预测方法、设备及存储介质 | |
KR102406375B1 (ko) | 원천 기술의 평가 방법을 포함하는 전자 장치 | |
CN112434862A (zh) | 上市企业财务困境预测方法及装置 | |
CN110796381A (zh) | 建模数据评价指标的处理方法、装置、终端设备及介质 | |
CN115439079A (zh) | 项目分类方法及装置 | |
CN113261975B (zh) | 一种基于深度学习的心电分类方法 | |
CN115063207A (zh) | 一种基于云计算的建材采购智能比价分析处理*** | |
CN114663102A (zh) | 基于半监督模型预测发债主体违约的方法、设备及存储介质 | |
CN113379211A (zh) | 基于区块链的物流信息平台违约风险管控***及方法 | |
CN113240353B (zh) | 一种面向跨境电商的出口工厂分类方法及装置 | |
CN115187387B (zh) | 一种风险商家的识别方法及设备 | |
US20230334496A1 (en) | Automated transaction clustering based on rich, non-human filterable risk elements | |
Zarmehri et al. | Improving data mining results by taking advantage of the data warehouse dimensions: a case study in outlier detection | |
Yılgör et al. | A New Approach to Predict Financial Failure: Classification and Regression Trees (CART) | |
CN115239351A (zh) | 基于统计学与机器学习相结合的异常商品信息识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |