CN109214904A - 财务造假线索的获取方法、装置、计算机设备和存储介质 - Google Patents
财务造假线索的获取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109214904A CN109214904A CN201811184169.1A CN201811184169A CN109214904A CN 109214904 A CN109214904 A CN 109214904A CN 201811184169 A CN201811184169 A CN 201811184169A CN 109214904 A CN109214904 A CN 109214904A
- Authority
- CN
- China
- Prior art keywords
- fraud
- financial
- clue
- label
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 6
- 238000012954 risk control Methods 0.000 abstract description 5
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 230000001965 increasing effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 241001269238 Data Species 0.000 description 4
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及一种财务造假线索的获取方法、装置、计算机设备和存储介质。所述方法包括:获取财务造假线索标签,并确定财务造假线索标签对应的财务指标的造假区间;获取待识别企业的第一财务数据;根据第一财务数据获取财务造假线索标签的财务指标值;当财务指标值在财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将财务造假线索标签确定为财务造假线索。本方法基于大数据处理技术实现财务造假线索的获取,能够规避了过度依赖于专家主观经验,提高企业财务数据造假判断的可靠性,有效实现财务造假的线索的实时追踪,及时发现企业的风险点,实现风险把控。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种财务造假线索的获取方法、装置、计算机设备和存储介质。
背景技术
目前,对于企业财务造假的分析,主要基于财务专家多年的会计经验从企业的财务报表中判断出会计科目的异常,进而判断企业的财务报表中是否存在财务造假的嫌疑;在判断企业财务数据是否造假的过程中,往往需要对大量财务数据进行分析,且依赖于财务专家过往的经验对财务数据进行判断,难以做到早于市场发现企业的财务异常,从而对投资者的收益造成损害。
发明内容
基于此,有必要针对传统企业财务造假分析技术需要对大量财务数据进行分析,难以早于市场发现企业财务异常的技术问题,提供一种财务造假线索的获取方法、装置、计算机设备和存储介质。
一种财务造假线索的获取方法,所述方法包括:
获取财务造假线索标签,并确定所述财务造假线索标签对应的财务指标的造假区间;
获取待识别企业的第一财务数据;
根据所述第一财务数据获取所述财务造假线索标签的财务指标值;
当所述财务指标值在所述财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将所述财务造假线索标签确定为财务造假线索。
在其中一个实施例中,所述获取财务造假线索标签,并确定所述财务造假线索标签对应的财务指标的造假区间的步骤,包括:
获取财务造假公司的新闻舆情语料以及第二财务数据,从所述新闻舆情语料中提取出所述财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签;
从所述第二财务数据中确定与各所述财务造假线索标签对应的造假会计科目;
根据所述造假会计科目计算各所述财务造假线索标签的财务指标值,并根据所述财务造假线索标签的财务指标值确定各所述财务造假线索标签对应财务指标的造假区间。
在其中一个实施例中,所述从所述新闻舆情语料中提取出所述财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签的步骤,包括:
对所述新闻舆情语料进行去停用词以及中文分词,并提取所述新闻舆情语料中的关键词;
获取各所述关键词的词向量,根据所述词向量将各所述关键词划分到不同的目标聚类中;
根据各所述目标聚类中关键词的语义信息生成财务造假线索标签。
在其中一个实施例中,所述根据所述词向量将各所述关键词划分到不同的目标聚类中的步骤,包括:
随机选取数量为预设聚类数目的词向量作为第一聚类中心;
计算各所述词向量与所述第一聚类中心之间的距离值,将各所述词向量分别划分到与所述第一聚类中心距离值最小的聚类中,得到聚类结果;
根据所述聚类结果计算各聚类的第二聚类中心,若各所述第二聚类中心与第一聚类中心相等,则将所述聚类结果中的各个聚类作为各所述目标聚类。
在其中一个实施例中,所述根据各所述目标聚类中关键词的语义信息生成线索标签的步骤之后,还包括:
将各所述目标聚类中的关键词保存为对应的财务造假线索标签的子标签;
所述获取待识别企业的第一财务数据的步骤之后,还包括:
爬取所述待识别企业的新闻舆情语料,从所述待识别企业的新闻舆情语料中提取出舆情关键词;
利用所述舆情关键词与所述财务造假线索标签的子标签进行匹配;
若所述舆情关键词与所述财务造假线索标签的子标签匹配成功,则将所述财务造假线索标签作为所述待识别企业的财务造假线索。
一种财务造假线索的获取装置,所述装置包括:
线索标签获取模块,用于获取财务造假线索标签,并确定所述财务造假线索标签对应的财务指标的造假区间;
财务数据获取模块,用于获取待识别企业的第一财务数据;
财务指标计算模块,用于根据所述第一财务数据获取所述财务造假线索标签的财务指标值;
财务造假线索确定模块,用于在所述财务指标值在所述财务造假线索标签的对应的造假区间时,将待识别企业确定为财务造假风险企业,并将所述财务造假线索标签确定为财务造假线索。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取财务造假线索标签,并确定所述财务造假线索标签对应的财务指标的造假区间;
获取待识别企业的第一财务数据;
根据所述第一财务数据获取所述财务造假线索标签的财务指标值;
当所述财务指标值在所述财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将所述财务造假线索标签确定为财务造假线索。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取财务造假线索标签,并确定所述财务造假线索标签对应的财务指标的造假区间;
获取待识别企业的第一财务数据;
根据所述第一财务数据获取所述财务造假线索标签的财务指标值;
当所述财务指标值在所述财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将所述财务造假线索标签确定为财务造假线索。
上述财务造假线索的获取方法、装置、计算机设备和存储介质,根据待识别企业的财务数据计算各类线索标签的财务指标值,从而将落到造假区间的财务指标对应的线索标签确定为待识别企业的财务造假线索,实现实时对待识别企业财务数据中财务造假线索的追踪,及时发现企业的风险点,实现风险把控。
附图说明
图1为一个实施例中财务造假线索的获取方法的应用场景图;
图2为一个实施例中财务造假线索的获取方法的流程示意图;
图3为一个实施例中获取与各类财务造假手段对应的财务造假线索标签及其造假区间的步骤的流程示意图;
图4为另一个实施例中财务造假线索的获取方法的流程示意图;
图5为一个实施例中财务造假线索的获取装置的结构框图;
图6为另一个实施例中财务造假线索的获取装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的财务造假线索的获取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104预先对已知的财务造假公司的财务数据信息进行分析,得到与各类财务造假手段对应的财务造假线索标签,在后续对待识别企业进行财务造假识别时,服务器104接收终端102发送的待识别企业的财务数据,并根据待识别企业的财务数据计算财务造假线索标签的指标值,通过将落入造假区间内的指标值对应的线索标签作为待识别企业的财务造假线索,并将财务造假线索该反馈至终端102,使得用户获知待识别企业的财务造假线索,实现实时财务造假的线索的追踪,及时发现企业的风险点,实现风险把控。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种财务造假线索的获取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S210:获取财务造假线索标签,并确定财务造假线索标签对应的财务指标的造假区间。
具体的,服务器可以预先对已知的财务造假公司的财务数据信息进行分析,得到与各类财务造假手段对应的财务造假线索标签,以及财务造假线索标签的财务造假指标值的区间。
步骤S220:获取待识别企业的第一财务数据。
本步骤中,服务器获取待识别企业的财务数据,财务数据包括但不限于资产类财务数据、成本类财务数据、负债类财务数据以及损益类财务数据。
步骤S230:根据第一财务数据获取财务造假线索标签的财务指标值。
本步骤中,服务器利用待识别企业的财务数据计算各类财务造假线索标签的财务指标值;具体的,服务器在获得待识别企业的财务数据后,可以先确定各类财务造假线索标签的财务指标值计算时需要的会计科目,并从待识别企业的财务数据获取这些会计科目下的目标财务数据,并根据目标财务数据计算待识别企业的财务造假线索标签的财务指标值。
步骤S240:当财务指标值在财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将财务造假线索标签确定为财务造假线索。
本步骤中,服务器通过判断待识别企业的财务造假线索标签的财务指标值是否落入财务造假线索标签对应的造假区间中,若财务指标值落入财务造假线索标签的对应的造假区间中,服务器将待识别企业确定为财务造假风险企业,并将财务造假线索标签确定为财务造假线索。
上述财务造假线索的获取方法,根据待识别企业的财务数据计算各类线索标签的财务指标值,从而将落到造假区间的财务指标对应的线索标签确定为待识别企业的财务造假线索,规避了过度依赖于专家主观经验,有效提高企业财务数据造假判断的可靠性,实现财务造假的线索的实时追踪,及时发现企业的风险点,实现风险把控,减少对投资者的收益造成损害。
在一个实施例中,如图2所示,提供了一种财务造假线索标签及其造假区间的获取方法,获取财务造假线索标签,并确定财务造假线索标签对应的财务指标的造假区间的步骤,包括:
步骤S310:获取财务造假公司的新闻舆情语料以及第二财务数据,从新闻舆情语料中提取出财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签。
本步骤中,服务器可以从***公布的财务造假公司名单确定财务造假公司,并获取财务造假公司名单上的财务造假公司的新闻舆情语料以及财务数据;服务器从新闻舆情语料中提取出这些财务造假公司涉及的财务造假事项,并生成与这些财务造假事项对应的线索标签。
步骤S320:从第二财务数据中确定与各财务造假线索标签对应的造假会计科目。
具体的,在确定财务造假事项并获取财务造假事项对应的线索标签后,服务器可以根据预设的财务造假事项与会计科目规则,从财务造假公司的财务数据中确定与各财务造假线索标签对应的造假会计科目;也可以从财务造假公司的财务数据中获取同时期出现造假的会计科目,将这些会计科目确定为造假会计科目。
步骤S330:根据造假会计科目计算各财务造假线索标签的财务指标值,并根据财务造假线索标签的财务指标值确定各财务造假线索标签对应财务指标的造假区间。
本步骤中,服务器从财务造假公司的财务数据中获取这些会计科目下的财务数据,并根据这些财务数据计算财务造假公司对应线索标签的财务指标值,从而得到了财务造假的线索标签在不同财务造假公司中的财务指标值,并根据这些财务造假的线索标签的财务指标值,确定设线索标签对应财务指标的造假区间。具体的,线索标签的造假区间,可以由财务造假公司的财务数据计算得到的财务指标值的最大值以及最小值确定造假区间;也可以根据由财务造假公司的财务数据计算得到的财务指标值的平均值确定造假区间。通过设置造假区间,将财务指标值落入造假区间的待识别企业确定为财务造假风险企业,提高企业财务数据造假判断的可靠性。
本实施例为获取与各类财务造假手段对应的财务造假线索标签及其造假区间的步骤;通过对已知的财务造假公司的财务数据信息进行分析,构建与各类财务造假手段对应的财务造假线索标签以及获取财务造假线索标签对应的造假区间,在后续对待识别企业进行财务造假识别时,可以将落入造假区间内的财务指标值对应的线索标签作为待识别企业的财务造假线索,规避了过度依赖于专家主观经验的弊端。
在一个实施例中,如图4所示,提供了一种财务造假线索的获取方法,包括以下步骤:
步骤S410:获取财务造假公司的新闻舆情语料以及第二财务数据,从新闻舆情语料中提取出财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签。
具体的,服务器从新闻舆情语料中提取出这些财务造假公司涉及的财务造假事项,并生成与这些财务造假事项对应的线索标签,例如,财务造假的线索标签可以包括“虚增收入”、“虚增估值”等。
步骤S420:从第二财务数据中确定与各财务造假线索标签对应的造假会计科目。
本步骤中,以线索标签“虚增收入”以及“虚增估值”为例,与线索标签“虚增收入”对应的造假会计科目可以确定为“应收账款”与“主营业务收入”,或者是“存货周转率”与“毛利率”;与线索标签“虚增估值”对于的会计科目可以确定为“累计折旧率”与“固定资产原值”,或者是“在建工程增长率”。
步骤S430:根据造假会计科目计算各财务造假线索标签的财务指标值,并根据财务造假线索标签的财务指标值确定各财务造假线索标签对应财务指标的造假区间。
具体的,服务器根据“应收账款”与“主营业务收入”的比值确定财务造假公司中线索标签“虚增收入”的财务指标值,并根据“累计折旧率”与“固定资产原值”的比值确定财务造假公司中线索标签“虚增估值”的财务指标值,并根据这些指标值分别确定线索标签“虚增收入”以及“虚增估值”的造假区间。
步骤S440:获取待识别企业的第一财务数据。
步骤S450:根据第一财务数据获取财务造假线索标签的财务指标值。
本步骤中,服务器读取第一财务数据中“应收账款”、“主营业务收入”、“累计折旧率”以及“固定资产原值”,并根据“应收账款”与“主营业务收入”的比值确定待识别企业的线索标签“虚增收入”的财务指标值,根据“累计折旧率”与“固定资产原值”的比值确定待识别企业的线索标签“虚增估值”的财务指标值。
步骤S460:当财务指标值在财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将财务造假线索标签确定为财务造假线索。
本步骤中,若待识别企业的线索标签“虚增收入”的财务指标值在线索标签“虚增收入”对应的造假区间中,则待识别企业确定为财务造假风险企业,其财务数据可能存在“虚增收入”这一风险;若待识别企业的线索标签“虚增估值”的财务指标值在线索标签“虚增估值”对应的造假区间中,则待识别企业确定为财务造假风险企业,其财务数据可能存在“虚增估值”这一风险。
本实施例中,服务器通过对已知的财务造假公司的财务数据信息进行分析,构建与各类财务造假手段对应的财务造假线索标签以及获取财务造假线索标签对应的造假区间,在后续对待识别企业进行财务造假识别时,可以将落入造假区间内的财务指标值对应的线索标签作为待识别企业的财务造假线索,规避了过度依赖于专家主观经验,有效提高企业财务数据造假判断的可靠性,实现财务造假的线索的实时追踪,及时发现企业的风险点,实现风险把控。
在一个实施例中,从新闻舆情语料中提取出财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签的步骤,包括:对新闻舆情语料进行去停用词以及中文分词,并提取新闻舆情语料中的关键词;获取各关键词的词向量,根据词向量将各关键词划分到不同的目标聚类中;根据各目标聚类中关键词的语义信息生成财务造假线索标签。
具体的,服务器对财务造假公司的新闻舆情语料进行去停用词以及中文分词,以获取新闻舆情语料中的关键词;获得关键词后,服务器可以利用利用word2vce训练的词嵌入模型获取各个关键词对应的词向量,并根据关键词的词向量对关键词进行聚类计算,将相关的关键词划分到同一目标聚类中;提取归为同一目标聚类中关键词的语义信息,生成线索标签。例如,多家财务造假公司的新闻舆情语料中出现“换帅”、“罢免CFO”、“更换CFO”等词,则将这些关键词归为同一目标聚类中,并生成“高管职位变动”作为线索标签。
在一个实施例中,根据词向量将各关键词划分到不同的目标聚类中的步骤,包括:随机选取数量为预设聚类数目的词向量作为第一聚类中心;计算各词向量与第一聚类中心之间的距离值,将各词向量分别划分到与第一聚类中心距离值最小的聚类中,得到聚类结果;根据聚类结果计算各聚类的第二聚类中心,若各第二聚类中心与第一聚类中心相等,则将聚类结果中的各个聚类作为各目标聚类。
本实施例中,服务器已关键词的词向量作为特征向量,利用聚类算法将多个关键词划分到一定数量的聚类中,实现快速、准确地将属于同一类财务造假手段的关键词归类。具体的,服务器先随机从多个词向量中随机选取K个词向量作为第一聚类中心,其中,K为目标聚类的数目,然后计算各个词向量与第一聚类中心的距离,把词向量归类到离其最近的第一聚类中心所在的聚类中。计算新形成的每一个聚类的词向量的平均值获得第二聚类中心,如果相邻两次的聚类中心没有任何变化,则聚类完成。
进一步的,在一个实施例中,根据聚类结果计算各聚类的第二聚类中心的步骤之后,还包括以下步骤:若各第二聚类中心与各第一聚类中心不相等,则将各第二聚类中心作为第一聚类中心,跳转执行计算各词向量与第一聚类中心之间的距离值,将各词向量分别划分到与第一聚类中心距离值最小的聚类中的步骤。
在一个实施例中,根据各目标聚类中关键词的语义信息生成财务造假线索标签的步骤之后,还包括:将各目标聚类中的关键词保存为对应的财务造假线索标签的子标签;获取待识别企业的第一财务数据的步骤之后,还包括:爬取待识别企业的新闻舆情语料,从待识别企业的新闻舆情语料中提取出舆情关键词;利用舆情关键词与财务造假线索标签的子标签进行匹配;若舆情关键词与财务造假线索标签的子标签匹配成功,则将财务造假线索标签作为待识别企业的财务造假线索。
本实施例中,服务器爬取待识别企业的新闻舆情语料,从待识别企业的新闻舆情语料中,提取出与待识别企业相关的舆情关键词;利用舆情关键词与财务造假手段标签的子标签进行匹配,若舆情关键词与子标签相同,则将对应的财务造假手段标签作为财务造假线索反馈至客户端。通过从待识别企业的新闻舆情这一角度出发,挖掘待识别企业隐藏的信息以发现财务造假线索,通过待识别企业的新闻舆情语料以及财务数据获取双重保障,实现早于市场发现企业的财务异常,能够提前预警财务风险,避免投资者的收益收到损害。
应该理解的是,虽然图2至图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种财务造假线索的获取装置,包括:财务数据获取模块510、财务指标计算模块520和财务造假线索确定模块530,其中:
线索标签获取模块510,用于获取财务造假线索标签,并确定财务造假线索标签对应的财务指标的造假区间;
财务数据获取模块520,用于获取待识别企业的第一财务数据;
财务指标计算模块530,用于根据第一财务数据获取财务造假线索标签的财务指标值;
财务造假线索确定模块540,用于在财务指标值在财务造假线索标签的对应的造假区间时,将待识别企业确定为财务造假风险企业,并将财务造假线索标签确定为财务造假线索。
在一个实施例中,线索标签获取模块510,用于获取财务造假公司的新闻舆情语料以及第二财务数据,从新闻舆情语料中提取出财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签;从第二财务数据中确定与各财务造假线索标签对应的造假会计科目;根据造假会计科目计算各财务造假线索标签的财务指标值,并根据财务造假线索标签的财务指标值确定各财务造假线索标签对应财务指标的造假区间。
在一个实施例中,线索标签获取模块510用于对新闻舆情语料进行去停用词以及中文分词,并提取新闻舆情语料中的关键词;获取各关键词的词向量,根据词向量将各关键词划分到不同的目标聚类中;根据各目标聚类中关键词的语义信息生成财务造假线索标签。
在一个实施例中,线索标签获取模块510用于随机选取数量为预设聚类数目的词向量作为第一聚类中心;计算各词向量与第一聚类中心之间的距离值,将各词向量分别划分到与第一聚类中心距离值最小的聚类中,得到聚类结果;根据聚类结果计算各聚类的第二聚类中心,若各第二聚类中心与第一聚类中心相等,则将聚类结果中的各个聚类作为各目标聚类。
在一个实施例中,如图6所示,提供了一种财务造假线索的获取装置,该财务造假线索的获取装置还包括子标签匹配模块550;线索标签获取模块510还用于将各目标聚类中的关键词保存为对应的财务造假线索标签的子标签;子标签匹配模块550用于爬取待识别企业的新闻舆情语料,从待识别企业的新闻舆情语料中提取出舆情关键词;利用舆情关键词与财务造假线索标签的子标签进行匹配;若舆情关键词与财务造假线索标签的子标签匹配成功,则将财务造假线索标签作为待识别企业的财务造假线索。
关于财务造假线索的获取装置的具体限定可以参见上文中对于财务造假线索的获取方法的限定,在此不再赘述。上述财务造假线索的获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储财务造假线索标签以及各类财务数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种财务造假线索的获取方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取财务造假线索标签,并确定财务造假线索标签对应的财务指标的造假区间;
获取待识别企业的第一财务数据;
根据第一财务数据获取财务造假线索标签的财务指标值;
若财务指标值在财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将财务造假线索标签确定为财务造假线索。
在一个实施例中,处理器执行计算机程序实现获取财务造假线索标签,并确定财务造假线索标签对应的财务指标的造假区间的步骤时,具体实现以下步骤:获取财务造假公司的新闻舆情语料以及第二财务数据,从新闻舆情语料中提取出财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签;从第二财务数据中确定与各财务造假线索标签对应的造假会计科目;根据造假会计科目计算各财务造假线索标签的财务指标值,并根据财务造假线索标签的财务指标值确定各财务造假线索标签对应财务指标的造假区间。
在一个实施例中,处理器执行计算机程序实现从新闻舆情语料中提取出财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签的步骤时,具体实现以下步骤:对新闻舆情语料进行去停用词以及中文分词,并提取新闻舆情语料中的关键词;获取各关键词的词向量,根据词向量将各关键词划分到不同的目标聚类中;根据各目标聚类中关键词的语义信息生成财务造假线索标签。
在一个实施例中,处理器执行计算机程序实现根据词向量将各关键词划分到不同的目标聚类中的步骤,具体实现以下步骤:随机选取数量为预设聚类数目的词向量作为第一聚类中心;计算各词向量与第一聚类中心之间的距离值,将各词向量分别划分到与第一聚类中心距离值最小的聚类中,得到聚类结果;根据聚类结果计算各聚类的第二聚类中心,若各第二聚类中心与第一聚类中心相等,则将聚类结果中的各个聚类作为各目标聚类。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各目标聚类中的关键词保存为对应的财务造假线索标签的子标签;爬取待识别企业的新闻舆情语料,从待识别企业的新闻舆情语料中提取出舆情关键词;利用舆情关键词与财务造假线索标签的子标签进行匹配;若舆情关键词与财务造假线索标签的子标签匹配成功,则将财务造假线索标签作为待识别企业的财务造假线索。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取财务造假线索标签,并确定财务造假线索标签对应的财务指标的造假区间;
获取待识别企业的第一财务数据;
根据第一财务数据获取财务造假线索标签的财务指标值;
若财务指标值在财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将财务造假线索标签确定为财务造假线索。
在一个实施例中,计算机程序被处理器执行实现获取财务造假线索标签,并确定财务造假线索标签对应的财务指标的造假区间的步骤时,具体实现以下步骤:获取财务造假公司的新闻舆情语料以及第二财务数据,从新闻舆情语料中提取出财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签;从第二财务数据中确定与各财务造假线索标签对应的造假会计科目;根据造假会计科目计算各财务造假线索标签的财务指标值,并根据财务造假线索标签的财务指标值确定各财务造假线索标签对应财务指标的造假区间。
在一个实施例中,计算机程序被处理器执行实现从新闻舆情语料中提取出财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签的步骤时,具体实现以下步骤:对新闻舆情语料进行去停用词以及中文分词,并提取新闻舆情语料中的关键词;获取各关键词的词向量,根据词向量将各关键词划分到不同的目标聚类中;根据各目标聚类中关键词的语义信息生成财务造假线索标签。
在一个实施例中,计算机程序被处理器执行实现根据词向量将各关键词划分到不同的目标聚类中的步骤,具体实现以下步骤:随机选取数量为预设聚类数目的词向量作为第一聚类中心;计算各词向量与第一聚类中心之间的距离值,将各词向量分别划分到与第一聚类中心距离值最小的聚类中,得到聚类结果;根据聚类结果计算各聚类的第二聚类中心,若各第二聚类中心与第一聚类中心相等,则将聚类结果中的各个聚类作为各目标聚类。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将各目标聚类中的关键词保存为对应的财务造假线索标签的子标签;爬取待识别企业的新闻舆情语料,从待识别企业的新闻舆情语料中提取出舆情关键词;利用舆情关键词与财务造假线索标签的子标签进行匹配;若舆情关键词与财务造假线索标签的子标签匹配成功,则将财务造假线索标签作为待识别企业的财务造假线索。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种财务造假线索的获取方法,所述方法包括:
获取财务造假线索标签,并确定所述财务造假线索标签对应的财务指标的造假区间;
获取待识别企业的第一财务数据;
根据所述第一财务数据获取所述财务造假线索标签的财务指标值;
当所述财务指标值在所述财务造假线索标签的对应的造假区间中,将待识别企业确定为财务造假风险企业,并将所述财务造假线索标签确定为财务造假线索。
2.根据权利要求1所述的方法,其特征在于,所述获取财务造假线索标签,并确定所述财务造假线索标签对应的财务指标的造假区间的步骤,包括:
获取财务造假公司的新闻舆情语料以及第二财务数据,从所述新闻舆情语料中提取出所述财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签;
从所述第二财务数据中确定与各所述财务造假线索标签对应的造假会计科目;
根据所述造假会计科目计算各所述财务造假线索标签的财务指标值,并根据所述财务造假线索标签的财务指标值确定各所述财务造假线索标签对应财务指标的造假区间。
3.根据权利要求2所述的方法,其特征在于,所述从所述新闻舆情语料中提取出所述财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签的步骤,包括:
对所述新闻舆情语料进行去停用词以及中文分词,并提取所述新闻舆情语料中的关键词;
获取各所述关键词的词向量,根据所述词向量将各所述关键词划分到不同的目标聚类中;
根据各所述目标聚类中关键词的语义信息生成财务造假线索标签。
4.根据权利要求3所述的方法,其特征在于,所述根据所述词向量将各所述关键词划分到不同的目标聚类中的步骤,包括:
随机选取数量为预设聚类数目的词向量作为第一聚类中心;
计算各所述词向量与所述第一聚类中心之间的距离值,将各所述词向量分别划分到与所述第一聚类中心距离值最小的聚类中,得到聚类结果;
根据所述聚类结果计算各聚类的第二聚类中心,若各所述第二聚类中心与第一聚类中心相等,则将所述聚类结果中的各个聚类作为各所述目标聚类。
5.根据权利要求3所述的方法,其特征在于,所述根据各所述目标聚类中关键词的语义信息生成财务造假线索标签的步骤之后,还包括:
将各所述目标聚类中的关键词保存为对应的财务造假线索标签的子标签;
所述获取待识别企业的第一财务数据的步骤之后,还包括:
爬取所述待识别企业的新闻舆情语料,从所述待识别企业的新闻舆情语料中提取出舆情关键词;
利用所述舆情关键词与所述财务造假线索标签的子标签进行匹配;
若所述舆情关键词与所述财务造假线索标签的子标签匹配成功,则将所述财务造假线索标签作为所述待识别企业的财务造假线索。
6.一种财务造假线索的获取装置,其特征在于,所述装置包括:
线索标签获取模块,用于获取财务造假线索标签,并确定所述财务造假线索标签对应的财务指标的造假区间;
财务数据获取模块,用于获取待识别企业的第一财务数据;
财务指标计算模块,用于根据所述第一财务数据获取所述财务造假线索标签的财务指标值;
财务造假线索确定模块,用于在所述财务指标值在所述财务造假线索标签的对应的造假区间时,将待识别企业确定为财务造假风险企业,并将所述财务造假线索标签确定为财务造假线索。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括财务造假线索标签构建模块;
所述财务造假线索标签构建模块,用于获取财务造假公司的新闻舆情语料以及第二财务数据,从所述新闻舆情语料中提取出所述财务造假公司涉及的财务造假事项,生成若干个财务造假线索标签;从所述第二财务数据中确定与各所述财务造假线索标签对应的造假会计科目;根据所述造假会计科目计算各所述财务造假线索标签的财务指标值,并根据所述财务造假线索标签的财务指标值确定各所述财务造假线索标签对应财务指标的造假区间。
8.根据权利要求6所述的装置,其特征在于,所述财务造假线索标签构建模块,用于对所述新闻舆情语料进行去停用词以及中文分词,并提取所述新闻舆情语料中的关键词;获取各所述关键词的词向量,根据所述词向量将各所述关键词划分到不同的目标聚类中;根据各所述目标聚类中关键词的语义信息生成财务造假线索标签。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811184169.1A CN109214904B (zh) | 2018-10-11 | 2018-10-11 | 财务造假线索的获取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811184169.1A CN109214904B (zh) | 2018-10-11 | 2018-10-11 | 财务造假线索的获取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109214904A true CN109214904A (zh) | 2019-01-15 |
CN109214904B CN109214904B (zh) | 2024-07-02 |
Family
ID=64980117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811184169.1A Active CN109214904B (zh) | 2018-10-11 | 2018-10-11 | 财务造假线索的获取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214904B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390488A (zh) * | 2019-07-26 | 2019-10-29 | 浪潮软件股份有限公司 | 一种基于k-均值聚类算法的信用风险企业特征识别方法 |
CN110688463A (zh) * | 2019-10-11 | 2020-01-14 | 支付宝(杭州)信息技术有限公司 | 企业名单的处理方法及其装置 |
CN111553597A (zh) * | 2020-04-29 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种对企业进行财务舞弊风险识别的方法及装置 |
CN111612040A (zh) * | 2020-04-24 | 2020-09-01 | 平安直通咨询有限公司上海分公司 | 基于孤立森林算法的财务数据异常检测方法及相关装置 |
CN111612601A (zh) * | 2020-04-17 | 2020-09-01 | 北京智信度科技有限公司 | 基于服务机构的上市公司的财务风险识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063767A (zh) * | 2014-07-07 | 2014-09-24 | 许蔚蔚 | 一种上市公司财务安全状况评价方法 |
CN107909274A (zh) * | 2017-11-17 | 2018-04-13 | 平安科技(深圳)有限公司 | 企业投资风险评估方法、装置及存储介质 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108229806A (zh) * | 2017-12-27 | 2018-06-29 | 中国银行股份有限公司 | 一种分析企业风险的方法以及*** |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
CN108550001A (zh) * | 2018-07-16 | 2018-09-18 | 鑫银科技集团股份有限公司 | 一种财务风险动态评估方法及装置 |
-
2018
- 2018-10-11 CN CN201811184169.1A patent/CN109214904B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063767A (zh) * | 2014-07-07 | 2014-09-24 | 许蔚蔚 | 一种上市公司财务安全状况评价方法 |
CN107909274A (zh) * | 2017-11-17 | 2018-04-13 | 平安科技(深圳)有限公司 | 企业投资风险评估方法、装置及存储介质 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108229806A (zh) * | 2017-12-27 | 2018-06-29 | 中国银行股份有限公司 | 一种分析企业风险的方法以及*** |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
CN108550001A (zh) * | 2018-07-16 | 2018-09-18 | 鑫银科技集团股份有限公司 | 一种财务风险动态评估方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390488A (zh) * | 2019-07-26 | 2019-10-29 | 浪潮软件股份有限公司 | 一种基于k-均值聚类算法的信用风险企业特征识别方法 |
CN110688463A (zh) * | 2019-10-11 | 2020-01-14 | 支付宝(杭州)信息技术有限公司 | 企业名单的处理方法及其装置 |
CN111612601A (zh) * | 2020-04-17 | 2020-09-01 | 北京智信度科技有限公司 | 基于服务机构的上市公司的财务风险识别方法及装置 |
CN111612601B (zh) * | 2020-04-17 | 2023-05-09 | 北京智信度科技有限公司 | 基于服务机构的上市公司的财务风险识别方法及装置 |
CN111612040A (zh) * | 2020-04-24 | 2020-09-01 | 平安直通咨询有限公司上海分公司 | 基于孤立森林算法的财务数据异常检测方法及相关装置 |
CN111612040B (zh) * | 2020-04-24 | 2024-04-30 | 平安直通咨询有限公司上海分公司 | 基于孤立森林算法的财务数据异常检测方法及相关装置 |
CN111553597A (zh) * | 2020-04-29 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种对企业进行财务舞弊风险识别的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109214904B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109214904A (zh) | 财务造假线索的获取方法、装置、计算机设备和存储介质 | |
CN108876133B (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
Karim et al. | Decision tree and naive bayes algorithm for classification and generation of actionable knowledge for direct marketing | |
CN110390465A (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
CN110489520A (zh) | 基于知识图谱的事件处理方法、装置、设备和存储介质 | |
US8355896B2 (en) | Co-occurrence consistency analysis method and apparatus for finding predictive variable groups | |
CN109949154B (zh) | 客户信息分类方法、装置、计算机设备和存储介质 | |
Lekha et al. | Data mining techniques in detecting and predicting cyber crimes in banking sector | |
CN108491406B (zh) | 信息分类方法、装置、计算机设备和存储介质 | |
CN109829629A (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
CN110570312B (zh) | 样本数据获取方法、装置、计算机设备和可读存储介质 | |
CN109583682A (zh) | 企业财务造假风险的识别方法、装置以及计算机设备 | |
Fadaei Noghani et al. | Ensemble classification and extended feature selection for credit card fraud detection | |
CN109767326A (zh) | 可疑交易报告生成方法、装置、计算机设备和存储介质 | |
CN109801151A (zh) | 财务造假风险监控方法、装置、计算机设备和存储介质 | |
CN115269437A (zh) | 测试用例推荐方法、装置、计算机设备及存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
Galletta et al. | Sharpening ponzi schemes detection on ethereum with machine learning | |
Elrefai et al. | Using artificial intelligence in enhancing banking services | |
Jose et al. | Detection of credit card fraud using resampling and boosting technique | |
Bhujbal et al. | Leveraging the efficiency of Ensembles for Customer Retention | |
Yeh et al. | Predicting failure of P2P lending platforms through machine learning: The case in China | |
CN114493858A (zh) | 一种非法资金转移可疑交易监测方法及相关组件 | |
CN113344581A (zh) | 业务数据处理方法及装置 | |
CN113487320A (zh) | 欺诈交易检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |