CN113919342A - 一种会计术语共现网络图构建的方法 - Google Patents

一种会计术语共现网络图构建的方法 Download PDF

Info

Publication number
CN113919342A
CN113919342A CN202111096537.9A CN202111096537A CN113919342A CN 113919342 A CN113919342 A CN 113919342A CN 202111096537 A CN202111096537 A CN 202111096537A CN 113919342 A CN113919342 A CN 113919342A
Authority
CN
China
Prior art keywords
accounting
words
pagerank
term
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111096537.9A
Other languages
English (en)
Inventor
潘定
梁倬骞
叶迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202111096537.9A priority Critical patent/CN113919342A/zh
Publication of CN113919342A publication Critical patent/CN113919342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种会计术语共现网络图构建的方法,所述方法包括对会计领域的语义基元进行提取,即对会计词典中的词汇构建有向网络图,利用改进后的PageRank算法进行语义基元的提取和领域知识的描述,再基于同义词林合并,最终得到会计术语的语义基元的候选集合。本发明利用会计领域知识的特点,针对会计词典语料设计了基于图论的语义基元抽取方法。会计词典作为会计领域重要专业语料和权威规范文本,***全面地涵盖了会计领域有关术语及其定义。如果能借助从会计词典中抽取的语义基元,让计算机“读懂”会计文本,那么会计领域的大量信息将被得以有效利用,因此基于会计词典的术语研究有效突破了在语义基元抽取中的主观分析和小样本数据局限。

Description

一种会计术语共现网络图构建的方法
技术领域
本发明涉及计算机对于财务信息的可读取性的技术领域,尤其涉及一种会计术语共现网络图构建的方法。
技术背景
目前会计领域中网络财务报告缺少标准化的知识描述,因此在解决计算机对财务信息可读性方面遇到了困难,阻碍了XBRL等网络财务报告的使用广度和发展前景。目前少数学者基于当前流行的机器学习算法试图解决语义基元提取难点,这些方法虽然有效地减少了人工以及时间成本,但抽取出的术语存在大量噪声、领域特性不突出且无法验证其有效性。本发明的研究弥补了网络财务报告的研究空白,针对面向XBRL财务报告中“核心语言的提取”的关键问题予以研究,引入语义基元的概念,旨在增强会计领域知识表达的语义特性,有助于增强机器识别信息的准确性和效率性。
语义基元的成功提取有助于推动会计通用分类标准的质量水平,增强计算机对于财务信息的可读取性,提高利益相关者对于财务信息获取的准确性和效率性,减少网络财务报告应用和推广的技术壁垒,从而促进企业采纳网络财务报告的主动性。从更加长远和宏观的角度来看,本发明的研究可以提高信息披露的精准度和真实性,在一定程度上可以避免企业进行财务造假,有助于保护利益相关者的合法权益,维护市场的信息质量,具备一定的现实意义。
从现有的技术表明,少数人基于当前流行的机器学习算法试图解决本体构建难点,这些方法虽然有效的减少了人工以及时间成本,但抽取出的术语存在大量噪声、领域特性不突出且缺乏实务性。一般而言,语义基元的提取分为基于语言学、统计学、机器学习和图论等提取方法,但是这些方法都具有一定的局限性,具体的说:
1、目前的研究仅停留在词汇层面,没有深入到语义层面。
从相关研究中可以看出,目前针对该问题的研究大多停留在词汇层面,即用于构建本体的语义材料被认为是本体所需概念和冗余信息的集合,作者所采取的研究方法是对信息进行一定程度上的清洗和筛选,最终得到符合指标体系的关键词作为本体所需概念。但这种研究方法受限于所选的语义材料,其中基于语言学的提取方法处理的语义材料规模较小,而基于统计学、机器学习的方法虽然可以处理大规模文本,但是提取出的术语存在大量噪声、领域特性不突出且缺乏语义特性。
2、与领域知识的贴合度不够。
从语义基元提取方法的相关研究可以看出,提取语义基元所用的文本材料缺乏专业权威性,或者缺少领域专家的参与,使得提取出的语义基元和领域知识的贴合度不够。而本发明选取了会计词典作为财务报告领域权威且全面的文本材料,并且在分析本方法的有效性和优越性时,邀请了领域专家参与,旨在最大限度上保证提取出的语义基元和领域知识之间较高的匹配度。
3、研究视角单一,跨领域研究成果较少。
在已有的研究中,更多的概念提取是来自于文本材料的关键词,研究过程是对文本材料去除冗余信息,使得研究视角较为单一,且跨领域研究成果较少。
发明内容
针对现有技术的不足,本发明公开了一种会计术语共现网络图构建的方法,本发明利用会计领域知识的特点,运用会计词典选取了基于图论的语义基元抽取方法。词典作为会计领域权威规范文本,***全面地涵盖了会计领域有关术语及其定义,如果能让计算机“读懂”会计词典,那么会计领域的大量信息将被得以有效利用,因此基于会计词典的研究有效突破了在语义基元抽取中主观分析和小样本数据的局限。
为了实现上述技术目的,本发明采用的技术方案如下:
一种会计术语共现网络图构建的方法,所述方法包括对会计领域的语义基元进行提取,通过会计词典构建有向网络图,利用改进后的PageRank算法进行语义基元的提取和领域知识的描述,再基于同义词林合并,最终得到语义基元的候选集合。
需要说明的是,具体所述方法包括:
S1手工提取、整理会计术语的定义文本,并汇总于Excel中;
S2对步骤S1中的汇总Excel进行文本切词、去停用词、去重处理;
S3构建会计术语有向网络图;
S4基于步骤S3的会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据;
S5计算出PageRank值较高的词语后,对其进行基于同义词林的语义基元合并后,得到最终语义基元的候选集合。
需要说明的是,所述步骤S2中,利用Python自带的jieba包进行切词,值得注意的是,为了保证会计术语的完备性,需要将会计词典中的会计术语导入自定义词典,并建立停用词表对每个术语的定义文本中的词语进行去重处理。
需要说明的是,所述步骤S3中,依据切词结果,对文本进行有向环路图的构建;其中,以词汇及切词后的定义文本词汇为节点,词汇和定义文本词汇间有一条有向边,具体是词汇指向若干个定义文本词汇,并且,若某一词汇A的定义文本中如果出现另一个词汇B,那么词汇A、词汇B之间就存在一条有向边,具体是词汇A指向词汇B的一条有向边。
需要说明的是,所述步骤S5中,提取出的语义基元集中在非会计术语集合中,而基于会计词典在编撰过程中语言表达的多样式,提取出的语义基元存在着定义相近形式不同的词汇,因此需要对该类词汇予以合并,较大程度的保证语义基元的表达效率。
需要说明的是,本发明所述步骤S4中的核心程序为:
pr=centrality(G,‘pagerank’,‘Followprobability’,0.85)
G.Nodes.PageRank=pr
G.Nodes.InDegree=indegree(G)
G.Nodes.OutDegree=outdegree(G)
G.Nodes%查看每个节点的PR得分和级别信息
plot(G,‘NodeLabel’,{},‘NodeColor’,[0.93 0.78 0],‘Layout’,‘force’)
title(‘PageRank’)%使用强制布局绘制图表
pr=centrality(G,‘pagerank’,‘MaxIterations’,200,‘FollowProbability’,0.85)
%使用200次迭代和阻尼因子0.85计算G的PageRank得分,将得分和级别信息添加到图形的节点表中
G.Nodes=sortrows(G.Nodes,‘PageRank’,‘descend’)
%按PR值降虚排列
H=subgraph(G,find(G.Nodes.PageRank>0.005))
plot(H,‘NodeLabel’,{},‘NodeCData’,H.Nodes.PageRank,‘Layout’,‘force’)
title(‘PageRank’)
colorbar
%提取并绘制包含得分大于0.005的所有节点的子图,根据图形节点的PageRank得分为它们着色。
本发明的优势在于:
1、分析了财务报告和财务信息元素的用语特征,并总结出财务信息元素的术语结构特点。首先结合定性与定量方法,分析财务报告在结构和用语层面的特征;接着,以XBRL通用分类标准元素清单为核心语料,通过人工划分,得出元素清单中术语的结构规律性,其中包含以核心词主要的信息承担部分,附加修饰成分用以表达术语的相关属性,这一结构特点对语义基元的提取提供指导和依据。
2、兼顾了语义基元提取的全面性与规模性。首先通过构建会计词典有向图,分析出每一个节点仅存在“是/否在环路上”两种情况,因此对于在环路上的点利用PageRank值进行提取,若不在环路上则选择出度为0的点,以保证语义基元提取的全面性和科学性;此外,本发明对初步提取出的语义基元利用同义词林予以合并,较大程度的保证了语义基元的表达效率,实现以最小的语义基元规模表示最大的领域知识范围。
附图说明
图1为本发明中依据表1构建有向环路图示意图;
图2为本发明环路图及PageRank值分布示例。
具体实施例
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本发明为一种会计术语共现网络图构建的方法,所述方法包括对会计领域的语义基元进行提取,通过会计词典构建有向网络图,利用改进后的PageRank算法进行语义基元的提取和领域知识的描述,再基于同义词林合并,最终得到语义基元的候选集合。
需要说明的是,具体所述方法包括:
S1手工提取、整理会计术语的定义文本,并汇总于Excel中;
S2对步骤S1中的汇总Excel进行文本切词、去停用词、去重处理;
S3构建会计术语有向网络图;
S4基于步骤S3的会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据;
S5计算出PageRank值较高的词语后,对其进行基于同义词林的语义基元合并后,得到最终语义基元的候选集合。
需要说明的是,所述步骤S2中,利用Python自带的jieba包进行切词,值得注意的是,为了保证会计术语的完备性,需要将会计词典中的会计术语导入自定义词典,并建立停用词表对每个术语的定义文本中的词语进行去重处理。
需要说明的是,所述步骤S3中,依据切词结果,对文本进行有向环路图的构建;其中,以词汇及切词后的定义文本词汇为节点,词汇和定义文本词汇间有一条有向边,具体是词汇指向若干个定义文本词汇,并且,若某一词汇A的定义文本中如果出现另一个词汇B,那么词汇A、词汇B之间就存在一条有向边,具体是词汇A指向词汇B的一条有向边。
需要说明的是,所述步骤S5中,提取出的语义基元集中在非会计术语集合中,而基于会计词典在编撰过程中语言表达的多样式,提取出的语义基元存在着定义相近形式不同的词汇,因此需要对该类词汇予以合并,较大程度的保证语义基元的表达效率。
需要说明的是,本发明所述步骤S4中的核心程序为:
pr=centrality(G,‘pagerank’,‘Followprobability’,0.85)
G.Nodes.PageRank=pr
G.Nodes.InDegree=indegree(G)
G.Nodes.OutDegree=outdegree(G)
G.Nodes%查看每个节点的PR得分和级别信息
plot(G,‘NodeLabel’,{},‘NodeColor’,[0.93 0.78 0],‘Layout’,‘force’)
title(‘PageRank’)%使用强制布局绘制图表
pr=centrality(G,‘pagerank’,‘MaxIterations’,200,‘FollowProbability’,0.85)
%使用200次迭代和阻尼因子0.85计算G的PageRank得分,将得分和级别信息添加到图形的节点表中
G.Nodes=sortrows(G.Nodes,‘PageRank’,‘descend’)
%按PR值降虚排列
H=subgraph(G,find(G.Nodes.PageRank>0.005))
plot(H,‘NodeLabel’,{},‘NodeCData’,H.Nodes.PageRank,‘Layout’,‘force’)
title(‘PageRank’)
colorbar
%提取并绘制包含得分大于0.005的所有节点的子图,根据图形节点的PageRank得分为它们着色。
实施例
仿真实验
本发明以2009年由中国财政经济出版社陈今池编著《英汉现代财会大词典》作为实验数据,从中整理了4289条会计术语、32086个词项,以此作为实验的会计领域文本。
这里处理数据主要用到的程序和软件有:Excel2016、Python3.7、MATLAB R2016a等,其中Excel用于会计词典的结构化整理,利用Python的jieba包对术语的定义进行切词,并基于MATLAB绘制有向环路图并计算PageRank值。具体工作如下:
(1)手工提取、整理会计术语的定义文本。
根据上文中对会计词典的文本分析,在词典中,针对某一会计术语的释义不仅存在着定义性描述,还存在着举例、计算公式等非定义性描述,而该部分对于语义基元的提取来说是冗余部分,因此本发明手动提取、整理了会计术语的定义文本,并汇总于Excel中。
(2)文本切词、去停用词、去重处理。
接着利用Python自带的jieba包进行切词,值得注意的是,为了保证会计术语的完备性,需要将会计词典中的4289条会计术语导入自定义词典,接着建立停用词表,并对每个术语的定义文本中的词汇进行去重处理。
表1会计词典切词部分示例
Figure BDA0003269235210000091
Figure BDA0003269235210000101
(3)构建会计术语有向网络图。
依据上述切词结果,可对这些文本进行有向环路图的构建,如图1所示。具体构造思路是以词汇及切词后的定义文本词汇为节点,词汇和定义文本词汇间有一条有向边,具体是词汇指向若干个定义文本词汇,并且,如果某一词汇A(如:租金)的定义文本中如果出现另一个词汇B(如:租赁),那么A、B之间就存在一条有向边,具体是A指向B的一条有向边。用图形来描述上述关系。
(4)计算PageRank值。
基于会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据。
从图2中可以看出,叶子节点的PR值普遍较高,又由于语义基元是用来解释别的词汇且自身不可被解释,因此语义基元的提取应在叶子结点上,这与上文中的分析是一致的。而对于在环路上的节点来说,本发明将选择PR值最高的点作为语义基元。
初步提取结果
基于PageRank进行筛选可得到的语义基元排序:
表2 PageRank排名前20的会计术语示例
Figure BDA0003269235210000102
Figure BDA0003269235210000111
计算出PR值较高的词语后,需要对其进行以下处理以达到提取的准确性以及规模性:
(1)语义基元主要存在于环路中PR值最大的点和非环路中的叶子节点
其一是出度为0的点,如上表中的“建筑工程”、“份额”、“总额”、“求出”、“记录”、“规定”,这些术语的出度为0,说明在有向图中处于叶子节点的位置,且这些节点的PageRank值较高,但可以注意到,在这种情况下,提取出的节点中存在同义词现象,这会造成提取出的语义基元规模较大,因此本发明基于同义词林将释义相近的词予以合并,如上述“份额”和“总额”,可以仅用其中一个词来进行表示。
其二是处在环路中的PR值最大的点,如“资产”、“收益”、“股份”处在同一环路时,PR(资产)>PR(收益)>PR(股份),因此“资产”将作为语义基元被提取出来。
(2)基于同义词林的语义基元合并
语义基元承载着对领域知识进行表达的能力,但是如若语义基元中的词汇很多,那提取语义基元的意义就不大了,因此在保证知识表达的准确性的同时,也要兼顾知识表达的效率性,即能够以最小的语义基元规模表示最大的领域知识范围。本研究提取出的语义基元集中在非会计术语集合中,而基于会计词典在编撰过程中语言表达的多样式,提取出的语义基元存在着定义相近形式不同的词汇,因此需要对该类词汇予以合并,较大程度的保证语义基元的表达效率。
同义词林合并
为了提高知识表达的效率性,基于同义词林对初步提取结果予以合并。安装WordSimilarity模块用于计算相似度,读取初步提取结果Excel文件里的所有术语,为保证最大应用效率,在本发明中选取0.8作为规定相似度。如果两个术语相似度大于0.8,则写入到新的Excel文件中的同一行。
经过同义词林予以合并后的语义基元部分示例如表5-3所示。
表3 同义词林合并
Figure BDA0003269235210000131
采用该种相似度计算方法,“相似度高”可能意味着“相似性高”,也可能是“相关性高”,如在规定为0.8的相似度中,“他人”和“本人”、“自己”归在了一起,在0.9中则不会。但在0.9中显然可以归为一类的变少很多。
且在Excel中某些术语并没有得到合并,其原因主要有以下两点:
(1)表格中多数为专有名词,不在WordSimilarity编码好的词林中,所以计算不出来相似度。
(2)里面很多词是合成词,由两个词构成,如“职工舞弊”、“买卖双方”,也不利于计算相似度。
实施例2
验证本发明的有效性
采用本发明提出的模型对会计领域的语义基元进行提取,通过对会计词典构建有向网络图,利用改进PageRank算法即PRFR算法进行语义基元的提取和领域知识的描述,再基于同义词林合并,得到最终语义基元的候选集合,将基于词频的方法和基于TF-IDF的方法作为基准实验进行对比分析。
(1)基于词频的方法
基于词频的方法通过统计术语的出现频次,并按照频次高低对术语进行排名,取排名前50的术语作为会计领域的语义基元,如表4所示。
表4 基于词频法的语义基元提取
Figure BDA0003269235210000141
Figure BDA0003269235210000151
可以发现,基于词频法得到的候选词汇中,Top10的词汇中有8个词汇:“企业”、“会计”、“公司”、“收益”、“商品”、“现金”、“支付”、“金额”均是语义过于宽泛的词汇,在其他学科中也属于高频词,并不能很好地代表会计领域的研究基础,且“企业”和“公司”常被定义为同义词,只有“资产”、“成本”表征了会计领域中的两种会计要素,可以作为会计领域的语义基元。将范围进一步扩大到Top30的候选词中,也仅有“会计报表”、“审计”、“费用”等词汇可以作为表征会计领域的语义基元。同样地,扩展到Top50样本中,语义基元和非基元术语也是交替出现。因此,整体来看基于词频的方法虽然能够发现领域中出现频次较高、研究热度较高的词汇,但这些词汇往往是跨领域的上位词或领域外的不相关词,对特定领域的研究基础表征能力不足,单纯依靠词频的方法在语义基元识别研究中并不理想,尤其是当需要筛选小规模的语义基元作为研究对象时,通过词频排名提取基础词汇并不能满足实际需求。
(2)基于TF-IDF的方法
采用TF-IDF算法对会计术语进行排名,按照排名高低得到会计领域的语义基元候选集,截取TF-IDF值排名前50的语义基元候选术语如表5所示。
候选基元 排名 候选基元 排名
会计 1 货币 26
收益 2 财产 27
资产 3 债务 28
建筑工程 4 股票 29
股份 5 发行 30
会计报表 6 发货票 31
现金 7 债权人 32
支付 8 收入 33
金额 9 生产 34
成本 10 审计师 35
记录 11 劳务 36
销售 12 股东 37
审计报告 13 债券 38
账户 14 份额 39
证券 15 负债 40
管理 16 汇票 41
审计 17 支出 42
营业收入 18 损益 43
财务 19 票据 44
费用 20 财务状况 45
数据 21 决策 46
资本 22 合同 47
利息 23 管理人员 48
签约人 24 产权 49
银行 25 注册 50
可以发现,基于TF-IDF得到的候选词汇Top10中新识别出了“建筑工程”、“会计报表”、“股份”这3个可表征会计领域知识的术语。在整体Top50样本中,两种方法所得到的语义基元候选集合中术语重合比例为78%,即有39个候选基元同时归属于两种方法,区别在于部分术语的位列顺序发生了变化。因此,整体来看基于TF-IDF的排名结果较基于词频的方法略好,能够通过TF-IDF将一些频次不高但是比较重要的节点排在靠前的位置。但同时可以发现两种方法所得到的候选词汇出现大量重复,说明TF-IDF指标与词频依然线性相关,所得到的候选基选对于会计领域知识的表征能力仍然有限。
(3)基于本发明模型的方法
针对会计词典的共现关系构建有向网络图,再通过PRFR算法进行排名,按照排名高低得到会计领域语义基元候选集合,如表6-3所示。
表6 基于本模型的语义基元提取
Figure BDA0003269235210000171
Figure BDA0003269235210000181
可以发现,基于本模型方法得到的候选基元中,“股份”、“资产”、“租金”、“成本”等均表征会计领域的基础研究方向和技术,可以界定为会计领域语义基元,Top10中只有“采用”和“信息”不属于领域词汇。将范围进一步扩大到Top30的候选词中,也只有“书面”、“效率”、“没有”等少数术语不属于领域词汇,但也可以作为会计领域语义基元。在Top50样本中,可以看到候选词汇中领域基元的比例高于非基元术语,而重要的领域基元排名均比较靠前。且本发明的方法用了同义词林合并,不会出现词义相同的词语,得到的语义基元词义覆盖面更大。因此,整体来看基于本模型的语义基元提取方法要比词频和TF-IDF效果好,能够发现频次不高但在网络中处于核心节点的一些较为重要的知识单元,并且排名靠前的术语大部分均为语义基元,说明本发明提出的模型方法有效可行,在需要提取小范围语义基元的任务重能够发挥出较大优势。
基于盲选实验的量化评估
上述分析从定性角度对实验结果进行了探讨,为进一步对上述方法的实验结果进行量化评估,本发明参考其他文献设计了一种基于盲选实验的量化评估方法。在盲选实验中以词频、TF-IDF、本模型方法三种实验结果为对象进行评估。具体评估过程为:将三种实验得到的语义基元集进行混合,并打乱次序,得到不重复的87个候选术语,邀请实验者从这些候选词中选出能表征会计领域的术语。受邀者为从事会计领域相关研究且具备多年研究经验的科研人员,共计三人。
统计每位实验者选择的词汇中,分别归属三种方法所包含的语义基元的数量和比例。由于候选术语集中三种方法提供的术语数量相等,因此可以认为实验者选出的词来自哪个方法更多,则该方法效果更好。盲选实验结果如表7所示。方法1至方法3分别对应基于词频的方法、基于TF-IDF的方法和基于本模型提取语义基元的方法。
表7 盲选实验结果
Figure BDA0003269235210000191
可以看出,通过盲选实验得到的语义基元中,传统词频和TF-IDF方法重合的比例差不多,而基于本模型方法的重合比例则远高于前两者,其平均准确率达66.71%,在一定程度上说明本模型的语义基元提取方法能更好地拟合专家人工筛选的结果。
同时,在实际应用中往往需要筛选的仅是一小部分基础词汇,因此进一步采用P(N)指标(N=10,20,30,40,50)来观察三种方法在第N位置上的正确率,结果如表8所示。
表8 盲选实验正确率
方法 P(10) P(20) P(30) P(40) P(50)
方法1 0.37 0.60 0.68 0.63 0.62
方法2 0.43 0.62 0.60 0.62 0.62
方法3 0.73 0.75 0.69 0.73 0.73
可以看出,基于本模型的方法在各个位置上的正确率均明显高于词频法和TF-IDF在相应位置上的准确率,平均准确率达72.6%,其中P(10)和P(20)指标上分别达到73%和75%,即前10个候选词中有7个词属于领域基元,前20个候选词中有15个词属于基础词汇,达到较好的识别结果。且TF-IDF在P(10)和P(20)指标上稍高于词频法,而在P(30)、P(40)、P(50)指标上二者相差不大,说明TF-IDF在提取小规模语义基元的任务中表现优于词频法,而当返回结果样本数量较大时,两种方法的差距不是很明显。
整体来看,本发明所提基于本模型的方法在识别领域语义基元时,能够通过PageRank排名更好地发现重要性高的领域基元,且基于同义词林合并得到的语义基元词义覆盖面更大,避免了依靠词频和TF-IDF所得结果中大量语义宽泛且重复的词汇排名靠前的情况,在发现领域基元中具有较好的表现和较高的应用价值。
语义基元对元素清单的表达能力
基于对元素清单词汇特征分析,发现元素存在一定的结构规律性,具体结构归纳如下。元素(G)的结构主要由核心词、时间修饰词、空间修饰词、因果修饰词、一般修饰词、状态显示词等部分构成。
XBRL通用分类标准财务信息元素的结构类别
术语+实例词
术语+一般属性
术语+一般属性+实例词
术语+因果属性
术语+因果属性+实例词
术语+时间属性+实例词
术语+空间属性+实例词
术语+时间属性
术语+空间属性
术语+实例词和术语+实例词
术语+实例词+一般属性
术语+时间属性+实例词+因果属性
术语+时间属性+因果属性
术语+时间属性+因果属性+实例词
术语+时间属性+因果属性+术语+实例词
术语+一般属性+时间属性+实例词
术语+一般属性+时间属性++因果属性+实例词
一般属性+术语一般属性+实例词
一般属性+术语+实例词
一般属性+术语+时间属性+实例词
一般属性+术语+空间属性
一般属性+术语+一般属性
一般属性+术语+一般属性++时间属性+实例词
一般属性+术语+因果属性
一般属性+术语+时间属性+因果属性
一般属性+术语+实例词+一般属性
一般属性+时间属性+术语
一般属性+时间属性+术语+实例词
一般属性+时间属性+因果属性+术语+实例词
一般属性+时间属性+术语+实例词
一般属性+术语+时间属性+实例词
一般属性+时间属性+术语+实例词
一般属性+术语+时间属性+实例词+一般属性
时间属性+术语
时间属性+术语+实例词
时间属性+因果属性+术语+实例词
时间属性+一般属性+术语+实例词
时间属性+空间属性+术语+实例词
时间属性+一般属性+术语
时间属性+因果属性+术语+因果属性
时间属性+术语+时间属性+实例词
空间属性+术语
空间属性+术语+实例词
空间属性+一般属性+术语+实例词
因果属性+术语:
因果属性+术语+实例词
因果属性+术语+一般属性
因果属性+术语+时间属性+实例词
因果属性+一般属性+术语+实例词
例如:
G:固定资产本期减少=<Hx:固定资产,Sj:本期,Zx:减少>
其中“固定资产”和“本期”是会计术语,“减少”是有明确定义的非会计术语,那么基于提取出的语义基元得出“固定资产本期减少”的基元释义为:
G:固定资产本期减少=受益期+年度+以上+资产+厂房和设备+会计期+减少
由上述基元表达式可以看出,对扩展性术语的可理解性增强了,用于表达的基元从不同角度概括了“固定资产本期减少”的属性。
由上述分析中可知,XBRL通用分类标准财务信息元素清单中的术语切词后可分为会计术语和非会计术语,而会计术语对应于会计词典,都存在着对应的语义基元表达,非会计术语则是具备明确定义,因此在元素清单中会计术语量大于非会计术语,说明语义基元可以实现对于元素清单中元素的有效表达。
但要衡量有效表达的力度,则需要将会计术语与会计词典取交集,经统计,会计词典中的术语可实现对元素清单切词后词语的全覆盖,因此提取出的语义基元可以实现对元素清单较强的表达能力。
语义基元对实例的表达能力
基于对财务报告的文体特征分析中,可以看出财务报告是一种层次分明、结构清晰的文体,且财务报告按照各级标题对财务信息予以披露,而各级标题对应于企业基本会计准则的各个条目,其整体呈树形结构,内部逻辑结构严密。同时,小标题下的文本内容以段为单位围绕所披露事件进行相关信息阐释。因此要想实现对财务报告的知识表达,本发明可以通过借助章节标题和段落中的短语式标题实现机器对于财务报告的读取。具体实现步骤如下:
步骤1:对非结构化年报文档进行层次划分,得到章节标题和段落小标题;
步骤2:对章节标题和段落小标题进行分词和词性标注,以词汇作为处理单元;
步骤3:基于语义基元集得到对应的基元属性,作为小标题的知识表示。
最后通过上述方法,验证模型的有效性,以基于词频和TF-IDF为基准的定性实验对比分析本模型的优越性,再通过盲选实验定量评估本模型的有效性;最后基于提取出的语义基元完成对财务报告知识的表达。结果表明,本发明所提基于本模型的方法在识别领域基元时,能够通过PRFR排名更好地发现重要性高的领域基元,且基于同义词林合并得到的语义基元词义覆盖面更大,避免了依靠词频和TF-IDF所得结果中大量语义宽泛且重复的词汇排名靠前的情况,且能够基于语义基元实现对财务报告的基础性表达,因此在表达领域知识中具有较好的表现和较高的应用价值。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变,而所有的这些改变,都应该包括在本发明权利要求的保护范围之内。

Claims (6)

1.一种会计术语共现网络图构建的方法,其特征在于,所述方法包括对会计领域的语义基元进行提取,通过对会计领域重要专业语料的会计词典构建有向网络图,利用改进后的PageRank算法进行语义基元的提取和领域知识的描述,再基于同义词林合并,最终得到语义基元的候选集合。
2.根据权利要求1所述的会计术语共现网络图构建的方法,其特征在于,具体所述方法包括:
S1手工提取、整理会计术语的定义文本,并汇总于Excel中;
S2对步骤S1中的汇总Excel进行文本切词、去停用词、去重处理;
S3构建会计术语有向网络图;
S4基于步骤S3的会计词典构建网络图后,利用MATLAB R2016a计算出各节点的PageRank值,作为语义基元提取的依据;
S5计算出PageRank值较高的词语后,对其进行基于同义词林的语义基元合并后,得到最终语义基元的候选集合。
3.根据权利要求2所述的会计术语共现网络图构建的方法,其特征在于,所述步骤S2中,利用Python自带的jieba包进行切词,值得注意的是,为了保证会计术语的完备性,需要将会计词典中的会计术语导入自定义词典,并建立停用词表对每个术语的定义文本中的词语进行去重处理。
4.根据权利要求2所述的会计术语共现网络图构建的方法,其特征在于,所述步骤S3中,依据切词结果,对文本进行有向环路图的构建;其中,以词汇及切词后的定义文本词汇为节点,词汇和定义文本词汇间有一条有向边,具体是词汇指向若干个定义文本词汇,并且,若某一词汇A的定义文本中如果出现另一个词汇B,那么词汇A、词汇B之间就存在一条有向边,具体是词汇A指向词汇B的一条有向边。
5.根据权利要求2所述的会计术语共现网络图构建的方法,其特征在于,所述步骤S5中,提取出的语义基元集中在非会计术语集合中,而基于会计词典在编撰过程中语言表达的多样式,提取出的语义基元存在着定义相近形式不同的词汇,因此需要对该类词汇予以合并,较大程度的保证语义基元的表达效率。
6.根据权利要求2所述的会计术语共现网络图构建的方法,其特征在于,所述步骤S4中的核心程序为:
pr=centrality(G,‘pagerank’,‘Followprobability’,0.85)
G.Nodes.PageRank=pr
G.Nodes.InDegree=indegree(G)
G.Nodes.OutDegree=outdegree(G)
G.Nodes%查看每个节点的PR得分和级别信息
plot(G,‘NodeLabel’,{},‘NodeColor’,[0.93 0.78 0],‘Layout’,‘force’)
title(‘PageRank’)%使用强制布局绘制图表
pr=centrality(G,‘pagerank’,‘MaxIterations’,200,‘FollowProbability’,0.85)
%使用200次迭代和阻尼因子0.85计算G的PageRank得分,将得分和级别信息添加到图形的节点表中
G.Nodes=sortrows(G.Nodes,‘PageRank’,‘descend’)
%按PR值降虚排列
H=subgraph(G,find(G.Nodes.PageRank>0.005))
plot(H,‘NodeLabel’,{},‘NodeCData’,H.Nodes.PageRank,‘Layout’,‘force’)
title(‘PageRank’)
colorbar
%提取并绘制包含得分大于0.005的所有节点的子图,根据图形节点的PageRank得分为它们着色。
CN202111096537.9A 2021-09-18 2021-09-18 一种会计术语共现网络图构建的方法 Pending CN113919342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111096537.9A CN113919342A (zh) 2021-09-18 2021-09-18 一种会计术语共现网络图构建的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111096537.9A CN113919342A (zh) 2021-09-18 2021-09-18 一种会计术语共现网络图构建的方法

Publications (1)

Publication Number Publication Date
CN113919342A true CN113919342A (zh) 2022-01-11

Family

ID=79235723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111096537.9A Pending CN113919342A (zh) 2021-09-18 2021-09-18 一种会计术语共现网络图构建的方法

Country Status (1)

Country Link
CN (1) CN113919342A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797635A (zh) * 2020-07-14 2020-10-20 暨南大学 一种面向xbrl领域本体的语义基元提取方法
CN112183110A (zh) * 2020-09-28 2021-01-05 贵州云腾志远科技发展有限公司 一种基于数据中心的人工智能数据应用***及应用方法
US20210097238A1 (en) * 2017-08-29 2021-04-01 Ping An Technology (Shenzhen) Co., Ltd. User keyword extraction device and method, and computer-readable storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210097238A1 (en) * 2017-08-29 2021-04-01 Ping An Technology (Shenzhen) Co., Ltd. User keyword extraction device and method, and computer-readable storage medium
CN111797635A (zh) * 2020-07-14 2020-10-20 暨南大学 一种面向xbrl领域本体的语义基元提取方法
CN112183110A (zh) * 2020-09-28 2021-01-05 贵州云腾志远科技发展有限公司 一种基于数据中心的人工智能数据应用***及应用方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
叶迪: "面向XBRL领域本体的语义基于提取方法", 《中国优秀博硕士学位论文全文数据库(硕士) 经济与管理科学辑》 *

Similar Documents

Publication Publication Date Title
US7849049B2 (en) Schema and ETL tools for structured and unstructured data
EP1899855B1 (en) System and method of making unstructured data available to structured data analysis tools
Conrad et al. Opinion mining in legal blogs
CN110188344A (zh) 一种多特征融合的关键词提取方法
US8060505B2 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
US20070011183A1 (en) Analysis and transformation tools for structured and unstructured data
CN110309400A (zh) 一种智能理解用户查询意图的方法及***
CN111737421A (zh) 一种知识产权大数据情报检索***及存储介质
CN110134847A (zh) 一种基于互联网金融信息的热点挖掘方法及***
CN109492097B (zh) 一种企业新闻数据风险分类方法
Shirata et al. An analysis of the “going concern assumption”: Text mining from Japanese financial reports
Yang et al. A framework for web table mining
Goel et al. Mining company sustainability reports to aid financial decision-making
Berkin et al. Feasibility analysis of machine learning for performance-related attributional statements
Musliadi et al. Twitter Social Media Conversion Topic Trending Analysis Using Latent Dirichlet Allocation Algorithm
Li et al. automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective
CN110222180A (zh) 一种文本数据分类与信息挖掘方法
Wang et al. E-business websites evaluation based on opinion mining
CN113919342A (zh) 一种会计术语共现网络图构建的方法
CN110134866A (zh) 信息推荐方法及装置
Chakraborty et al. Automating the process of taxonomy creation and comparison of taxonomy structures
Jin et al. Diagnosis of corporate insolvency using massive news articles for credit management
Luo et al. A latent dirichlet allocation and fuzzy clustering based machine learning model for text thesaurus
CN112966105B (zh) 一种利用违规问题分析自动生成审计试题的方法
Hemmat et al. A Contextual Topic Modeling and Content Analysis of Iranian laws and Regulations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220111