CN113919342A

CN113919342A - 一种会计术语共现网络图构建的方法

Info

Publication number: CN113919342A
Application number: CN202111096537.9A
Authority: CN
Inventors: 潘定; 梁倬骞; 叶迪
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-01-11

Abstract

本发明公开了一种会计术语共现网络图构建的方法，所述方法包括对会计领域的语义基元进行提取，即对会计词典中的词汇构建有向网络图，利用改进后的PageRank算法进行语义基元的提取和领域知识的描述，再基于同义词林合并，最终得到会计术语的语义基元的候选集合。本发明利用会计领域知识的特点，针对会计词典语料设计了基于图论的语义基元抽取方法。会计词典作为会计领域重要专业语料和权威规范文本，***全面地涵盖了会计领域有关术语及其定义。如果能借助从会计词典中抽取的语义基元，让计算机“读懂”会计文本，那么会计领域的大量信息将被得以有效利用，因此基于会计词典的术语研究有效突破了在语义基元抽取中的主观分析和小样本数据局限。

Description

一种会计术语共现网络图构建的方法

技术领域

本发明涉及计算机对于财务信息的可读取性的技术领域，尤其涉及一种会计术语共现网络图构建的方法。

技术背景

目前会计领域中网络财务报告缺少标准化的知识描述，因此在解决计算机对财务信息可读性方面遇到了困难，阻碍了XBRL等网络财务报告的使用广度和发展前景。目前少数学者基于当前流行的机器学习算法试图解决语义基元提取难点，这些方法虽然有效地减少了人工以及时间成本，但抽取出的术语存在大量噪声、领域特性不突出且无法验证其有效性。本发明的研究弥补了网络财务报告的研究空白，针对面向XBRL财务报告中“核心语言的提取”的关键问题予以研究，引入语义基元的概念，旨在增强会计领域知识表达的语义特性，有助于增强机器识别信息的准确性和效率性。

语义基元的成功提取有助于推动会计通用分类标准的质量水平，增强计算机对于财务信息的可读取性，提高利益相关者对于财务信息获取的准确性和效率性，减少网络财务报告应用和推广的技术壁垒，从而促进企业采纳网络财务报告的主动性。从更加长远和宏观的角度来看，本发明的研究可以提高信息披露的精准度和真实性，在一定程度上可以避免企业进行财务造假，有助于保护利益相关者的合法权益，维护市场的信息质量，具备一定的现实意义。

从现有的技术表明，少数人基于当前流行的机器学习算法试图解决本体构建难点，这些方法虽然有效的减少了人工以及时间成本，但抽取出的术语存在大量噪声、领域特性不突出且缺乏实务性。一般而言，语义基元的提取分为基于语言学、统计学、机器学习和图论等提取方法，但是这些方法都具有一定的局限性，具体的说：

1、目前的研究仅停留在词汇层面，没有深入到语义层面。

从相关研究中可以看出，目前针对该问题的研究大多停留在词汇层面，即用于构建本体的语义材料被认为是本体所需概念和冗余信息的集合，作者所采取的研究方法是对信息进行一定程度上的清洗和筛选，最终得到符合指标体系的关键词作为本体所需概念。但这种研究方法受限于所选的语义材料，其中基于语言学的提取方法处理的语义材料规模较小，而基于统计学、机器学习的方法虽然可以处理大规模文本，但是提取出的术语存在大量噪声、领域特性不突出且缺乏语义特性。

2、与领域知识的贴合度不够。

从语义基元提取方法的相关研究可以看出，提取语义基元所用的文本材料缺乏专业权威性，或者缺少领域专家的参与，使得提取出的语义基元和领域知识的贴合度不够。而本发明选取了会计词典作为财务报告领域权威且全面的文本材料，并且在分析本方法的有效性和优越性时，邀请了领域专家参与，旨在最大限度上保证提取出的语义基元和领域知识之间较高的匹配度。

3、研究视角单一，跨领域研究成果较少。

在已有的研究中，更多的概念提取是来自于文本材料的关键词，研究过程是对文本材料去除冗余信息，使得研究视角较为单一，且跨领域研究成果较少。

发明内容

针对现有技术的不足，本发明公开了一种会计术语共现网络图构建的方法，本发明利用会计领域知识的特点，运用会计词典选取了基于图论的语义基元抽取方法。词典作为会计领域权威规范文本，***全面地涵盖了会计领域有关术语及其定义，如果能让计算机“读懂”会计词典，那么会计领域的大量信息将被得以有效利用，因此基于会计词典的研究有效突破了在语义基元抽取中主观分析和小样本数据的局限。

为了实现上述技术目的，本发明采用的技术方案如下：

一种会计术语共现网络图构建的方法，所述方法包括对会计领域的语义基元进行提取，通过会计词典构建有向网络图，利用改进后的PageRank算法进行语义基元的提取和领域知识的描述，再基于同义词林合并，最终得到语义基元的候选集合。

需要说明的是，具体所述方法包括：

S1手工提取、整理会计术语的定义文本，并汇总于Excel中；

S2对步骤S1中的汇总Excel进行文本切词、去停用词、去重处理；

S3构建会计术语有向网络图；

S4基于步骤S3的会计词典构建网络图后，利用MATLAB R2016a计算出各节点的PageRank值，作为语义基元提取的依据；

S5计算出PageRank值较高的词语后，对其进行基于同义词林的语义基元合并后，得到最终语义基元的候选集合。

需要说明的是，所述步骤S2中，利用Python自带的jieba包进行切词，值得注意的是，为了保证会计术语的完备性，需要将会计词典中的会计术语导入自定义词典，并建立停用词表对每个术语的定义文本中的词语进行去重处理。

需要说明的是，所述步骤S3中，依据切词结果，对文本进行有向环路图的构建；其中，以词汇及切词后的定义文本词汇为节点，词汇和定义文本词汇间有一条有向边，具体是词汇指向若干个定义文本词汇，并且，若某一词汇A的定义文本中如果出现另一个词汇B，那么词汇A、词汇B之间就存在一条有向边，具体是词汇A指向词汇B的一条有向边。

需要说明的是，所述步骤S5中，提取出的语义基元集中在非会计术语集合中，而基于会计词典在编撰过程中语言表达的多样式，提取出的语义基元存在着定义相近形式不同的词汇，因此需要对该类词汇予以合并，较大程度的保证语义基元的表达效率。

需要说明的是，本发明所述步骤S4中的核心程序为：

pr＝centrality(G,‘pagerank’,‘Followprobability’,0.85)

G.Nodes.PageRank＝pr

G.Nodes.InDegree＝indegree(G)

G.Nodes.OutDegree＝outdegree(G)

G.Nodes％查看每个节点的PR得分和级别信息

plot(G,‘NodeLabel’,{},‘NodeColor’,[0.93 0.78 0],‘Layout’,‘force’)

title(‘PageRank’)％使用强制布局绘制图表

pr＝centrality(G,‘pagerank’,‘MaxIterations’,200,‘FollowProbability’,0.85)

％使用200次迭代和阻尼因子0.85计算G的PageRank得分，将得分和级别信息添加到图形的节点表中

G.Nodes＝sortrows(G.Nodes,‘PageRank’,‘descend’)

％按PR值降虚排列

H＝subgraph(G,find(G.Nodes.PageRank>0.005))

plot(H,‘NodeLabel’,{},‘NodeCData’,H.Nodes.PageRank,‘Layout’,‘force’)

title(‘PageRank’)

colorbar

％提取并绘制包含得分大于0.005的所有节点的子图，根据图形节点的PageRank得分为它们着色。

本发明的优势在于：

1、分析了财务报告和财务信息元素的用语特征，并总结出财务信息元素的术语结构特点。首先结合定性与定量方法，分析财务报告在结构和用语层面的特征；接着，以XBRL通用分类标准元素清单为核心语料，通过人工划分，得出元素清单中术语的结构规律性，其中包含以核心词主要的信息承担部分，附加修饰成分用以表达术语的相关属性，这一结构特点对语义基元的提取提供指导和依据。

2、兼顾了语义基元提取的全面性与规模性。首先通过构建会计词典有向图，分析出每一个节点仅存在“是/否在环路上”两种情况，因此对于在环路上的点利用PageRank值进行提取，若不在环路上则选择出度为0的点，以保证语义基元提取的全面性和科学性；此外，本发明对初步提取出的语义基元利用同义词林予以合并，较大程度的保证了语义基元的表达效率，实现以最小的语义基元规模表示最大的领域知识范围。

附图说明

图1为本发明中依据表1构建有向环路图示意图；

图2为本发明环路图及PageRank值分布示例。

具体实施例

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本发明为一种会计术语共现网络图构建的方法，所述方法包括对会计领域的语义基元进行提取，通过会计词典构建有向网络图，利用改进后的PageRank算法进行语义基元的提取和领域知识的描述，再基于同义词林合并，最终得到语义基元的候选集合。

需要说明的是，具体所述方法包括：

S1手工提取、整理会计术语的定义文本，并汇总于Excel中；

S3构建会计术语有向网络图；

需要说明的是，本发明所述步骤S4中的核心程序为：

pr＝centrality(G,‘pagerank’,‘Followprobability’,0.85)

G.Nodes.PageRank＝pr

G.Nodes.InDegree＝indegree(G)

G.Nodes.OutDegree＝outdegree(G)

G.Nodes％查看每个节点的PR得分和级别信息

title(‘PageRank’)％使用强制布局绘制图表

G.Nodes＝sortrows(G.Nodes,‘PageRank’,‘descend’)

％按PR值降虚排列

H＝subgraph(G,find(G.Nodes.PageRank>0.005))

title(‘PageRank’)

colorbar

实施例

仿真实验

本发明以2009年由中国财政经济出版社陈今池编著《英汉现代财会大词典》作为实验数据，从中整理了4289条会计术语、32086个词项，以此作为实验的会计领域文本。

这里处理数据主要用到的程序和软件有：Excel2016、Python3.7、MATLAB R2016a等，其中Excel用于会计词典的结构化整理，利用Python的jieba包对术语的定义进行切词，并基于MATLAB绘制有向环路图并计算PageRank值。具体工作如下：

(1)手工提取、整理会计术语的定义文本。

根据上文中对会计词典的文本分析，在词典中，针对某一会计术语的释义不仅存在着定义性描述，还存在着举例、计算公式等非定义性描述，而该部分对于语义基元的提取来说是冗余部分，因此本发明手动提取、整理了会计术语的定义文本，并汇总于Excel中。

(2)文本切词、去停用词、去重处理。

接着利用Python自带的jieba包进行切词，值得注意的是，为了保证会计术语的完备性，需要将会计词典中的4289条会计术语导入自定义词典，接着建立停用词表，并对每个术语的定义文本中的词汇进行去重处理。

表1会计词典切词部分示例

(3)构建会计术语有向网络图。

依据上述切词结果，可对这些文本进行有向环路图的构建，如图1所示。具体构造思路是以词汇及切词后的定义文本词汇为节点，词汇和定义文本词汇间有一条有向边，具体是词汇指向若干个定义文本词汇，并且，如果某一词汇A(如：租金)的定义文本中如果出现另一个词汇B(如：租赁)，那么A、B之间就存在一条有向边，具体是A指向B的一条有向边。用图形来描述上述关系。

(4)计算PageRank值。

基于会计词典构建网络图后，利用MATLAB R2016a计算出各节点的PageRank值，作为语义基元提取的依据。

从图2中可以看出，叶子节点的PR值普遍较高，又由于语义基元是用来解释别的词汇且自身不可被解释，因此语义基元的提取应在叶子结点上，这与上文中的分析是一致的。而对于在环路上的节点来说，本发明将选择PR值最高的点作为语义基元。

初步提取结果

基于PageRank进行筛选可得到的语义基元排序：

表2 PageRank排名前20的会计术语示例

计算出PR值较高的词语后，需要对其进行以下处理以达到提取的准确性以及规模性：

(1)语义基元主要存在于环路中PR值最大的点和非环路中的叶子节点

其一是出度为0的点，如上表中的“建筑工程”、“份额”、“总额”、“求出”、“记录”、“规定”，这些术语的出度为0，说明在有向图中处于叶子节点的位置，且这些节点的PageRank值较高，但可以注意到，在这种情况下，提取出的节点中存在同义词现象，这会造成提取出的语义基元规模较大，因此本发明基于同义词林将释义相近的词予以合并，如上述“份额”和“总额”，可以仅用其中一个词来进行表示。

其二是处在环路中的PR值最大的点，如“资产”、“收益”、“股份”处在同一环路时，PR(资产)>PR(收益)>PR(股份)，因此“资产”将作为语义基元被提取出来。

(2)基于同义词林的语义基元合并

语义基元承载着对领域知识进行表达的能力，但是如若语义基元中的词汇很多，那提取语义基元的意义就不大了，因此在保证知识表达的准确性的同时，也要兼顾知识表达的效率性，即能够以最小的语义基元规模表示最大的领域知识范围。本研究提取出的语义基元集中在非会计术语集合中，而基于会计词典在编撰过程中语言表达的多样式，提取出的语义基元存在着定义相近形式不同的词汇，因此需要对该类词汇予以合并，较大程度的保证语义基元的表达效率。

同义词林合并

为了提高知识表达的效率性，基于同义词林对初步提取结果予以合并。安装WordSimilarity模块用于计算相似度，读取初步提取结果Excel文件里的所有术语，为保证最大应用效率，在本发明中选取0.8作为规定相似度。如果两个术语相似度大于0.8，则写入到新的Excel文件中的同一行。

经过同义词林予以合并后的语义基元部分示例如表5-3所示。

表3 同义词林合并

采用该种相似度计算方法，“相似度高”可能意味着“相似性高”，也可能是“相关性高”，如在规定为0.8的相似度中，“他人”和“本人”、“自己”归在了一起，在0.9中则不会。但在0.9中显然可以归为一类的变少很多。

且在Excel中某些术语并没有得到合并，其原因主要有以下两点：

(1)表格中多数为专有名词，不在WordSimilarity编码好的词林中，所以计算不出来相似度。

(2)里面很多词是合成词，由两个词构成，如“职工舞弊”、“买卖双方”，也不利于计算相似度。

实施例2

验证本发明的有效性

采用本发明提出的模型对会计领域的语义基元进行提取，通过对会计词典构建有向网络图，利用改进PageRank算法即PRFR算法进行语义基元的提取和领域知识的描述，再基于同义词林合并，得到最终语义基元的候选集合，将基于词频的方法和基于TF-IDF的方法作为基准实验进行对比分析。

(1)基于词频的方法

基于词频的方法通过统计术语的出现频次，并按照频次高低对术语进行排名，取排名前50的术语作为会计领域的语义基元，如表4所示。

表4 基于词频法的语义基元提取

可以发现，基于词频法得到的候选词汇中，Top10的词汇中有8个词汇：“企业”、“会计”、“公司”、“收益”、“商品”、“现金”、“支付”、“金额”均是语义过于宽泛的词汇，在其他学科中也属于高频词，并不能很好地代表会计领域的研究基础，且“企业”和“公司”常被定义为同义词，只有“资产”、“成本”表征了会计领域中的两种会计要素，可以作为会计领域的语义基元。将范围进一步扩大到Top30的候选词中，也仅有“会计报表”、“审计”、“费用”等词汇可以作为表征会计领域的语义基元。同样地，扩展到Top50样本中，语义基元和非基元术语也是交替出现。因此，整体来看基于词频的方法虽然能够发现领域中出现频次较高、研究热度较高的词汇，但这些词汇往往是跨领域的上位词或领域外的不相关词，对特定领域的研究基础表征能力不足，单纯依靠词频的方法在语义基元识别研究中并不理想，尤其是当需要筛选小规模的语义基元作为研究对象时，通过词频排名提取基础词汇并不能满足实际需求。

(2)基于TF-IDF的方法

采用TF-IDF算法对会计术语进行排名，按照排名高低得到会计领域的语义基元候选集，截取TF-IDF值排名前50的语义基元候选术语如表5所示。

候选基元	排名	候选基元	排名
				会计	1	货币	26
收益	2	财产	27
				资产	3	债务	28
建筑工程	4	股票	29
				股份	5	发行	30
会计报表	6	发货票	31
				现金	7	债权人	32
支付	8	收入	33
				金额	9	生产	34
成本	10	审计师	35
				记录	11	劳务	36
销售	12	股东	37
				审计报告	13	债券	38
账户	14	份额	39
				证券	15	负债	40
管理	16	汇票	41
				审计	17	支出	42
营业收入	18	损益	43
				财务	19	票据	44
费用	20	财务状况	45
				数据	21	决策	46
资本	22	合同	47
				利息	23	管理人员	48
签约人	24	产权	49
				银行	25	注册	50

可以发现，基于TF-IDF得到的候选词汇Top10中新识别出了“建筑工程”、“会计报表”、“股份”这3个可表征会计领域知识的术语。在整体Top50样本中，两种方法所得到的语义基元候选集合中术语重合比例为78％，即有39个候选基元同时归属于两种方法，区别在于部分术语的位列顺序发生了变化。因此，整体来看基于TF-IDF的排名结果较基于词频的方法略好，能够通过TF-IDF将一些频次不高但是比较重要的节点排在靠前的位置。但同时可以发现两种方法所得到的候选词汇出现大量重复，说明TF-IDF指标与词频依然线性相关，所得到的候选基选对于会计领域知识的表征能力仍然有限。

(3)基于本发明模型的方法

针对会计词典的共现关系构建有向网络图，再通过PRFR算法进行排名，按照排名高低得到会计领域语义基元候选集合，如表6-3所示。

表6 基于本模型的语义基元提取

可以发现，基于本模型方法得到的候选基元中，“股份”、“资产”、“租金”、“成本”等均表征会计领域的基础研究方向和技术，可以界定为会计领域语义基元，Top10中只有“采用”和“信息”不属于领域词汇。将范围进一步扩大到Top30的候选词中，也只有“书面”、“效率”、“没有”等少数术语不属于领域词汇，但也可以作为会计领域语义基元。在Top50样本中，可以看到候选词汇中领域基元的比例高于非基元术语，而重要的领域基元排名均比较靠前。且本发明的方法用了同义词林合并，不会出现词义相同的词语，得到的语义基元词义覆盖面更大。因此，整体来看基于本模型的语义基元提取方法要比词频和TF-IDF效果好，能够发现频次不高但在网络中处于核心节点的一些较为重要的知识单元，并且排名靠前的术语大部分均为语义基元，说明本发明提出的模型方法有效可行，在需要提取小范围语义基元的任务重能够发挥出较大优势。

基于盲选实验的量化评估

上述分析从定性角度对实验结果进行了探讨，为进一步对上述方法的实验结果进行量化评估，本发明参考其他文献设计了一种基于盲选实验的量化评估方法。在盲选实验中以词频、TF-IDF、本模型方法三种实验结果为对象进行评估。具体评估过程为：将三种实验得到的语义基元集进行混合，并打乱次序，得到不重复的87个候选术语，邀请实验者从这些候选词中选出能表征会计领域的术语。受邀者为从事会计领域相关研究且具备多年研究经验的科研人员，共计三人。

统计每位实验者选择的词汇中，分别归属三种方法所包含的语义基元的数量和比例。由于候选术语集中三种方法提供的术语数量相等，因此可以认为实验者选出的词来自哪个方法更多，则该方法效果更好。盲选实验结果如表7所示。方法1至方法3分别对应基于词频的方法、基于TF-IDF的方法和基于本模型提取语义基元的方法。

表7 盲选实验结果

可以看出，通过盲选实验得到的语义基元中，传统词频和TF-IDF方法重合的比例差不多，而基于本模型方法的重合比例则远高于前两者，其平均准确率达66.71％，在一定程度上说明本模型的语义基元提取方法能更好地拟合专家人工筛选的结果。

同时，在实际应用中往往需要筛选的仅是一小部分基础词汇，因此进一步采用P(N)指标(N＝10,20,30,40,50)来观察三种方法在第N位置上的正确率，结果如表8所示。

表8 盲选实验正确率

方法	P(10)	P(20)	P(30)	P(40)	P(50)
						方法1	0.37	0.60	0.68	0.63	0.62
方法2	0.43	0.62	0.60	0.62	0.62
						方法3	0.73	0.75	0.69	0.73	0.73

可以看出，基于本模型的方法在各个位置上的正确率均明显高于词频法和TF-IDF在相应位置上的准确率，平均准确率达72.6％，其中P(10)和P(20)指标上分别达到73％和75％，即前10个候选词中有7个词属于领域基元，前20个候选词中有15个词属于基础词汇，达到较好的识别结果。且TF-IDF在P(10)和P(20)指标上稍高于词频法，而在P(30)、P(40)、P(50)指标上二者相差不大，说明TF-IDF在提取小规模语义基元的任务中表现优于词频法，而当返回结果样本数量较大时，两种方法的差距不是很明显。

整体来看，本发明所提基于本模型的方法在识别领域语义基元时，能够通过PageRank排名更好地发现重要性高的领域基元，且基于同义词林合并得到的语义基元词义覆盖面更大，避免了依靠词频和TF-IDF所得结果中大量语义宽泛且重复的词汇排名靠前的情况，在发现领域基元中具有较好的表现和较高的应用价值。

语义基元对元素清单的表达能力

基于对元素清单词汇特征分析，发现元素存在一定的结构规律性，具体结构归纳如下。元素(G)的结构主要由核心词、时间修饰词、空间修饰词、因果修饰词、一般修饰词、状态显示词等部分构成。

XBRL通用分类标准财务信息元素的结构类别

术语+实例词

术语+一般属性

术语+一般属性+实例词

术语+因果属性

术语+因果属性+实例词

术语+时间属性+实例词

术语+空间属性+实例词

术语+时间属性

术语+空间属性

术语+实例词和术语+实例词

术语+实例词+一般属性

术语+时间属性+实例词+因果属性

术语+时间属性+因果属性

术语+时间属性+因果属性+实例词

术语+时间属性+因果属性+术语+实例词

术语+一般属性+时间属性+实例词

术语+一般属性+时间属性++因果属性+实例词

一般属性+术语一般属性+实例词

一般属性+术语+实例词

一般属性+术语+时间属性+实例词

一般属性+术语+空间属性

一般属性+术语+一般属性

一般属性+术语+一般属性++时间属性+实例词

一般属性+术语+因果属性

一般属性+术语+时间属性+因果属性

一般属性+术语+实例词+一般属性

一般属性+时间属性+术语

一般属性+时间属性+术语+实例词

一般属性+时间属性+因果属性+术语+实例词

一般属性+时间属性+术语+实例词

一般属性+术语+时间属性+实例词

一般属性+时间属性+术语+实例词

一般属性+术语+时间属性+实例词+一般属性

时间属性+术语

时间属性+术语+实例词

时间属性+因果属性+术语+实例词

时间属性+一般属性+术语+实例词

时间属性+空间属性+术语+实例词

时间属性+一般属性+术语

时间属性+因果属性+术语+因果属性

时间属性+术语+时间属性+实例词

空间属性+术语

空间属性+术语+实例词

空间属性+一般属性+术语+实例词

因果属性+术语：

因果属性+术语+实例词

因果属性+术语+一般属性

因果属性+术语+时间属性+实例词

因果属性+一般属性+术语+实例词

例如：

G：固定资产本期减少＝<Hx：固定资产，Sj：本期，Zx：减少>

其中“固定资产”和“本期”是会计术语，“减少”是有明确定义的非会计术语，那么基于提取出的语义基元得出“固定资产本期减少”的基元释义为：

G：固定资产本期减少＝受益期+年度+以上+资产+厂房和设备+会计期+减少

由上述基元表达式可以看出，对扩展性术语的可理解性增强了，用于表达的基元从不同角度概括了“固定资产本期减少”的属性。

由上述分析中可知，XBRL通用分类标准财务信息元素清单中的术语切词后可分为会计术语和非会计术语，而会计术语对应于会计词典，都存在着对应的语义基元表达，非会计术语则是具备明确定义，因此在元素清单中会计术语量大于非会计术语，说明语义基元可以实现对于元素清单中元素的有效表达。

但要衡量有效表达的力度，则需要将会计术语与会计词典取交集，经统计，会计词典中的术语可实现对元素清单切词后词语的全覆盖，因此提取出的语义基元可以实现对元素清单较强的表达能力。

语义基元对实例的表达能力

基于对财务报告的文体特征分析中，可以看出财务报告是一种层次分明、结构清晰的文体，且财务报告按照各级标题对财务信息予以披露，而各级标题对应于企业基本会计准则的各个条目，其整体呈树形结构，内部逻辑结构严密。同时，小标题下的文本内容以段为单位围绕所披露事件进行相关信息阐释。因此要想实现对财务报告的知识表达，本发明可以通过借助章节标题和段落中的短语式标题实现机器对于财务报告的读取。具体实现步骤如下：

步骤1：对非结构化年报文档进行层次划分，得到章节标题和段落小标题；

步骤2：对章节标题和段落小标题进行分词和词性标注，以词汇作为处理单元；

步骤3：基于语义基元集得到对应的基元属性，作为小标题的知识表示。

最后通过上述方法，验证模型的有效性，以基于词频和TF-IDF为基准的定性实验对比分析本模型的优越性，再通过盲选实验定量评估本模型的有效性；最后基于提取出的语义基元完成对财务报告知识的表达。结果表明，本发明所提基于本模型的方法在识别领域基元时，能够通过PRFR排名更好地发现重要性高的领域基元，且基于同义词林合并得到的语义基元词义覆盖面更大，避免了依靠词频和TF-IDF所得结果中大量语义宽泛且重复的词汇排名靠前的情况，且能够基于语义基元实现对财务报告的基础性表达，因此在表达领域知识中具有较好的表现和较高的应用价值。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变，而所有的这些改变，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种会计术语共现网络图构建的方法，其特征在于，所述方法包括对会计领域的语义基元进行提取，通过对会计领域重要专业语料的会计词典构建有向网络图，利用改进后的PageRank算法进行语义基元的提取和领域知识的描述，再基于同义词林合并，最终得到语义基元的候选集合。

2.根据权利要求1所述的会计术语共现网络图构建的方法，其特征在于，具体所述方法包括：

S1手工提取、整理会计术语的定义文本，并汇总于Excel中；

S3构建会计术语有向网络图；

3.根据权利要求2所述的会计术语共现网络图构建的方法，其特征在于，所述步骤S2中，利用Python自带的jieba包进行切词，值得注意的是，为了保证会计术语的完备性，需要将会计词典中的会计术语导入自定义词典，并建立停用词表对每个术语的定义文本中的词语进行去重处理。

4.根据权利要求2所述的会计术语共现网络图构建的方法，其特征在于，所述步骤S3中，依据切词结果，对文本进行有向环路图的构建；其中，以词汇及切词后的定义文本词汇为节点，词汇和定义文本词汇间有一条有向边，具体是词汇指向若干个定义文本词汇，并且，若某一词汇A的定义文本中如果出现另一个词汇B，那么词汇A、词汇B之间就存在一条有向边，具体是词汇A指向词汇B的一条有向边。

5.根据权利要求2所述的会计术语共现网络图构建的方法，其特征在于，所述步骤S5中，提取出的语义基元集中在非会计术语集合中，而基于会计词典在编撰过程中语言表达的多样式，提取出的语义基元存在着定义相近形式不同的词汇，因此需要对该类词汇予以合并，较大程度的保证语义基元的表达效率。

6.根据权利要求2所述的会计术语共现网络图构建的方法，其特征在于，所述步骤S4中的核心程序为：

pr＝centrality(G,‘pagerank’,‘Followprobability’,0.85)

G.Nodes.PageRank＝pr

G.Nodes.InDegree＝indegree(G)

G.Nodes.OutDegree＝outdegree(G)

G.Nodes％查看每个节点的PR得分和级别信息

title(‘PageRank’)％使用强制布局绘制图表

G.Nodes＝sortrows(G.Nodes,‘PageRank’,‘descend’)

％按PR值降虚排列

H＝subgraph(G,find(G.Nodes.PageRank>0.005))

title(‘PageRank’)

colorbar