CN107679977A

CN107679977A - 一种基于语义分析的税务管理平台及实现方法

Info

Publication number: CN107679977A
Application number: CN201710795440.4A
Authority: CN
Inventors: 陈乐华; 涂继来; 黄晓晖
Original assignee: Guangdong Idatatech Co Ltd
Current assignee: Guangdong Idatatech Co Ltd
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2018-02-09

Abstract

本发明公开了一种基于语义分析的税务管理平台及实现方法，平台包括数据加工服务器、数据库服务器和语义分析***；实现方法包括通过数据加工服务器对采集到的互联网以及金三***数据库中的各类数据进行关联整合；通过数据库服务器存储数据税务管理过程中的数据信息；语义分析***根据数据库服务器中存储的数据信息进行鉴证报告抽取、法院判决文书抽取、企业名称归一化、企业名称规范化、自然人归一化、新闻涉税行为挖掘、一户式展示以及口碑分析操作。本发明通过语义分析***进行数据处理，促进了各模块之间的沟通融合，提高了数据资源的利用率和工作效率并减少了时间成本。本发明可广泛应用于税务管理领域。

Description

一种基于语义分析的税务管理平台及实现方法

技术领域

本发明涉及税务管理领域，尤其是一种基于语义分析的税务管理平台及实现方法。

背景技术

名词解释：

金三***：全称为金税工程三期，是一个税收管理信息***，该***作为地税的大型业务管理***，用于处理日常税务的综合管理。

TF-IDF：是一种统计方法，也称为向量空间模型，TF为词频，IDF为逆向文档频率，该统计方法的核心内容包括：1)、某个词或短语在一篇文章中出现的次数越多，越相关；2)、整个文档集合中包含某个词的文档数量越少，这个词越重要。

随着综合治税工作的全面铺开，政府部门间协作成效显著提高、综合治税工作成果不断扩大，通过对工商局、国土局、房产管理局、公安部门、供电局等单位提供的共享信息的整合以及利用，税收工作的效率得到了巨大的提高。另外，随着互联网的发展和信息数据的***式增长，我们对互联网信息的采集、各方数据的深入调和匹配、内外数据的关联和互动提出了更高的要求。因此如何获取互联网和第三方的涉税信息并挖掘其中的价值，成为了税务部门较为迫切的需求。

在政府的税务***流程中，工作人员需要花费大量的时间和精力从企业上交的整篇鉴证报告中提取“利润总额的审核”、“纳税调整后所得额的审核”、“应纳税所得额的审核”以及“应纳税额的审核”等关键内容，效率很低；再者，在税务人员在进行税务稽查的时候，需要用到纳税人的法院判决文书，虽然全部纳税人的判决文书都可以在中国判决文书网进行查找，但面对大量待稽查的纳税人，稽查人员需要在中国判决文书网中逐个进行查找，效率很低且时间成本很大；另外，现有的税务管理***各个模块之间缺乏沟通融合，容易形成数据孤岛，造成数据资源的浪费。

发明内容

为解决上述技术问题，本发明的第一个目的在于：提供一种时间成本低、效率高且数据资源利用率高的，基于语义分析的税务管理平台。

本发明的第二个目的在于：提供一种时间成本低、效率高且数据资源利用率高的，基于语义分析的税务管理实现方法。

本发明所采取的第一个技术方案是：

一种基于语义分析的税务管理平台，包括：

数据加工服务器，用于对采集到的互联网以及金三***数据库中的各类数据进行关联整合；

数据库服务器，用于存储税务管理过程中的数据信息；

语义分析***，用于根据数据库服务器存储的数据信息进行数据处理，所述数据处理包括鉴证报告抽取、法院判决文书抽取、企业名称归一化、企业名称规范化、自然人归一化、新闻涉税行为挖掘、一户式展示以及口碑分析操作；

其中，所述鉴证报告抽取通过语义分析的方法对鉴证报告中的关键内容进行结构化抽取，所述鉴证报告中的关键内容包括利润总额、纳税调整后所得额、应纳税所得额以及应纳税额；所述法院判决文书抽取通过语义分析的方法对法院判决文书中的关键内容进行结构化抽取，所述法院判决文书中的关键内容包括判决日期、判决结果、原告信息、被告信息、案由、涉案金额以及案件类型；

所述数据加工服务器与数据库服务器连接，所述语义分析***与数据库服务器连接。

进一步，所述语义分析***包括：

鉴证报告抽取模块，用于根据数据库服务器中存储的数据信息进行鉴证报告抽取；

法院判决文书抽取模块，用于根据数据库服务器中存储的数据信息进行法院判决文书抽取；

企业名称归一化模块，用于根据数据库服务器中存储的数据信息，对金三***内标准企业名称的相关纳税人识别号、纳税人编码、社会统一信用代码、企业简称、股票代码、企业英文名、企业全称拼音、企业简称拼音以及企业拼音首字母进行归一化管理；

企业名称规范化模块，用于根据数据库服务器中存储的数据信息，对待查税的目标企业名称进行相似度匹配，得到规范化的企业名称；

所述鉴证报告抽取模块、法院判决文书抽取模块、企业名称归一化模块和企业名称规范化模块均与数据库服务器连接。

进一步，所述语义分析***包括：

自然人归一化建模模块，用于根据数据库服务器中存储的数据信息，对可疑的自然人信息进行数据挖掘，并将挖掘出来的自然人信息进行归一化处理；其中，可疑的自然人信息为以下五种中的任意一种：

A)、纳税人的姓名以及出生日期相同，但证件号码不同；

B)、纳税人的姓名以及电话号码相同，但证件号码不同；

C)、纳税人居民身份证包含的出生日期与数据库服务器中存储的出生日期不同；

D)、纳税人的证件号码相同，但姓名不同；

E)、纳税人的外国护照与出生日期相同，但姓名不同；

所述自然人归一化建模模块与数据库服务器连接。

进一步，所述语义分析***包括：

新闻涉税行为挖掘模块，用于根据数据库服务器中存储的数据信息，对企业的新闻涉税行为进行挖掘，得到企业的涉税行为描述；

所述新闻涉税行为挖掘模块与数据库服务器连接。

进一步，所述语义分析***包括：

口碑分析模块，用于根据数据库服务器存储的数据信息，对企业的涉税记录进行分析，得到企业的涉税信用；

一户式展示模块，用于展示数据库服务器中存储的数据信息以及口碑分析模块的分析结果；

所述口碑分析模块和一户式展示模块均与数据库服务器连接。

进一步，还包括：

建模服务器，用于根据数据的文本、要素和概念对采集到的各类数据进行建模，将非结构化数据转化为结构化数据；

搜索服务器，用于根据用户提交的查找请求生成相应索引，进而通过全文检索的方式进行搜索；

图形数据库，用于根据结构化数据中实体间的相互关系，将结构化数据以网络图的形式进行存储并展示结构化数据的拓扑图；

所述建模服务器、搜索服务器和图形服务器均与数据库服务器连接。

本发明采取的第二个技术方案是：

一种基于语义分析的税务管理实现方法，包括以下步骤：

通过数据加工服务器对采集到的互联网以及金三***数据库中的各类数据进行关联整合；

通过数据库服务器存储数据税务管理过程中的数据信息；

语义分析***根据数据库服务器中存储的数据信息进行鉴证报告抽取、法院判决文书抽取、企业名称归一化、企业名称规范化、自然人归一化、新闻涉税行为挖掘、一户式展示以及口碑分析操作；

其中，所述鉴证报告抽取通过语义分析的方法对鉴证报告中的关键内容进行结构化抽取，所述鉴证报告中的关键内容包括利润总额、纳税调整后所得额、应纳税所得额以及应纳税额；所述法院判决文书抽取通过语义分析的方法对法院判决文书中的关键内容进行结构化抽取，所述法院判决文书中的关键内容包括判决日期、判决结果、原告信息、被告信息、案由、涉案金额以及案件类型。

进一步，所述语义分析***根据数据库服务器中存储的数据信息进行企业名称归一化这一操作，包括以下步骤：

根据数据库服务器中存储的数据信息，采用语义建模的方法进行模型构建，得到地域模型、公司性质模型以及行业分类模型；

根据构建好的地域模型、公司性质模型和行业分类模型对企业的核心词进行提取，得到企业简称。

进一步，所述语义分析***根据数据库服务器中存储的数据信息进行企业名称规范化这一操作，包括以下步骤：

将待查税的目标企业名称跟数据库服务器中存储的数据进行企业名称配对，根据配对结果进行相应的处理：若配对成功，则直接获得目标企业的规范化名称；反之，则进行下一步骤；

根据金三***数据库对待查税的目标企业名称进行相似度匹配，得到与目标企业名称相似度最高的规范化企业名称。

进一步，所述根据金三***数据库对待查税的目标企业名称进行相似度匹配，得到与目标企业名称相似度最高的规范化企业名称这一步骤包括以下步骤：

按照地域词、核心词、公司性质词以及行业分类词对目标企业的名称进行语义分词；

将语义分词的结果放入向量空间模型中进行各类词的基础分计算；

对计算的各类词的基础分进行加权计算得到目标企业名称的总评分，所述加权计算时的计算公式为：总评分＝10％×地域词基础分+65％×核心词基础分+15％×公司性质词基础分+10％×行业分类词基础分；

将金三***数据库中存储的企业名称总评分与加权计算出的目标企业的总评分进行匹配，得到金三***中与目标企业名称相似度最高的企业名称。

本发明的平台的有益效果是：通过语义分析***进行鉴证报告抽取、法院判决文书抽取、企业名称归一化、企业名称规范化、自然人归一化、新闻涉税行为挖掘、一户式展示以及口碑分析操作，解决了现有税务管理***容易形成数据孤岛的问题，促进了各模块之间的沟通融合，提高了数据资源的利用率；另外，本发明的税务管理平台通过语义分析***进行鉴证报告抽取和法院判决文书抽取，提高了工作效率并减少了时间成本。

本发明的方法的有益效果是：通过语义分析***进行鉴证报告抽取、法院判决文书抽取、企业名称归一化、企业名称规范化、自然人归一化、新闻涉税行为挖掘、一户式展示以及口碑分析操作，解决了现有税务管理***容易形成数据孤岛的问题，促进了各模块之间的沟通融合，提高了数据资源的利用率；另外，本发明通过语义分析***进行鉴证报告抽取和法院判决文书抽取，提高了工作效率并减少了时间成本。

附图说明

图1为本发明一种基于语义分析的税务管理实现平台的程序模块框图；

图2为本发明一种基于语义分析的税务管理实现方法的步骤流程图；

图3为本发明语义分析***的程序模块框图；

图4为本发明实施例一的税务管理平台程序模块框图；

图5为本发明实施例二企业名称归一化过程中的模型结构图；

图6为本发明实施例二数据存储过程中的程序模块框图；

图7为本发明实施例二相似度匹配的步骤流程图。

具体实施方式

参照图1，一种基于语义分析的税务管理平台，包括：

数据库服务器，用于存储税务管理过程中的数据信息；

参照图3，进一步作为优选的实施方式，所述语义分析***包括：

A)、纳税人的姓名以及出生日期相同，但证件号码不同；

B)、纳税人的姓名以及电话号码相同，但证件号码不同；

D)、纳税人的证件号码相同，但姓名不同；

E)、纳税人的外国护照与出生日期相同，但姓名不同；

所述自然人归一化建模模块与数据库服务器连接。

所述新闻涉税行为挖掘模块与数据库服务器连接。

参照图6，进一步作为优选的实施方式，还包括：

参照图2，采用如图1所示的税务管理平台的一种基于语义分析的税务管理实现方法，包括以下步骤：

通过数据库服务器存储数据税务管理过程中的数据信息；

进一步作为优选的实施方式，所述语义分析***根据数据库服务器中存储的数据信息进行企业名称归一化这一操作，包括以下步骤：

进一步作为优选的实施方式，所述语义分析***根据数据库服务器中存储的数据信息进行企业名称规范化这一操作，包括以下步骤：

其中，将待查税的目标企业名称跟数据库服务器中存储的数据进行企业名称配对这一步骤中所述数据库服务器中存储的数据包括金三***数据中的企业名称以及企业名称归一化模块中存储的规范化企业名称。

参照图7，进一步作为优选的实施方式，所述根据金三***数据库对待查税的目标企业名称进行相似度匹配，得到与目标企业名称相似度最高的规范化企业名称这一步骤包括以下步骤：

其中，相似度最高是指金三***数据库中存储的企业名称的总评分与目标企业的总评分相等或者分值差距最小。

下面结合说明书附图和具体实施例对本发明作进一步详细说明。

实施例一

本实施例的税务管理平台基于B/S架构，该平台包括：数据加工服务器、数据库服务器、语义分析***、建模服务器、搜索服务器以及图形数据库。本发明的所有税务管理工作都直接在语义分析***中进行，所有税务管理工作中的数据信息都通过数据库服务器进行实时保存和更新。

参照图4，为了示例方便，仅示出了三个客户端与语义分析***进行数据交互，实际应用中的客户端数量不受图4限制。

客户端设定了登录界面，用户在客户端输入网址后，进入登录界面，然后输入账号和密码后进入相应的操作界面。

语义分析***包括鉴证报告抽取模块、法院判决文书抽取模块、企业名称归一化模块、企业名称规范化模块、自然人归一化建模模块、新闻涉税行为挖掘模块、口碑分析模块以及一户式展示模块。

法院判决文书抽取模块，用于根据数据库服务器中存储的数据信息进行法院判决文书抽取。其中，法院判决文书抽取模块针对实际应用中的不同法院判决文书的不同表述，通过建模进行内容抽取，具体是指通过定义专属名词，对专属名词进行概念建模；

企业名称归一化模块，用于根据数据库服务器中存储的数据信息，对地税业务***内标准企业名称的相关纳税人识别号、纳税人编码、社会统一信用代码、企业简称、股票代码、企业英文名、企业全称拼音、企业简称拼音以及企业拼音首字母进行归一化管理；

A)、纳税人的姓名以及出生日期相同，但证件号码不同；

B)、纳税人的姓名以及电话号码相同，但证件号码不同；

D)、纳税人的证件号码相同，但姓名不同；

E)、纳税人的外国护照与出生日期相同，但姓名不同；

其中，所述对可疑的自然人信息进行数据挖掘这一步骤中的数据来源包括金三***数据库以及税务***大集中数据库中存储的数据，根据这两类数据来源进行挖掘分析，能够提高可疑自然人信息的筛选准确率，且方便了稽查人员进行多维度的直观分析。

一户式展示模块，用于展示企业所关联的一户式采集数据以及语义模型，包括鉴证报告、法院判决文书、涉税新闻以及口碑分析的处理结果等；

实施例二

本发明一种基于语义分析的税务管理实现方法的工作流程为：

步骤一：数据采集过程：对金税三期业务***以及其他第三方互联网平台(例如税务综合治理平台)等进行数据采集。

步骤二：数据加工过程：对采集到的互联网以及金三***数据库中的各类数据进行关联整合，以便本发明的税务管理平台本身根据业务需求进行应用。

步骤三：数据存储过程：本发明的税务管理平台通过数据库服务器存储并展示数据管理过程中的数据信息。参照图6，数据存储过程包括建模过程、搜索处理以及图形拓展存储。

以鼎富OEC数据库为例，建模过程具体是指：对数据加工后的数据信息的本体、要素和概念进行建模，从而有效地将非结构化的数据信息转为结构化的数据信息；

其中，鼎富OEC数据库是由北京鼎富科技股份有限公司提供的，基于本体、要素和概念进行建模，从而有效地将非结构化数据转为结构化数据的处理平台。

以Solr服务器为例，搜索处理过程具体是指：通过Solr服务器对数据库服务器中存储的所有数据信息进行全文检索，从而实现通过输入一个纳税人企业名称就能直接得到存储在数据库服务器中的所有相关结果，相较于传统的对逐个数据主题进行比对查找的方法，大大提高了工作效率和查找速度，且提高了查找结果的综合度，能够直观展示多个数据类别之间的关系；

其中，Solr服务器是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向Solr服务器提交一定格式的XML文件，生成索引；也可以通过Http的Get操作提出查找请求，并得到XML格式的返回结果。

以neo4j图形数据库为例，图形拓展存储具体是指：根据数据加工后的数据信息，对数据信息中的实体进行关系确认，挖掘隐藏在普通二维表中的实体相互关系，并对各个实体之间的相互关系进行管理以及展示。

其中，Neo4j图形数据库是一个高性能的NOSQL图形数据库。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性的企业级数据库的所有好处。

步骤四：数据处理过程：语义分析***根据数据库服务器中存储的数据信息进行鉴证报告抽取、法院判决文书抽取、企业名称归一化、企业名称规范化、自然人归一化、新闻涉税行为挖掘、一户式展示以及口碑分析等操作。

参照图5，本发明的企业名称归一化的具体步骤包括：

根据构建好的地域模型、公司性质模型和行业分类模型依次提取企业的核心词，根据提取的核心词进行模型调整，得到最终的企业简称。

本发明的企业名称规范化的具体步骤包括：

将待查税的目标企业名称跟数据库服务器中存储的金三***数据进行配对，若金三***数据中没有目标企业的规范化名称，则进行下一步骤；反之，则获得目标企业的规范化名称；

将待查税的目标企业名称跟企业名称归一化模块存储的数据进行配对，若企业名称归一化模块存储的数据中没有目标企业的规范化名称，则进行下一步骤；反之，则获得目标企业的规范化名称；

根据金三***数据库对待查税的目标企业名称进行相似度匹配，得到与目标企业名称相似度最高的规范化企业名称；

参照图7，所述根据金三***数据库对待查税的目标企业名称进行相似度匹配，得到与目标企业名称相似度最高的规范化企业名称这一步骤包括以下步骤：

对计算的各类词的基础分进行加权计算得到目标企业名称的总评分，所述加权计算得到总评分的计算公式为：总评分＝10％×地域词基础分+65％×核心词基础分+15％×公司性质词基础分+10％×行业分类词基础分；

将金三***数据库中存储的企业名称总评分与计算的目标企业的总评分进行匹配，得到金三***中与目标企业名称相似度最高的5个企业名称。

本发明的新闻涉税行为挖掘的具体步骤包括：

通过自然人归一化模型对相关企业涉及的新闻进行针对性采集，得到包括股东、高管、投资、减持、增资、获得股权、融资、增发、置换、出售以及无偿划转等类别的新闻数据；

根据命名实体识别方法对实体间的关系方向性进行抽取，从而完成涉税行为的描述。

所述命名实体识别方法是指：在大段新闻文本中，通过语义分析，对企业名称以及自然人进行标注。例如将涉税金额和股份百分比作为两个实体，若在同一片段中同时存在两个不同的实体，则通过动词的主被动，确认实体间的方向性；若同一片段中出现多个实体，则根据不同实体间的距离，确认一对实体间的关系，从而确认整个片段的涉税关系。

综上所述，本发明一种基于语义分析的税务管理平台及实现方法具有以下优点：

1)、通过语义分析***进行数据处理，能更好地将税务管理***内部的资源进行整合并促进***间各个模块的沟通融合，减少了模块间的数据孤岛。

2)、通过语义分析***和建模服务器对非结构化的中文文本进行分析，并将其转化为结构化数据，对数据的分析更加直观方便，能完美应用于政策效果分析、舆情监控等应用场景。

3)、通过图形数据库对结构化数据进行拓扑存储以及展示，相较于二维关系图的存储方式，使各类数据的展示更加立体直观，还提高了搜索服务的速度。

4)、通过数据加工服务器对采集到的各类数据进行关联整合，提高了后续搜索、建模以及数据抽取等过程的工作效率。

5)、新增鉴证报告抽取模块、法院判决文书抽取模块、企业名称归一化模块、企业名称规范化模块、自然人归一化建模模块以及新闻涉税行为挖掘模块等功能模块，将现在需要税务工作人员手动完成的工作自动化，大大提高了工作效率以及工作的完成质量，避免了人为失误造成的不必要损失。

6)、采用自定义的相似度匹配方法对目标企业进行规范化名称查找，能够从庞大的数据量中精准查找出目标企业的规范化名称或提供出相似度最高的相关规范化名称，拓宽了本税务管理平台的业务范围。

7)、通过一户式展示平台进行综合展示，能够快速查阅多个类型的数据并实现多类型数据之间的对比，提高了工作人员的工作效率。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于语义分析的税务管理平台，其特征在于：包括：

数据库服务器，用于存储税务管理过程中的数据信息；

2.根据权利要求1所述的一种基于语义分析的税务管理平台，其特征在于：所述语义分析***包括：

3.根据权利要求1所述的一种基于语义分析的税务管理平台，其特征在于：所述语义分析***包括：

A)、纳税人的姓名以及出生日期相同，但证件号码不同；

B)、纳税人的姓名以及电话号码相同，但证件号码不同；

D)、纳税人的证件号码相同，但姓名不同；

E)、纳税人的外国护照与出生日期相同，但姓名不同；

所述自然人归一化建模模块与数据库服务器连接。

4.根据权利要求1所述的一种基于语义分析的税务管理平台，其特征在于：所述语义分析***包括：

所述新闻涉税行为挖掘模块与数据库服务器连接。

5.根据权利要求1所述的一种基于语义分析的税务管理平台，其特征在于：所述语义分析***包括：

6.根据权利要求1-5任一项所述的一种基于语义分析的税务管理平台，其特征在于：还包括：

7.一种基于语义分析的税务管理实现方法，其特征在于：包括以下步骤：

通过数据库服务器存储数据税务管理过程中的数据信息；

8.根据权利要求7所述的一种基于语义分析的税务管理实现方法，其特征在于：所述语义分析***根据数据库服务器中存储的数据信息进行企业名称归一化这一操作，包括以下步骤：

9.根据权利要求7所述的一种基于语义分析的税务管理实现方法，其特征在于：所述语义分析***根据数据库服务器中存储的数据信息进行企业名称规范化这一操作，包括以下步骤：

10.根据权利要求9所述的一种基于语义分析的税务管理实现方法，其特征在于：所述根据金三***数据库对待查税的目标企业名称进行相似度匹配，得到与目标企业名称相似度最高的规范化企业名称这一步骤包括以下步骤：