CN113609407B

CN113609407B - 地区一致性校验方法和装置

Info

Publication number: CN113609407B
Application number: CN202110873574.XA
Authority: CN
Inventors: 纪森予; 王伟
Original assignee: Yancheng Tianyanchawei Technology Co ltd
Current assignee: Yancheng Tianyanchawei Technology Co ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2024-04-05
Anticipated expiration: 2041-07-30
Also published as: CN113609407A

Abstract

本发明公开了一种地区一致性校验方法和装置、以及存储介质和电子设备，所述方法包括：获取目标企业的企业详细信息，所述企业详细信息包括展示地区信息；根据所述企业详细信息，确定所述目标企业的第一地区信息；根据所述第一地区信息和所述展示地区信息对所述目标企业进行地区一致性校验，获取地区一致性校验结果。本发明通过对企业详细信息进行分析，能够准确的确定企业所在的地区，并根据确定的企业所在的地区进行地区一致性校验，能够高效快速地确定地区不一致的企业，能够有效提高展示的企业详细信息的准确性，提升用户体验。

Description

地区一致性校验方法和装置

技术领域

本发明涉及数据处理技术领域，并且更具体地，涉及一种地区一致性校验方法和装置、以及存储介质和电子设备。

背景技术

企业所在地区是用户普遍重点关注的企业信息之一。但由于企业所在地区并非是直接公开的数据，而所述企业相关的信息维度多，且存在数据复杂和可靠性低的问题，因此如何能够自动从已公开的企业相关的信息中准确识别出企业所在地区，是目前难以解决的技术问题。

现有的技术方案主要通过人工标定的方式来确定企业所在地区，因此存在效率低和准确度低的问题。并且当标定的企业所在地区与实际的企业所在地区不一致时，无法自动且快速地发现问题，导致用户体验度不佳。

发明内容

本发明要解决的问题包括企业展示的地区信息和企业实际所在的地区信息存在不一致的情况，因此需要对地区信息进行校验，以及如何根据企业的企业详细信息推断企业所在的地区，并对企业展示的地区信息进行校验，从而确定企业展示的地区信息的准确性。

为了解决上述诸如如何推断企业所在的地区，并对企业展示的地区信息进行校验技术问题，提出了本发明。本发明的实施例提供了一种地区一致性校验方法和装置、以及存储介质和电子设备。

根据本发明实施例的一个方面，提供了一种地区一致性校验方法，所述方法包括：

获取目标企业的企业详细信息，所述企业详细信息包括展示地区信息；

根据所述企业详细信息，确定所述目标企业的第一地区信息；

根据所述第一地区信息和所述展示地区信息对所述目标企业进行地区一致性校验，获取地区一致性校验结果。

优选地，还包括：

按照预设的时间间隔遍历数据库，以获取所述目标企业的企业详细信息。

优选地，所述根据所述企业详细信息确定所述目标企业的第一地区信息，包括：

当所述企业详细信息中的纳税人识别号维度存在数据时，从纳税人识别号中提取用于识别第一地区信息的数据，根据所述第一地区信息的数据确定地区词，将所述地区词作为所述目标企业的第一地区信息。

优选地，还包括:

根据纳税人识别号的位数按照预设的提取规则，提取所述用于识别第一地区信息的数据。

优选地，还包括：

当所述企业详细信息中的纳税人识别号维度为空或根据纳税人识别号无法确定第一地区信息时，根据所述企业详细信息中的预设的第一维度的第一维度信息确定所述目标企业的第一地区信息。

优选地，所述根据所述企业详细信息中的预设的第一维度的第一维度信息确定所述目标企业的第一地区信息，包括：

对第一维度信息进行分词，以获取所述第一维度信息中的地区词；

确定所述第一维度信息中每个地区词的词权，对词权进行排序，并根据最大的词权确定第一词权；

当所述第一词权大于等于预设的词权阈值时，根据所述第一词权对应的第一地区词，确定所述目标企业的第一地区信息。

优选地，还包括：

当所述第一词权小于预设的词权阈值时，确定所述第一词权对应的第一地区词的第一全局投票权重。

优选地，所述预设的第一维度为年报维度。

优选地，还包括：

确定所述企业详细信息中除纳税人识别号维度和预设的第一维度的维度为第二维度；

根据第二维度的第二维度信息的类型，按照预设的策略，确定每个第二维度信息中第二地区词的第二全局投票权重。

优选地，所述根据第二维度的第二维度信息的类型，按照预设的策略，确定每个第二维度信息中第二地区词的第二全局投票权重，包括：

当第二维度的第二维度信息的类型为文本类型时，对第二维度信息进行分词，以获取所述第二维度信息中的地区词，计算第二维度信息中每个地区词的词权，对词权进行排序，根据最大的词权确定第二词权，并计算所述第二词权对应的第二地区词的第二全局投票权重；

当第二维度的第二维度信息的类型为IP或电话号码时，根据第二维度信息进行归属地的查询，以获取第二维度信息中的第二地区词，并根据第二维度信息的类型进行全局投票权重的匹配，以确定每个第二地区词的第二全局投票权重。

优选地，还包括：根据第一地区词的全局投票权重和第二地区词的全局投票权重进行统计，确定相同的地区词的总全局投票权重，并根据总全局投票权重最大的地区词确定所述目标企业的第一地区信息。

优选地，还包括：

对维度信息进行拆分，获取维度信息中的地区词，并统计维度信息中的每个地区词的词频；

对于任一地区词，根据所述任一地区词所在的上文中存在的预设的关键词，确定所述任一地区词的权重，并根据所述任一地区词的权重和词频确定所述任一地区词的词权。

优选地，还包括：对于任一地区词，分别根据所述任一地区词所在的每个语句的上下文中存在的预设的关键词，确定存在所述地区词的每个语句对应的权重，并选取最大的权重为该任意地区词的权重。

优选地，所述根据所述企业详细信息，确定所述目标企业的第一地区信息，包括：

根据所述企业详细信息确定地区词；

获取所述地区词的词权；以及

将所述地区词和所述地区词的词权作为所述目标企业的第一地区信息。

优选地，还包括：

当所述地区一致性校验结果指示所述第一地区信息和所述企业详细信息中的展示地区信息不一致时，确定所述目标企业存在异常，并发送异常警告信息至监控终端。

根据本发明实施例的又一个方面，提供了一种地区一致性校验装置，所述装置包括：

企业详细信息获取模块，用于获取目标企业的企业详细信息，所述企业详细信息包括展示地区信息；

第一地区信息确定模块，用于根据所述企业详细信息确定所述目标企业的第一地区信息；

校验模块，用于根据所述第一地区信息和所述展示地区信息对所述目标企业进行地区一致性校验，获取地区一致性校验结果。

根据本发明实施例的又一个方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行本发明上述任一实施例所述的方法。

根据本发明实施例的又一个方面，提供了一种电子设备，其特征在于，所述电子设备包括：存储器和处理器；其中，

所述存储器，用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明上述任一实施例所述的方法。

本发明通过对企业详细信息进行分析，能够准确的确定企业所在的地区，并根据确定的企业所在的地区进行地区一致性校验，能够高效快速地确定地区不一致的企业，能够有效提高展示的企业详细信息的准确性，提升用户体验。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明一示例性实施例提供的地区一致性校验方法100的流程图；

图2为根据本发明一示例性实施例提供的根据年报信息确定目标企业的第一地区信息的方法200的流程图；

图3是本发明一示例性实施例提供的地区一致性校验装置300的结构示意图；

图4是本发明一示例性实施例提供的电子设备的结构。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

示例性方法

图1是本发明一示例性实施例提供的地区一致性校验方法100的流程图。本实施例可应用在电子设备上，如图1所示，包括以下步骤：

步骤101，获取目标企业的企业详细信息，所述企业详细信息包括展示地区信息。

其中，企业详细信息包括：纳税人识别号、年报、电话号码和公司名称等，还包括用于展示用的展示地区信息等多个维度。其中，纳税人识别号、年报、电话号码等维度信息可能为空值。

在一些可选实施例中，还可以通过以下方式获取目标企业的企业详细信息：按照预设的时间间隔遍历数据库，以获取所述目标企业的企业详细信息。

其中，还可以通过企业详细信息获取接口从数据库中获取企业的企业详细信息。在获取企业详细信息时，可以自定义目标企业，也可以按照预设的时间遍历数据库中所有公司的企业详细信息。

例如，在本发明的一实施例中，按照预设的时间间隔每周获取一次数据库中所有企业的企业详细信息。每个企业的企业详细信息为一条记录。例如，某企业A的企业详细信息包括：纳税人识别号为“123456789012345”、年报信息为“本公司的总部位于北京，还有五个分部等”、电话号码为“18888888888”、公司名称“A有限公司”和展示地区信息“北京”。

步骤102，根据所述企业详细信息，确定所述目标企业的第一地区信息。

其中，以企业详细信息包括纳税人识别号为例，所述根据所述企业详细信息确定所述目标企业的第一地区信息，包括：当所述企业详细信息中的纳税人识别号维度存在数据时，从纳税人识别号中提取用于识别第一地区信息的数据，根据所述第一地区信息的数据确定地区词，将所述地区词作为所述目标企业的第一地区信息。

在一些可选实施例中，还可以基于纳税人识别号的位数确定预期对应的预设的提取规则，再基于预设的提取规则提取所述用于识别第一地区信息的数据。

例如，在本发明中，可以根据纳税人识别号确定第一地区信息。纳税人识别号一般为15、17、18或20位。纳税人识别号的构成包括以下几种：

(1)15位：国家税务总局下达的纳税人代码为15位，其中：1—2位为省、市代码，3—6位为地区代码，7—8位为经济性质代码，9—10位行业代码，11—15位为各地自设的顺序码；

(2)17位：15位居民身份证号码+2位顺序码；

(3)18位：18位居民身份证号码；

(4)20位：18位居民身份证号码+2位顺序码(01至99)。

部分纳税人识别号包含老板身份证信息。例如个体工商户以居民身份证号码(18位或15位)作为其“纳税人识别号”。

在本发明该实施例中，设置用于识别第一地区信息的数据的提取规则为：当纳税人识别号为15、17、18或20位时，提取前1-6位作为用于识别第一地区信息的数据。然后，根据提取的用于识别第一地区信息的数据和纳税人识别号的位数确定第一地区信息。其中，不同位数的纳税人识别号关联不同的地区信息数据库，因此，可以根据纳税人识别号确定地区信息数据库，再从选定的地区信息数据库中进行用于识别第一地区信息的数据和地区信息的匹配，从而确定第一地区信息。通过纳税人识别号准确地识别出大概95％的企业的地区信息。

例如，若纳税人识别号为15位时对应的地区信息数据库A，若纳税人识别号为17、18或20位时对应的地区信息数据库为B。当纳税人识别号为“11010098765432111”时，首先确定纳税人识别号为17位，可以确定对应的地区信息数据库为B，然后再提取前6位为“110100”，再在地区信息数据库B中匹配与“110100”对应的地区信息为“北京”，从而可以确定第一地区信息为“北京”。

在一些可选实施例中，当所述企业详细信息中的纳税人识别号维度为空或根据纳税人识别号无法确定第一地区信息时，根据所述企业详细信息中的预设的第一维度的第一维度信息确定所述目标企业的第一地区信息。

其中，所述预设的第一维度可以为年报维度。

具体的，存在企业详细信息中的纳税人识别号维度为空或当纳税人识别号存在问题无法根据纳税人识别号无法确定第一地区信息时，则再根据所述企业详细信息中的年报维度的年报信息确定所述目标企业的第一地区信息。

优选地，所述根据所述企业详细信息中的预设的第一维度的第一维度信息确定所述目标企业的第一地区信息，包括：对第一维度信息进行分词，以获取所述第一维度信息中的地区词；确定所述第一维度信息中每个地区词的词权，对词权进行排序，并根据最大的词权确定第一词权；当所述第一词权大于等于预设的词权阈值时，根据所述第一词权对应的第一地区词，确定所述目标企业的第一地区信息。

优选地，还包括：

对于任一地区词，分别根据所述任一地区词所在的每个语句的上下文中存在的预设的关键词，确定存在所述地区词的每个语句对应的权重，并选取最大的权重为该任意地区词的权重。

在本发明中，对于年报信息，首先进行拆分，确定地区词和每个地区词的词频；然后，确定每个地区词的权重；最后，根据词频和权重确定每个地区词的词权。

其中，对于任一地区词，若其所在的所有的上下文中均不存在预设的关键词，则可以直接确定所述任一地区词的权重为0。

其中，对于任一地区词，若所述任一地区词出现在多个语句中，则计算所述任一地区词在对应的每个语句时的权重，并选取最大的权重作为所述任一地区词的权重。例如，若地区词“北京”分别位于年报信息的第1、2和4句中，且根据北京在第1、2和4句的上下文确定对应的权重分别为0.1,0.2,0.3时，则取0.3作为北京对应的权重。在本发明中，可以利用如下公式计算每个地区词对应的词权，包括：TFIDF＝TFxIDF；TF＝(countWordStr/countAll)；IDF＝log_e ^{(pageAll/wordCount+1)}其中，TFIDF为词权，TF为词频，IDF为权重；countWordStr为某地区词在文档中出现的次数；countAll为文档的总词量；pageAll为语料库中文档总数；wordCount为包含该词的文档数。

图2为根据本发明一示例性实施例提供的根据年报信息确定目标企业的第一地区信息的流程图。如图2所示，根据年报信息确定企业的第一地区信息，包括：

步骤201，对年报维度的年报信息进行拆分，获取年报信息中的地区词，并统计每个地区词的词频；

步骤202，对于任一地区词，根据所述任一地区词所在的上文中存在的预设的关键词，确定所述任一地区词的权重，并根据所述任一地区词的权重和词频确定所述任一地区词的词权；

步骤203，对词权进行排序，并根据最大的词权确定第一词权；

步骤204，当所述第一词权大于等于预设的词权阈值时，根据所述第一词权对应的第一地区词，确定所述目标企业的第一地区信息。

例如，某企业B的年报信息为“本公司的总部位于北京，北京作为本公司的总部给公司带来巨大收益，上海和天津均为本公司的分部”。

那么，根据该企业B的年报信息确定其第一地区信息的步骤具体可以包括：

对年报信息进行拆分，确定年报信息中的地区词包括“北京、上海和天津”，然后确定北京的词频为2，上海的词频为1，天津的词频为1；

根据地区词所在的上下文中存在的预设的关键词“总部/位于/分部”等，确定北京的权重为0.5，上海和天津的权重分别为0.25；

根据每个地区词的权重和词频，利用上述词权的计算公式可以确定每个地区词的词权，可以得到北京对应的词权为1，上海对应的词权为0.25，天津对应的词权为0.25；

选取最大的词权1作为第一词权；

若预设的词权阈值n为0.6，则第一词权大于等于预设的词权阈值，因此确定第一词权1对应的地区词“北京”为第一地区信息，或者若预设的词权阈值n为1.1，则第一词权小于预设的词权阈值n，因此需要确定该第一词权1对应的地区词“北京”对应的第一全局投票权重。

其中，预设的词权阈值的具体值不限于上述举例，具体可以根据需求自行设定。

在一些可选实施例中还包括：当所述第一词权小于预设的词权阈值时，确定所述第一词权对应的第一地区词的第一全局投票权重。

在本发明中，当所述第一词权小于预设的词权阈值时，根据年报信息中所有地区词的词权，对第一词权进行归一化处理，以确定所述第一词权对应的第一地区词的第一全局投票权重。然后，再根据其他维度的维度信息共同确定目标企业的第一地区信息。

在一些可选实施例中还包括：确定所述企业详细信息中除纳税人识别号维度和预设的第一维度的维度为第二维度；根据第二维度的第二维度信息的类型，按照预设的策略，确定每个第二维度信息中第二地区词的第二全局投票权重。

在本发明中，企业详细信息中除纳税人识别号维度和预设的第一维度(年报维度)的维度包括：企业名称、IP地址、电话号码、诉讼信息等，这些维度均作为第二维度。由于不同维度的值的类型不同，因此，根据第二维度信息的类型确定全局投票权重。

在一些可选实施例中还包括：根据第一地区词的全局投票权重和第二地区词的全局投票权重进行统计，确定相同的地区词的总全局投票权重，并根据总全局投票权重最大的地区词确定所述目标企业的第一地区信息。

在本发明中，对于所述企业详细信息中除纳税人识别号维度和年报维度的每种维度信息，当维度信息属于文本类型时，计算每种维度信息的第二词权对应的第二地区词的第二全局投票权重的原理和年报信息中计算第一全局投票权重的原理相同，在此不再赘述。

当维度信息属于IP地址或电话号码时，根据第二维度信息进行归属地的查询，以获取第二维度信息中的第二地区词，并根据第二维度信息的类型进行全局投票权重的匹配，以确定每个第二地区词的第二全局投票权重。例如，通过电话号码归属地确定第二地区词为“天津”，然后确定与电话号码维度匹配的权重为0.3，则电话号码维度的第二地区词“天津”的第二全局投票权重即为0.3。

在获取了全局投票权重后，根据第一地区词的全局投票权重和第二地区词的全局投票权重进行统计，确定相同的地区词的总全局投票权重，并根据总全局投票权重最大的地区词确定所述目标企业的第一地区信息息。例如，若通过年报维度、IP地址维度和电话号码维度分别确定的地区词和对应的全局投票权重为(北京，0.1)(上海，0.15)(北京，0.07)，则通过统计可以得到北京的总全局投票权重为0.17，大于上海的总全局投票权重0.15，则可以确定第一地区信息为“北京”。

步骤103，根据所述第一地区信息和所述展示地区信息对所述目标企业进行地区一致性校验，获取地区一致性校验结果。

在一些可选实施例中，若所述地区一致性校验结果指示所述第一地区信息和所述企业详细信息中的展示地区信息不一致时，确定所述目标企业存在异常，并可以发送异常警告信息至监控终端。

在本发明中，可以将通过企业详细信息确定的第一地区信息作为默认正确值，比较第一地区信息和所述企业详细信息中的展示地区信息(展示在企业详情页面)，若不一致，则确定企业存在异常，发送异常警告信息至监控终端。

在一些可选实施例中，所述根据所述企业详细信息，确定所述目标企业的第一地区信息，包括：

根据所述企业详细信息确定地区词；

获取所述地区词的词权；以及

具体地，企业详细信息包括：纳税人识别号、年报、电话号码和公司名称等，还包括用于展示用的展示地区信息等多个维度。在确定地区词时，可以先判断是否能够根据纳税人识别号维度的值确定地区词。

若能够根据纳税人识别号确定地区词，则根据纳税人识别号确定所述地区词，并直接根据所述地区词从数据库中调用与所述地区词对应的预设词权，并将确定的地区词和与所述地区词对应的预设词权作为所述目标企业的第一地区信息。其中，对于预设词权，由于根据纳税人识别号确定的地区词仅有一个，因此，可以设置为空或固定值1。此时获取的地区直接就是第一地区信息。对于如何根据纳税人识别号维度的值确定地区词的原理与上述实施例中根据纳税人识别号维度确定地区词的原理相同，在此不再赘述。

若不能够根据纳税人识别号确定地区词，则可以根据除纳税人识别号维度和展示地区信息维度外的其他维度的信息确定地区词。例如，在确定地区词时，可以先判断是否可以根据年报维度的年报信息确定地区词，若是，则直接根据年报维度对应的地区词确定第一地区信息，反之，则可以再基于其他维度的值确定第一地区信息。

其中，根据年报维度的年报信息确定第一地区信息的过程为：对年报维度的年报信息进行拆分，获取年报信息中的地区词，并统计每个地区词的词频；对于任一地区词，根据所述任一地区词所在的上文中存在的预设的关键词，确定所述任一地区词的权重，并根据所述任一地区词的权重和词频确定所述任一地区词的词权；对词权进行排序，并根据最大的词权确定第一词权；若所述第一词权大于等于预设的词权阈值，则表明此时可以根据年报维度确定第一地区信息，直接根据所述第一词权对应的第一地区词，确定所述目标企业的第一地区信息。对于如何根据年报维度信息确定第一地区信息的原理与上述实施例中根据年报维度信息确定第一地区信息的原理相同，在此不再赘述。

当所述第一词权小于预设的词权阈值时，表明此时无法根据年报维度确定第一地区信息，此时确定所述第一词权对应的第一地区词的第一全局投票权重，然后再根据第一全局投票权重，结合其他维度的维度信息确定第一地区信息。对于当根据年报维度信息无法确定第一地区信息时，再结合其他维度信息确定第一地区信息的原理与上述实施例中结合其他维度信息确定第一地区信息的原理相同，在此不再赘述。

本发明的方法能够通过纳税人识别号、年报、公司名称等多个维度的信息，有效识别出地区信息异常的企业，能够有效提高展示的企业详细信息的准确性，提升用户体验。

示例性装置

图3是本发明一示例性实施例提供的地区一致性校验装置300的结构示意图。如图3所示，本实施例包括：

企业详细信息获取模块301，用于获取目标企业的企业详细信息，所述企业详细信息包括展示地区信息。

优选地，所述企业详细信息获取模块301，还包括：按照预设的时间间隔遍历数据库，以获取所述目标企业的企业详细信息。

第一地区信息确定模块302，用于根据所述企业详细信息，确定所述目标企业的第一地区信息。

优选地，所述第一地区信息确定模块302，根据所述企业详细信息确定所述目标企业的第一地区信息，包括：当所述企业详细信息中的纳税人识别号维度存在数据时，从纳税人识别号中提取用于识别第一地区信息的数据，根据所述第一地区信息的数据确定地区词，将所述地区词作为所述目标企业的第一地区信息。

优选地，所述第一地区信息确定模块302，还包括:提取单元，用于根据纳税人识别号的位数按照预设的提取规则，提取所述用于识别第一地区信息的数据。

优选地，所述第一地区信息确定模块302，还包括：当所述企业详细信息中的纳税人识别号维度为空或根据纳税人识别号无法确定第一地区信息时，根据所述企业详细信息中的预设的第一维度的第一维度信息确定所述目标企业的第一地区信息。

优选地，所述第一地区信息确定模块302，所述根据所述企业详细信息中的预设的第一维度的第一维度信息确定所述目标企业的第一地区信息，包括：对第一维度信息进行分词，以获取所述第一维度信息中的地区词；确定所述第一维度信息中每个地区词的词权，对词权进行排序，并根据最大的词权确定第一词权；当所述第一词权大于等于预设的词权阈值时，根据所述第一词权对应的第一地区词，确定所述目标企业的第一地区信息。

优选地，在所述第一地区信息确定模块302，所述预设的第一维度为年报维度。

优选地，所述第一地区信息确定模块302，还包括：全局投票权重计算单元，用于当所述第一词权小于预设的词权阈值时，确定所述第一词权对应的第一地区词的第一全局投票权重。

优选地，所述第一地区信息确定模块302，还包括：确定所述企业详细信息中除纳税人识别号维度和预设的第一维度的维度为第二维度；根据第二维度的第二维度信息的类型，按照预设的策略，确定每个第二维度信息中第二地区词的第二全局投票权重。

优选地，所述第一地区信息确定模块302，根据第二维度的第二维度信息的类型，按照预设的策略，确定每个第二维度信息中第二地区词的第二全局投票权重，包括：当第二维度的第二维度信息的类型为文本类型时，对第二维度信息进行分词，以获取所述第二维度信息中的地区词，计算第二维度信息中每个地区词的词权，对词权进行排序，根据最大的词权确定第二词权，并计算所述第二词权对应的第二地区词的第二全局投票权重；当第二维度的第二维度信息的类型为IP或电话号码时，根据第二维度信息进行归属地的查询，以获取第二维度信息中的第二地区词，并根据第二维度信息的类型进行全局投票权重的匹配，以确定每个第二地区词的第二全局投票权重。

优选地，所述第一地区信息确定模块302，还包括：根据第一地区词的全局投票权重和第二地区词的全局投票权重进行统计，确定相同的地区词的总全局投票权重，并根据总全局投票权重最大的地区词确定所述目标企业的第一地区信息。

优选地，所述第一地区信息确定模块302，还包括：对维度信息进行拆分，获取维度信息中的地区词，并统计维度信息中的每个地区词的词频；

优选地，所述第一地区信息确定模块302，还包括：对于任一地区词，分别根据所述任一地区词所在的每个语句的上下文中存在的预设的关键词，确定存在所述地区词的每个语句对应的权重，并选取最大的权重为该任意地区词的权重。

校验模块303，用于根据所述第一地区信息和所述展示地区信息对所述目标企业进行地区一致性校验，获取地区一致性校验结果。

优选地，所述校验模块303，还包括：当所述地区一致性校验结果指示所述第一地区信息和所述企业详细信息中的展示地区信息不一致时，确定所述目标企业存在异常，并发送异常警告信息至监控终端。

本发明的实施例的地区一致性校验装置300与本发明的另一个实施例的地区一致性校验方法100相对应，在此不再赘述。

示例性电子设备

图4是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。图4图示了根据本公开实施例的电子设备的框图。如图4所示，电子设备40包括一个或多个处理器41和存储器42。

处理器41可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器42可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器41可以运行所述程序指令，以实现上文所述的本公开的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置43和输出装置44，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

此外，该输入装置43还可以包括例如键盘、鼠标等等。

该输出装置44可以向外部输出各种信息。该输出设备44可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图4中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种地区一致性校验方法，其特征在于，所述方法包括：

根据所述第一地区信息和所述展示地区信息对所述目标企业进行地区一致性校验，获取地区一致性校验结果；

其中，所述方法还包括：

当所述企业详细信息中的纳税人识别号维度为空或者根据纳税人识别号无法确定所述第一地区信息时，根据所述企业详细信息中预设的第一维度的第一维度信息，确定所述目标企业的第一地区信息；

其中，所述根据所述企业详细信息中预设的第一维度的第一维度信息，确定所述目标企业的第一地区信息，包括：

对所述第一维度信息进行分词，以获取所述第一维度信息中的地区词；

当所述第一词权大于或者等于预设的词权阈值时，根据所述第一词权对应的第一地区词，确定所述目标企业的第一地区信息。

2.根据权利要求1所述的方法，其特征在于，还包括：按照预设的时间间隔遍历数据库，以获取所述目标企业的企业详细信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述企业详细信息，确定所述目标企业的第一地区信息，包括：

当所述企业详细信息中的纳税人识别号维度存在数据时，从纳税人识别号中提取用于识别所述第一地区信息的数据，根据所述第一地区信息的数据确定地区词，将所述地区词作为所述目标企业的第一地区信息。

4.根据权利要求3所述的方法，其特征在于，还包括：根据所述纳税人识别号的位数，按照预设的提取规则，提取用于识别所述第一地区信息的数据。

5.根据权利要求1所述的方法，其特征在于，还包括：当所述第一词权小于预设的词权阈值时，确定所述第一词权对应的第一地区词的第一全局投票权重。

6.根据权利要求1所述的方法，其特征在于，所述预设的第一维度为年报维度。

7.根据权利要求5所述的方法，其特征在于，还包括：

确定所述企业详细信息中除纳税人识别号维度和预设的所述第一维度的维度为第二维度；

根据所述第二维度的第二维度信息的类型，按照预设的策略，确定每个所述第二维度信息中第二地区词的第二全局投票权重。

8.根据权利要求7所述的方法，其特征在于，所述根据第二维度的第二维度信息的类型，按照预设的策略，确定每个所述第二维度信息中第二地区词的第二全局投票权重，包括：

当所述第二维度的第二维度信息的类型为文本类型时，对所述第二维度信息进行分词，以获取所述第二维度信息中的地区词，计算所述第二维度信息中每个地区词的词权，对词权进行排序，根据最大的词权确定第二词权，并确定所述第二词权对应的第二地区词的第二全局投票权重；

当所述第二维度的第二维度信息的类型为IP或者电话号码时，根据所述第二维度信息进行归属地的查询，以获取所述第二维度信息中的第二地区词，并根据所述第二维度信息的类型进行全局投票权重的匹配，以确定每个第二地区词的第二全局投票权重。

9.根据权利要求8所述的方法，其特征在于，还包括：

根据所述第一全局投票权重和所述第二全局投票权重进行统计，确定相同的地区词的总全局投票权重，并根据所述总全局投票权重最大的地区词，确定所述目标企业的第一地区信息。

10.根据权利要求1或8所述的方法，其特征在于，还包括：

11.根据权利要求10所述的方法，其特征在于，还包括：

对于任一地区词，分别根据所述任一地区词所在的每个语句的上下文中存在的预设的关键词，确定存在所述地区词的每个语句对应的权重，并选取最大的权重为所述任一地区词的权重。

12.根据权利要求1所述的方法，其特征在于，所述根据所述企业详细信息，确定所述目标企业的第一地区信息包括：

根据所述企业详细信息确定地区词；

获取所述地区词的词权；以及

13.根据权利要求1所述的方法，其特征在于，还包括：

当所述地区一致性校验结果指示所述第一地区信息与所述企业详细信息中的展示地区信息不一致时，确定所述目标企业存在异常，并发送异常警告信息至监控终端。

14.一种地区一致性校验装置，其特征在于，所述装置包括：

第一地区信息确定模块，用于根据所述企业详细信息，确定所述目标企业的第一地区信息；

校验模块，用于根据所述第一地区信息和所述展示地区信息对所述目标企业进行地区一致性校验，获取地区一致性校验结果；

其中，所述第一地区信息确定模块，还包括：当所述企业详细信息中的纳税人识别号维度为空或根据纳税人识别号无法确定第一地区信息时，根据所述企业详细信息中的预设的第一维度的第一维度信息确定所述目标企业的第一地区信息；

其中，所述根据所述企业详细信息中的预设的第一维度的第一维度信息确定所述目标企业的第一地区信息，包括：对第一维度信息进行分词，以获取所述第一维度信息中的地区词；确定所述第一维度信息中每个地区词的词权，对词权进行排序，并根据最大的词权确定第一词权；当所述第一词权大于等于预设的词权阈值时，根据所述第一词权对应的第一地区词，确定所述目标企业的第一地区信息。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-13中任一项所述的方法。

16.一种电子设备，其特征在于，所述电子设备包括：存储器和处理器；其中，

所述存储器，用于存储所述处理器可执行指令；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-13中任一项所述的方法。