CN111639161A - 制度信息处理方法、装置、计算机***和介质 - Google Patents

制度信息处理方法、装置、计算机***和介质 Download PDF

Info

Publication number
CN111639161A
CN111639161A CN202010481834.4A CN202010481834A CN111639161A CN 111639161 A CN111639161 A CN 111639161A CN 202010481834 A CN202010481834 A CN 202010481834A CN 111639161 A CN111639161 A CN 111639161A
Authority
CN
China
Prior art keywords
information
feature vector
system information
enterprise
requirement information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010481834.4A
Other languages
English (en)
Inventor
肖向博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010481834.4A priority Critical patent/CN111639161A/zh
Publication of CN111639161A publication Critical patent/CN111639161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种制度信息处理方法,应用于计算机***。该方法包括:获取指定企业的制度信息,并构建用于表征该制度信息的第一特征向量。获取用于表征指定企业所在地区的监管要求信息的第二特征向量。基于第一特征向量和第二特征向量,确定监管要求信息和制度信息之间的匹配度。当二者之间匹配度低于预定阈值时,向指定企业的终端推送指示指定企业的制度制定不符合其所在地区的监管要求的提示信息。本公开还提供了一种制度信息处理装置、计算机***和介质。

Description

制度信息处理方法、装置、计算机***和介质
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种制度信息处理方法、装置、计算机***和介质。
背景技术
通常情况下,企业可对制度信息进行发布和管理。企业所属地区可基于监管要求信息针对企业的制度信息进行监管。企业的制度信息决定了企业的实际业务的实施规范。面对数量众多的企业,监督企业的制度信息其所属地区的监管要求的一致性非常重要。大多数情况下,需要人为比对企业制度信息与地区监管要求的一致性,效率低、时效性差、且准确性也不高。
发明内容
本公开的一个方面提供了一种制度信息处理方法,应用于计算机***。该方法包括:获取指定企业的制度信息,并构建用于表征该制度信息的第一特征向量。获取用于表征指定企业所在地区的监管要求信息的第二特征向量。基于第一特征向量和第二特征向量,确定监管要求信息和制度信息之间的匹配度。当二者之间匹配度低于预定阈值时,向指定企业的终端推送指示指定企业的制度制定不符合其所在地区的监管要求的提示信息。
可选地,上述方法还包括:在上述构建用于表征所述制度信息的第一特征向量之前,确定制度信息的语言是否为简体中文。如果否,则将制度信息的语言转换为简体中文。
可选地,上述构建用于表征制度信息的第一特征向量包括:利用预先构建的词频-逆文档频率模型对制度信息进行处理,以得到第一特征向量。
可选地,上述利用预先构建的词频-逆文档频率模型对制度信息进行处理,以得到第一特征向量包括:将制度信息输入词频-逆文档频率模型,以由词频-逆文档频率模型执行如下操作:对制度信息进行分词处理,以得到多个分词结果。统计多个分词结果中的每个分词结果在制度信息中的词频。基于每个分词结果的词频和预设语料库,确定每个分词结果的词频-逆文档频率特征。接着,基于多个分词结果各自的词频-逆文档频率特征,构建第一特征向量。
可选地,上述构建用于表征所述制度信息的第一特征向量包括:利用预先构建的词集模型将制度信息表示为独热向量,以作为第一特征向量。
可选地,上述获取用于表征指定企业所在地区的监管要求信息的第二特征向量包括:确定计算机***的预定存储区域是否存在该监管要求信息的第二特征向量。如果是,则从预定存储区域读取第二特征向量。如果否,则利用网络爬虫从指定网页抓取监管要求信息,其中指定网页用于展示监管要求信息,接着构建用于表征监管要求信息的第二特征向量,并将第二特征向量存储至预定存储区域。
可选地,上述方法还包括:监测上述指定网页。当监测到上述指定网页的更新事件时,利用网络爬虫从上述指定网页抓取更新后的监管要求信息。然后构建用于表征更新后的监管要求信息的第二特征向量,并将第二特征向量存储至预定存储区域。
可选地,上述构建用于表征监管要求信息的第二特征向量和上述构建用于表征更新后的监管要求信息的第二特征向量包括:利用预先构建的词频-逆文档频率模型对监管要求信息进行处理,以得到第二特征向量。或者,利用预先构建的词集模型将监管要求信息表示为独热向量,以作为第二特征向量。
可选地,上述基于第一特征向量和第二特征向量,确定监管要求信息和制度信息之间的匹配度包括如下至少一项:计算第一特征向量和第二特征向量之间的匹配系数,并根据二者之间的匹配系数确定匹配度。计算第一特征向量和第二特征向量之间的余弦相似度,并根据二者之间的余弦相似度确定匹配度。以及计算第一特征向量和第二特征向量之间的明科夫斯基距离,并根据二者之间的明科夫斯基距离确定匹配度。
本公开的另一方面提供了一种制度信息处理装置,应用于计算机***。该装置包括:第一获取模块、构建模块、第二获取模块、匹配模块和监管处理模块。第一获取模块用于获取指定企业的制度信息。构建模块用于构建用于表征制度信息的第一特征向量。第二获取模块用于获取用于表征指定企业所在地区的监管要求信息的第二特征向量。匹配模块用于基于第一特征向量和第二特征向量,确定监管要求信息和制度信息之间的匹配度。监管处理模块用于当二者之间的匹配度低于预定阈值时,向指定企业的终端推送指示指定企业的制度制定不符合其所在地区的监管要求的提示信息。
本公开的另一方面提供了一种计算机***,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,制度信息处理方法可以自动化地获取企业的制度信息和企业所在地区的监管要求信息,并对该制度信息和监管要求信息进行匹配,以确定企业的制度信息是否符合其所属地区的监管要求。具体地,可以利用处理模型确定表征制度信息的第一特征向量和表征监管要求信息的第二特征向量,再基于第一特征向量和第二特征向量来确定制度信息和监管要求信息之间的匹配度。能够根据实际需要快速、准确地进行企业制度与地区监管要求之间的对标,省去了人工比对的过程,提高了效率和准确性。并在确定企业制度不符合地府监管要求的情况下,计算机***可以智能地向企业或地区监管平台进行反馈,以推进企业制度的修正。根据本公开实施例,针对各个地区的各个企业均可快速完成上述过程,以维持各个地区的企业运营的正常有序。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的应用制度信息处理方法和装置的示例性***架构;
图2示意性示出了根据本公开实施例的制度信息处理方法的流程图;
图3示意性示出了根据本公开实施例的智能对标工具的架构示例图;
图4示意性示出了根据本公开实施例的图3中的监管要求抓取模块330的示例图;
图5示意性示出了根据本公开实施例的图3中的文字翻译转换模块340的示例图;
图6示意性示出了根据本公开实施例的图3中的数学建模模块350的示例图;
图7示意性示出了根据本公开实施例的图3中的相似性判断及对标分析模块360的示例图;
图8示意性示出了根据本公开实施例的制度信息处理装置的框图;以及
图9示意性示出了根据本公开实施例的计算机***的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
本公开的一个方面提供了一种制度信息处理方法和装置,应用于计算机***。该制度信息处理方法可以包括:第一获取过程、构建过程、第二获取过程、匹配过程和监管处理过程。在第一获取过程,获取指定企业的制度信息,并在构建过程中构建用于表征该制度信息的第一特征向量。在第二获取过程,获取用于表征指定企业所在地区的监管要求信息的第二特征向量。然后可以进行匹配过程,基于第一特征向量和第二特征向量,确定监管要求信息和制度信息之间的匹配度。接着可以根据匹配度进行监管处理过程,当二者之间匹配度低于预定阈值时,向指定企业的终端推送指示指定企业的制度制定不符合其所在地区的监管要求的提示信息,以使指定企业对其制度信息进行修正。
图l示意性示出了根据本公开实施例的可以应用制度信息处理方法和装置的示例性***架构100。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括:多个企业的制度管理平台101、计算机***102和多个地区的监管平台103。其中,多个企业的制度管理平台101包括:企业A的制度管理平台、企业B的制度管理平台和企业C的制度管理平台。多个地区的监管平台103包括:地区1的监管平台、地区2的监管平台和地区3的监管平台。在其他实施例中,多个地区也可以共用一个监管平台,在此不做限制。
任一企业的制度管理平台101例如可以运行全生命周期制度管理工具,用以实现例如企业内部制度信息的制订、制度信息的发布、制度信息的新增、修订和废止、制度信息的分类管理展示、制度信息的搜索、制度信息的场景化展示、制度信息的使用情况自测等功能。其中,制度信息可以是企业结合自身实际生产经营情况而制定的各种规章制度,如程序文件、作业指导书等。制度管理平台101例如由可以相互通信的终端设备和服务器构成,例如终端设备中安装有制度管理工具的客户端(如应用客户端、网页客户端等),相应地服务器中安装有制度管理工具的服务端。
任一地区的监管平台103例如用以实现相应地区的针对企业制度的监管要求信息的制订、监管要求信息的发布、监管要求信息的新增、修订和废止等功能。一个地区的监管要求信息例如包括该地区针对企业制度的法律法规、监管要求文件等。监管平台103例如由可以相互通信的终端设备和服务器构成,例如终端设备中安装有监管工具的客户端(如应用客户端、网页客户端等),相应地服务器中安装有监管工具的服务端。
计算机***102可以是各种具有一定计算能力的电子设备,例如大型主机、服务器或服务器集群等,在此不做限制。根据本公开实施例的制度信息处理方法和装置可以由计算机***102执行。计算机***102一方面可以获取来自任一企业的制度管理平台101的制度信息,另一方面可以获取来自任一监管平台103的监管要求信息。例如,计算机***102从企业A的制度管理工具的客户端获取到企业A的制度信息。并且计算机***102还从企业A所属的地区(例如地区2)的监管工具的客户端获取到地区2的监管要求信息。计算机***102可以将企业A的制度信息与地区2的监管要求信息进行比对,以确定企业A的制度信息是否符合其所属地区的监管要求。在其他实施例中,计算机***102可以部署在各企业的制度管理平台101中,或者计算机***102也可以部署在各地区的监管平台103中,在此不做限制。
应该理解,图1中的制度管理平台、计算机***和监管平台的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目、任意类型的制度管理平台、计算机***和监管平台。
企业的制度信息决定了企业的实际业务的实施规范。面对数量众多的企业,监督企业的制度信息其所属地区的监管要求的一致性非常重要。大多数情况下,需要人为比对企业制度信息与地区监管要求的一致性,效率低、时效性差、且准确性也不高。
根据本公开的实施例,提供了一种制度信息处理方法,下面结合附图进行示例性说明。需要说明的是,本公开实施例所提供的制度信息处理方法可以由上述计算机***执行。相应地,本公开实施例所提供的制度信息处理装置可以设置于上述计算机***中。应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2示意性示出了根据本公开实施例的制度信息处理方法的流程图,可以应用于计算机***,该计算机***可以作为服务器或终端设备,以实现企业制度信息与地区监管要求的自动化对标。
如图2所示,该制度信息处理方法可以包括操作S210~S250。
在操作S210,获取指定企业的制度信息。
示例性地,指定企业的制度信息例如可以对应于指定企业结合自身实际生产经营情况而制定的至少一项制度文件的文本表示。本操作S210例如可以从上文所述的指定企业的制度管理平台获取相应的制度信息。该制度信息应当为指定企业最新发布的制度信息。
在操作S220,构建用于表征该制度信息的第一特征向量。
示例性地,第一特征向量可以包括多个特征值,该多个特征值用于从多个维度对制度信息进行描述,以体现该制度信息的各种表面文本(surface text)特征、各种语义(semantic)文本特征等。例如,上述构建第一特征向量的过程可以利用计算机***中预先构建的处理模型进行。
在操作S230,获取用于表征指定企业所在地区的监管要求信息的第二特征向量。
示例性地,本操作S230可以从计算机***本地获取监管要求信息及其第二特征向量,也可以基于网络从其他设备或平台获取监管要求信息及其第二特征向量。例如,指定企业为企业A,企业A所属的地区为地区2,本操作可以从地区2的监管平台获取监管要求信息并基于该监管要求信息确定第二特征信息。其中所获取的监管要求信息应当是地区2的最新版本的监管要求信息。第二特征向量可以包括多个特征值,该多个特征值用于从多个维度对监管要求信息进行描述,以体现该监管要求信息的各种表面文本特征、各种语义文本特征等。例如,获取监管要求信息的第二特征向量的过程也可以利用计算机***中预先构建的处理模型进行。监管要求信息例如可以为各种监管要求文件的文本表示。
在操作S240,基于第一特征向量和第二特征向量,确定监管要求信息和制度信息之间的匹配度。
沿用上文中的例子,企业A的制度信息与地区2的监管要求信息之间的匹配度越高,表明企业A的制度信息与地区2的监管要求信息之间的一致性越高,即表明企业A的制度信息越符合地区2的监管要求。
在操作S250,当二者之间匹配度低于预定阈值时,向指定企业的终端推送指示指定企业的制度制定不符合其所在地区的监管要求的提示信息。
沿用上文中的例子,当企业A的制度信息与地区2的监管要求信息之间的匹配度低于预定阈值时,表明企业A的制度信息与地区2的监管要求不一致,即表明企业A的制度信息不符合地区2的监管要求。故此时本操作S250需要向企业A的制度管理平台(例如终端设备或服务器)推送提示信息,该提示信息用于指示企业A的制度制定不符合其所在地区的监管要求,以使企业A及时针对其制度信息进行修正,以达到监管目的。在其他实施例中,当确定企业A的制度信息不符合地区2的监管要求时,还可以向地区2的监管平台(例如终端设备或服务器)推送告警信息,该告警信息用于指示企业A的制度制定不符合其所在地区的监管要求,以使地区2的监管平台可以通过其他渠道及时针对企业A进行管理,以使企业A对其制度信息进行修正,从而达到监管目的。
本领域技术人员可以理解,根据本公开实施例的制度信息处理方法可以自动化地获取企业的制度信息和企业所在地区的监管要求信息,并对该制度信息和监管要求信息进行匹配,以确定企业的制度信息是否符合其所属地区的监管要求。具体地,可以利用处理模型确定表征制度信息的第一特征向量和表征监管要求信息的第二特征向量,再基于第一特征向量和第二特征向量来确定制度信息和监管要求信息之间的匹配度。能够根据实际需要快速、准确地进行企业制度与地区监管要求之间的对标,省去了人工比对的过程,提高了效率和准确性。并在确定企业制度不符合地府监管要求的情况下,计算机***可以智能地向企业或地区监管平台进行反馈,以推进企业制度的修正。根据本公开实施例,针对各个地区的各个企业均可快速完成上述过程,以维持各个地区的企业运营的正常有序。
示例性地,根据本公开实施例的制度信息处理方法可以由智能对标工具实施,该智能对标工具可以运行于上述计算机***中。图3示意性示出了根据本公开实施例的智能对标工具的架构示例图。
如图3所示,智能对标工具300例如可以包括:界面模块310、制度信息抓取模块320、监管要求抓取模块330、文字翻译转换模块340、数学建模模块350、以及相似性判断及对标分析模块360。
示例性地,界面模块310用于展示智能对标工具的用户交互界面。制度信息抓取模块320用于获取各个企业的制度信息。当智能对标工具部署在企业的制度管理平台中时,制度信息抓取模块可以直接使用本地存储的制度信息。监管要求抓取模块330用于获取各个地区的监管要求信息。文字翻译转换模块340用于对制度信息和监管要求信息进行机器翻译,以统一为相同语言的文本表示。数学建模模块350用于预先构建处理模型,例如构建可以基于制度信息构建第一特征向量、并且可以基于监管要求信息构建第二特征向量的处理模型。相似性判断及对标分析模块360用于基于第一特征向量和第二特征向量来确定制度信息与监管要求信息之间的匹配度,从而确定二者之间的对标结果,并基于对标结果进行后续策略处置。
根据本公开的实施例,利用图3所示的监管要求抓取模块330可以执行上述获取用于表征指定企业所在地区的监管要求信息的第二特征向量的过程。该过程例如可以包括:确定计算机***的预定存储区域是否存在该监管要求信息的第二特征向量。如果是,则从预定存储区域读取第二特征向量。如果否,则利用网络爬虫从指定网页抓取监管要求信息,其中指定网页用于展示监管要求信息。接着构建用于表征监管要求信息的第二特征向量,并将第二特征向量存储至预定存储区域。可以理解,在一个地区的监管要求信息未发生变化的情况下,如果曾经获取过该地区的监管要求信息并基于该监管要求信息构建过第二特征向量,由于计算机***会对每次获取到的第二特征向量进行存储,则可以从计算机***本地的预定存储区域可以找到该第二特征向量,无需再重新构建。如果未曾获取过该地区的监管要求信息,则需要从展示该监管要求信息的指定网页抓取该监管要求信息。
进一步地,在本公开的一个实施例中,即便计算机***本地已经存储了一个地区的监管要求信息以及表征该监管要求信息的第二特征向量,但如果该地区的监管要求信息发生了更新,则导致计算机***本地所存储的该监管要求信息不再是该地区最新的监管要求信息。该情况下,为保证对标结果的时效性,依然可以依赖网络重新获取更新后的监管要求信息。示例性地,根据本公开实施例的制度信息处理方法还可以包括:针对任一地区,监测该地区的用于展示监管要求信息的指定网页。当监测到该指定网页的更新事件时,利用网络爬虫从上述指定网页抓取更新后的监管要求信息。然后基于该更新后的监管要求信息,重新构建用于表征监管要求信息的第二特征向量,并将第二特征向量存储至预定存储区域。
图4示意性示出了根据本公开实施例的图3中的监管要求抓取模块330的示例图。如图4所示,该监管要求抓取模块330可以包括属地监管要求网站维护单元331、监管要求网络抓取单元332和监管内容读取单元333。
示例性地,属地监管要求网站维护单元331用于维护一张映射表,该映射表中记录有各个地区的监管要求网站的地址信息,例如地区1的监管要求网站的地址信息为www.locationlxxx.com,该地址可以定向到地区1的用于展示监管要求信息的指定网页。其他地区同理,在此不再赘述。该映射表随着各地区的监管要求网站的地址信息的变更而进行更新。监管要求网络抓取单元332以属地监管要求网站维护单元331所维护的映射表为索引,利用网络爬虫技术从相应地区的监管要求网站中抓取该地区的监管要求信息的相关内容。例如在对一个属于地区1的企业制度信息进行处理时,从www.locationlxxx.com所指示的网站中抓取地区l的监管要求信息的相关内容。并利用监管内容读取单元333从所抓取的大量内容中读取出监管要求信息的文本内容并存入计算机***的本地数据库中。
根据本公开的实施例,上述制度信息处理过程例如可以是针对以简体中文表示的制度信息和监管要求信息而进行的。在上述构建用于表征制度信息的第一特征向量之前,可以利用上述文字翻译转换模块340确定制度信息的语言是否为简体中文。如果否,则将制度信息的语言转换为简体中文。同理地,在需要构建表征监管要求信息的第二特征向量之前,也可以利用上述文字翻译转换模块340确定监管要求信息的语言是否为简体中文,并在非简体中文的情况下将监管要求信息的语言转换为简体中文。从而使得后续进行对标的制度信息和监管要求信息以同种语言表示。在其他实施例中,也可以针对其他语言的文本进行上述制度信息处理过程,例如英文,则在进行特征向量的构建之前需要统一转换为英文文本,在此不再赘述。
图5示意性示出了根据本公开实施例的图3中的文字翻译转换模块340的示例图。如图5所示,该文字翻译转换模块340可以包括整理单元341、机器翻译单元342和结构化处理单元343。
示例性地,在获取到一个地区的监管要求信息后,可以利用整理单元341对该监管要求信息进行数据清洗、语言识别等预处理过程。并且在确定该监管要求信息为非中文简体时,利用机器翻译单元342将该监管要求信息转换为简体中文文本。针对中文文本,由于中文文本的连续性,还可以利用结构化处理单元343对该监管要求信息进行自然语言处理,以便于后续特征向量的构建过程。同理地,针对企业的制度信息也可以执行上述文本处理过程,在此不再赘述。
根据本公开的实施例,图3所示的数学建模模块350预先构建的处理模型例如可以是词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)模型。示例性地,上述构建用于表征制度信息的第一特征向量的过程可以包括:利用预先构建的词频-逆文档频率模型对制度信息进行处理,以得到第一特征向量。上述构建用于表征监管要求信息的第二特征向量的过程可以包括:利用预先构建的词频-逆文档频率模型对监管要求信息进行处理,以得到第二特征向量。
图6示意性示出了根据本公开实施例的图3中的数学建模模块350的示例图。如图6所示,该数学建模模块350可以包括监管要求结构化单元351、制度信息结构化单元352、模型创建单元353和特征向量构建单元354。
示例性地,数学建模模块350主要利用监管要求结构化单元351和制度信息结构化单元352分别对所获取的监管要求信息和制度信息进行自然语言处理,该结构化处理过程与上文中结构化处理单元343所执行的结构化处理过程可以择一地进行,以分别得到监管要求结构化数据和企业制度结构化数据。模型创建单元353创建数学模型,例如上文提到的词频-逆文档频率模型。特征向量构建单元354基于该词频-逆文档频率模型确定用于表征制度信息的第一特征向量和用于表征监管要求信息的第二特征向量。下面举例说明构建第一特征向量的过程。
例如,针对企业A的制度信息,将该制度信息输入词频-逆文档频率模型,以由词频-逆文档频率模型执行如下操作:对制度信息进行分词处理,以得到多个分词结果。统计多个分词结果中的每个分词结果在制度信息中的词频。基于每个分词结果的词频和预设语料库,确定每个分词结果的词频-逆文档频率特征。接着,基于多个分词结果各自的词频-逆文档频率特征,构建第一特征向量。其中,预设语料库中可以包括多个文档。
计算每个分词结果的词频-逆文档频率特征的过程例如可以按照如下方式实施。首先,针对企业A的制度信息(可称为文档)中的一个分词结果X(可称为词条),该分词结果X的词频-逆文档频率特征中的词频(Term Frequency,TF)是指某一个该分词结果X在该制度信息中出现的次数与该制度信息中所有分词结果的出现次数的比值,如公式(1)所示。
Figure BDA0002514881130000141
同样针对分词结果X,该分词结果X的词频-逆文档频率特征中的逆文档频率(Inverse Document Frequency,IDF)用来说明该分词结果X的类别区分能力。如果语料库中包含该分词结果X的文档越少,该分词结果X的IDF就越大,表明该分词结果X就具有良好的类别区分能力。计算某一分词结果X的IDF,可以由语料库中的总文档数目除以包含该分词结果X的文档的数目,再将得到的商取对数得到,如公式(2)所示。为避免分母为0,本例中还增加一偏置系数1。
Figure BDA0002514881130000142
然后,利用分词结果X的TF值乘以该分词结果X的IDF值,可以获得该分词结果X的“TF-IDF权重”,即词频-逆文档频率特征的特征值,如公式(3)所示。
TF-IDF=TF*IDF
公式(3)
对于企业A的制度信息中的多个分词结果,通过上述过程可以得到多个分词结果各自的词频-逆文档频率特征的特征值。例如,制度信息包括分词结果{a1,a2,...,an},本例中n为大于2的整数。所得到的第一特征向量例如可以为{Ta1,Ta2,...,Tan},其中,Ta1为分词结果a1的词频-逆文档频率特征,Ta2为分词结果a2的词频-逆文档频率特征,......,Tan为分词结果an的词频-逆文档频率特征。
同理地,在需要构建第二特征向量的情况下,特征向量构建单元354可以按照上述实施过程,由词频-逆文档频率模型对监管要求信息进行分词处理,以得到监管要求信息的多个分词结果。按照上述公式(1)~(3)分别计算监管要求信息的多个分词结果各自的词频-逆文档频率特征,以由多个分词结果各自的词频-逆文档频率特征构成用于表征监管要求信息的第二特征向量。
根据本公开的另一实施例,模型创建单元353还可以创建其他类型的数学模型以进行制度信息和监管要求信息的特征向量转换。例如词集模型(Set of Words,SoW)。上述特征向量构建单元354构建用于表征所述制度信息的第一特征向量例如可以包括:利用预先构建的词集模型将制度信息表示为独热向量(one-hot vector),以作为第一特征向量。同理地,上述构建第二特征向量的过程也可以为利用预先构建的词集模型将监管要求信息表示为独热向量,以作为第二特征向量。
图7示意性示出了根据本公开实施例的图3中的相似性判断及对标分析模块360的示例图。如图7所示,该相似性判断及对标分析模块360可以包括相似度计算单元361、匹配度确定单元362和对标分析单元363。
相似度计算单元361计算上述第一特征向量和第二特征向量之间的相似度。匹配度确定单元362根据特征向量的相似度计算监管要求信息和制度信息之间的匹配度。示例性地,上述基于第一特征向量和第二特征向量,确定监管要求信息和制度信息之间的匹配度包括如下至少一项:计算第一特征向量和第二特征向量之间的匹配系数(MatchingCofficient),并根据二者之间的匹配系数确定匹配度;计算第一特征向量和第二特征向量之间的余弦相似度(cosine),并根据二者之间的余弦相似度确定匹配度;计算第一特征向量和第二特征向量之间的明科夫斯基距离(Minkowski Distance),并根据二者之间的明科夫斯基距离确定匹配度。其中,明科夫斯基距离可以包括曼哈顿距离(ManhattanDistance)、欧式距离(Euclidean Distance)和切比雪夫距离(Chebyshev Distance)等。以上计算特征向量之间相似度的方法为表面文本相似度(Surface Text Similarity)计算方法,在其他实施例中,还可以利用语义相似度(Semantic Similarity)计算方法来确定制度信息与监管要求信息之间的匹配度,例如基于知识库(Knowledge-Based)的语义匹配、基于语料库(Corpus-Based)的语义匹配等,在此不做限制。
图8示意性示出了根据本公开实施例的制度信息处理装置的框图,可以应用于各种类型的计算机***。
如图8所示,制度信息处理装置800可以包括:第一获取模块810、构建模块820、第二获取模块830、匹配模块840和监管处理模块850。
第一获取模块810用于获取指定企业的制度信息。
构建模块820用于构建用于表征制度信息的第一特征向量。
第二获取模块830用于获取用于表征指定企业所在地区的监管要求信息的第二特征向量。
匹配模块840用于基于第一特征向量和第二特征向量,确定监管要求信息和制度信息之间的匹配度。
监管处理模块850用于当二者之间的匹配度低于预定阈值时,向指定企业的终端推送指示指定企业的制度制定不符合其所在地区的监管要求的提示信息。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,一获取模块810、构建模块820、第二获取模块830、匹配模块840和监管处理模块850中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,一获取模块810、构建模块820、第二获取模块830、匹配模块840和监管处理模块850中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,一获取模块810、构建模块820、第二获取模块830、匹配模块840和监管处理模块850中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机***的方框图。图9示出的计算机***仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,根据本公开实施例的计算机***900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有***900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,***900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。***900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的***中限定的上述功能。根据本公开的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (12)

1.一种制度信息处理方法,应用于计算机***,所述方法包括:
获取指定企业的制度信息;
构建用于表征所述制度信息的第一特征向量;
获取用于表征所述指定企业所在地区的监管要求信息的第二特征向量;
基于所述第一特征向量和所述第二特征向量,确定所述监管要求信息和所述制度信息之间的匹配度;以及
当所述匹配度低于预定阈值时,向所述指定企业的终端推送指示所述指定企业的制度制定不符合其所在地区的监管要求的提示信息。
2.根据权利要求1所述的方法,还包括:
在所述构建用于表征所述制度信息的第一特征向量之前,确定所述制度信息的语言是否为简体中文;以及
如果否,则将所述制度信息的语言转换为简体中文。
3.根据权利要求1所述的方法,其中,所述构建用于表征所述制度信息的第一特征向量包括:
利用预先构建的词频-逆文档频率模型对所述制度信息进行处理,以得到所述第一特征向量。
4.根据权利要求3所述的方法,其中,所述利用预先构建的词频-逆文档频率模型对所述制度信息进行处理,以得到所述第一特征向量包括:
将所述制度信息输入所述词频-逆文档频率模型,以由所述词频-逆文档频率模型执行如下操作:
对所述制度信息进行分词处理,以得到多个分词结果;
统计所述多个分词结果中的每个分词结果在所述制度信息中的词频;
基于所述每个分词结果的词频和预设语料库,确定所述每个分词结果的词频-逆文档频率特征;以及
基于所述多个分词结果各自的词频-逆文档频率特征,构建所述第一特征向量。
5.根据权利要求1所述的方法,其中,所述构建用于表征所述制度信息的第一特征向量包括:
利用预先构建的词集模型将所述制度信息表示为独热向量,以作为所述第一特征向量。
6.根据权利要求1所述的方法,其中,所述获取用于表征所述指定企业所在地区的监管要求信息的第二特征向量包括:
确定所述计算机***的预定存储区域是否存在所述监管要求信息的第二特征向量;
如果是,则从所述预定存储区域读取所述第二特征向量;
如果否,则利用网络爬虫从指定网页抓取所述监管要求信息,其中所述指定网页用于展示所述监管要求信息;以及
构建用于表征所述监管要求信息的第二特征向量,并将所述第二特征向量存储至所述预定存储区域。
7.根据权利要求6所述的方法,还包括:
监测所述指定网页;
当监测到所述指定网页的更新事件时,利用网络爬虫从所述指定网页抓取更新后的监管要求信息;以及
基于所述更新后的监管要求信息,构建用于表征所述监管要求信息的第二特征向量,并将所述第二特征向量存储至所述预定存储区域。
8.根据权利要求6或7所述的方法,其中,所述构建用于表征所述监管要求信息的第二特征向量包括:
利用预先构建的词频-逆文档频率模型对所述监管要求信息进行处理,以得到所述第二特征向量;或者
利用预先构建的词集模型将所述监管要求信息表示为独热向量,以作为所述第二特征向量。
9.根据权利要求1所述的方法,其中,所述基于所述第一特征向量和所述第二特征向量,确定所述监管要求信息和所述制度信息之间的匹配度包括如下至少一项:
计算所述第一特征向量和所述第二特征向量之间的匹配系数,并根据所述匹配系数确定所述匹配度;
计算所述第一特征向量和所述第二特征向量之间的余弦相似度,并根据所述余弦相似度确定所述匹配度;以及
计算所述第一特征向量和所述第二特征向量之间的明科夫斯基距离,并根据所述明科夫斯基距离确定所述匹配度。
10.一种制度信息处理装置,应用于计算机***,所述装置包括:
第一获取模块,用于获取指定企业的制度信息;
构建模块,用于构建用于表征所述制度信息的第一特征向量;
第二获取模块,用于获取用于表征所述指定企业所在地区的监管要求信息的第二特征向量;
匹配模块,用于基于所述第一特征向量和所述第二特征向量,确定所述监管要求信息和所述制度信息之间的匹配度;以及
监管处理模块,用于当所述匹配度低于预定阈值时,向所述指定企业的终端推送指示所述指定企业的制度制定不符合其所在地区的监管要求的提示信息。
11.一种计算机***,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时用于实现如权利要求1~9任一项所述的方法。
12.一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如权利要求1~9任一项所述的方法。
CN202010481834.4A 2020-05-29 2020-05-29 制度信息处理方法、装置、计算机***和介质 Pending CN111639161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010481834.4A CN111639161A (zh) 2020-05-29 2020-05-29 制度信息处理方法、装置、计算机***和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010481834.4A CN111639161A (zh) 2020-05-29 2020-05-29 制度信息处理方法、装置、计算机***和介质

Publications (1)

Publication Number Publication Date
CN111639161A true CN111639161A (zh) 2020-09-08

Family

ID=72332856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010481834.4A Pending CN111639161A (zh) 2020-05-29 2020-05-29 制度信息处理方法、装置、计算机***和介质

Country Status (1)

Country Link
CN (1) CN111639161A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308285A (zh) * 2020-09-16 2021-02-02 北京中兵数字科技集团有限公司 信息处理方法、装置、电子设备和计算机可读存储介质
CN116342153A (zh) * 2023-05-31 2023-06-27 北京拓普丰联信息科技股份有限公司 一种提示的方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064301A (zh) * 2018-07-12 2018-12-21 青岛微智慧信息有限公司 一种税收优惠政策推送方法及***
CN110413730A (zh) * 2019-06-27 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度检测方法、装置、计算机设备和存储介质
CN110471948A (zh) * 2019-07-10 2019-11-19 北京交通大学 一种基于历史数据挖掘的海关报关商品智能归类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064301A (zh) * 2018-07-12 2018-12-21 青岛微智慧信息有限公司 一种税收优惠政策推送方法及***
CN110413730A (zh) * 2019-06-27 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度检测方法、装置、计算机设备和存储介质
CN110471948A (zh) * 2019-07-10 2019-11-19 北京交通大学 一种基于历史数据挖掘的海关报关商品智能归类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308285A (zh) * 2020-09-16 2021-02-02 北京中兵数字科技集团有限公司 信息处理方法、装置、电子设备和计算机可读存储介质
CN116342153A (zh) * 2023-05-31 2023-06-27 北京拓普丰联信息科技股份有限公司 一种提示的方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
US11182564B2 (en) Text recommendation method and apparatus, and electronic device
US10878004B2 (en) Keyword extraction method, apparatus and server
US9990417B2 (en) Boolean-query composer
US10255272B2 (en) Adjustment of document relationship graphs
US10678823B2 (en) Facilitating targeted analysis via graph generation based on an influencing parameter
US9436760B1 (en) Measuring accuracy of semantic graphs with exogenous datasets
CN109388637B (zh) 数据仓库信息处理方法、装置、***、介质
CN102792298B (zh) 使用特征化匹配的规则来匹配元数据源
KR20200094627A (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
CN111639161A (zh) 制度信息处理方法、装置、计算机***和介质
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN111444368B (zh) 构建用户画像的方法、装置、计算机设备及存储介质
US10705810B2 (en) Automatic code generation
US10296585B2 (en) Assisted free form decision definition using rules vocabulary
CN113869904A (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
JP5020274B2 (ja) 意味ドリフトの発生評価方法及び装置
Leifeld et al. Package ‘btergm’
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
Haas Protocol to discover machine-readable entities of the ecosystem management actions taxonomy
CN117435644A (zh) 组件关联关系挖掘方法、装置、计算机设备及存储介质
Zhang et al. Research of Knowledge Mapping Construction Method Based on Scientific Research Results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200908