CN111143505A - 文档处理方法、装置、介质及电子设备 - Google Patents

文档处理方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN111143505A
CN111143505A CN201911192868.5A CN201911192868A CN111143505A CN 111143505 A CN111143505 A CN 111143505A CN 201911192868 A CN201911192868 A CN 201911192868A CN 111143505 A CN111143505 A CN 111143505A
Authority
CN
China
Prior art keywords
product
document
clause
content
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911192868.5A
Other languages
English (en)
Other versions
CN111143505B (zh
Inventor
赵丽
赵文鹏
李永峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Life Insurance Co ltd
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Life Insurance Co ltd
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Life Insurance Co ltd, Taikang Insurance Group Co Ltd filed Critical Taikang Life Insurance Co ltd
Priority to CN201911192868.5A priority Critical patent/CN111143505B/zh
Publication of CN111143505A publication Critical patent/CN111143505A/zh
Application granted granted Critical
Publication of CN111143505B publication Critical patent/CN111143505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了一种文档处理方法,包括:解析产品开发文档得到所述产品开发文档的内容,并基于所述产品开发文档的内容生成产品险种对应关系表;解析产品条款文档得到所述产品条款文档的内容,并基于所述产品条款文档的内容生成文本文档;从所述文本文档中提取字段信息,并基于所述字段信息生成产品条款信息表;以及对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到险种责任配置表,基于险种责任配置表,可以通过结构化查询语言对客户的保单信息数据进行查询、加工,并通过一定装置以可视化界面的形式展现给用户。例如当保险代理人为用户时,该可视化界面可以让代理人直观的看到客户保障缺失情况,提升让客户加保的成功率。

Description

文档处理方法、装置、介质及电子设备
技术领域
本发明涉及文档处理的技术领域,具体而言,涉及一种文档处理法、装置、介质及电子设备。
背景技术
众所周知,保险业区别于传统行业的主要原因为保险本身是一种服务,所谓的保险产品其实就是一纸合同,保险人需要对客户履行的服务承诺都记录在该合同中,售前我们称之为保险产品条款,售后则称为保险合同。对于客户来说,当客户手中存有多张复杂责任的保险合同时,很难轻易的理清自己目前所拥有的保障权利。同样对于保险人来说,也很难分辨出现有的客户群体中哪些客户的保障还不够全面,这样不利于对客户进行二次开发。例如,在新产品和核心***开发之初,由于产品条款本身的复杂性和业务优先于***的原则,往往在***中只会存储基本的产品信息,如险种代码、险种名称、险类等。若要梳理清楚各个产品责任并匹配核心***的险种代码,只能通过人工阅读条款和翻阅***开发时的产品管理文档。考虑到这种方式耗费人力物力较大,且存在较高的错误率。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种文档处理方法、装置、介质及电子设备。该方法可以通过解析产品开发文档和产品条款文档将两者的内容进行匹配,这样在提升工作效率的同时还可以一定程度上降低错误率,并且基于险种责任配置表可以通过结构化查询语言对客户的保单信息数据进行查询、加工,并通过一定装置以可视化界面的形式展现给用户。例如,当保险代理人为用户时,该可视化界面可以让代理人直观的看到客户保障缺失情况,提升让客户加保的成功率。再例如,当客户为用户时,该可视化界面可以让客户清楚的了解到目前所有的保障情况,提升客户对保险服务的体验。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种文档处理方法,包括:解析产品开发文档得到所述产品开发文档的内容,并基于所述产品开发文档的内容生成产品险种对应关系表;解析产品条款文档得到所述产品条款文档的内容,并基于所述产品条款文档的内容生成文本文档;从所述文本文档中提取字段信息,并基于所述字段信息生成产品条款信息表;以及对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到险种责任配置表。
在本发明的一些实施例中,解析所述产品开发文档得到所述产品开发文档的内容包括:通过VBA对产品开发文档进行读取、拆解、和/或赋值,得到所述产品开发文档的内容。
在本发明的一些实施例中,所述产品条款文档的格式为PDF,解析产品条款文档得到所述产品条款文档的内容包括:通过Python对PDF格式的产品条款文档解析,得到所述产品条款文档的内容。
在本发明的一些实施例中,从所述文本文档中提取字段信息包括:通过正则表达式规则对所述文本文档进行处理,以获取产品条款名称;根据所述产品条款名称从所述文本文档中提取字段信息。
在本发明的一些实施例中,根据所述产品条款名称从所述文本文档中提取字段信息包括:根据所述产品条款名称对所述文本文档中的产品条款所属险类进行分类;根据所述产品条款所属的险类确定所述产品条款所需提取的字段名称;根据所述产品条款所需提取的字段名称从所述文本文档中提取字段信息。
在本发明的一些实施例中,根据所述产品条款所需提取的字段名称从所述文本文档中提取字段信息包括:基于所述产品条款所需提取的字段名称使用正则表达式规则、doc2vec、和/或文本的位置信息从所述文本文档中提取字段信息。
在本发明的一些实施例中,对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到所述险种责任配置表包括:根据所述产品险种对应关系表中的险种与所述产品条款信息表中的险类的相似度,对所述产品险种对应关系表的内容和所述产品条款信息表的内容进行匹配合并,得到所述险种责任配置表。
根据本发明实施例的第二方面,提供了一种文档处理装置,包括:第一解析模块,用于解析产品开发文档得到所述产品开发文档的内容,并基于所述产品开发文档的内容生成产品险种对应关系表;第二解析模块,用于解析产品条款文档得到所述产品条款文档的内容,并基于所述产品条款文档的内容生成文本文档;提取模块,用于从所述文本文档中提取字段信息,并基于所述字段信息生成产品条款信息表;以及匹配合并模块,用于对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到险种责任配置表。
在本发明的一些实施例中,上述第一解析模块配置为:通过VBA对产品开发文档进行读取、拆解、和/或赋值,得到所述产品开发文档的内容。
在本发明的一些实施例中,所述产品条款文档的格式为PDF,上述第二解析模块配置为:通过Python对PDF格式的产品条款文档解析,得到所述产品条款文档的内容。
在本发明的一些实施例中,上述提取模块包括:获取模块,用于通过正则表达式规则对所述文本文档进行处理,以获取产品条款名称;第一提取模块,用于根据所述产品条款名称从所述文本文档中提取字段信息。
在本发明的一些实施例中,上述第一提取模块包括:分类模块,用于根据所述产品条款名称对所述文本文档中的产品条款所属险类进行分类;确定模块,用于根据所述产品条款所属的险类确定所述产品条款所需提取的字段名称;第一提取模块的子模块,用于根据所述产品条款所需提取的字段名称从所述文本文档中提取字段信息。
在本发明的一些实施例中,上述第一提取模块的子模块配置为:基于所述产品条款所需提取的字段名称使用正则表达式规则、doc2vec、和/或文本的位置信息从所述文本文档中提取字段信息。
在本发明的一些实施例中,上述匹配合并模块配置为:根据所述产品险种对应关系表中的险种与所述产品条款信息表中的险类的相似度,对所述产品险种对应关系表的内容和所述产品条款信息表的内容进行匹配合并,得到所述险种责任配置表。
根据本发明实施例的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的文档处理方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的文档处理方法。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明的一些实施例所提供的技术方案中,通过解析产品开发文档和产品条款文档将两者的内容进行匹配,这样在一定程度上降低了错误率,并且基于险种责任配置表可以通过结构化查询语言对客户的保单信息数据进行查询、加工,并通过一定装置以可视化界面的形式展现给用户。例如,当保险代理人为用户时,该可视化界面可以让代理人直观的看到客户保障缺失情况,提升让客户加保的成功率。再例如,当客户为用户时,该可视化界面可以让客户清楚的了解到目前所有的保障情况,提升客户对保险服务的体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本发明实施例的文档处理方法或文档处理装置的示例性***架构的示意图;
图2示意性示出了根据本发明的实施例的文档处理方法的流程图;
图3示意性示出了根据本发明的另一个实施例的文档处理方法的流程图;
图4示意性示出了根据本发明的另一个实施例的文档处理方法的流程图;
图5示意性示出了根据本发明的另一个实施例的文本位置信息的示意图;
图6示意性示出了根据本发明的实施例的文档处理装置的方框图;
图7示意性示出了根据本发明的另一个实施例的文档处理装置的方框图;
图8示意性示出了根据本发明的另一个实施例的文档处理装置的方框图;
图9示意性出了适于用来实现本发明实施例的电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本发明实施例的文档处理方法或文档处理装置的示例性***架构的示意图。
如图1所示,***架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传产品开发文档和产品条款文档,服务器105可以通过解析产品开发文档和产品条款文档将两者的内容进行匹配,这样在提升工作效率的同时还可以一定程度上降低了错误率,并且基于险种责任配置表可以通过结构化查询语言对客户的保单信息数据进行查询、加工,并通过一定装置以可视化界面的形式展现给用户。例如,当保险代理人为用户时,该可视化界面可以让代理人直观的看到客户保障缺失情况,提升让客户加保的成功率。再例如,当客户为用户时,该可视化界面可以让客户清楚的了解到目前所有的保障情况,提升客户对保险服务的体验。
在一些实施例中,本发明实施例所提供的文档处理方法一般由服务器105执行,相应地,文档处理装置一般设置于服务器105中。在另一些实施例中,某些终端可以具有与服务器相似的功能从而执行本方法。因此,本发明实施例所提供的文档处理方法不限定在服务器端执行。
图2示意性示出了根据本发明的实施例的文档处理方法的流程图。
如图2所示,文档处理方法可以包括步骤S110~步骤S140。
在步骤S110中,解析产品开发文档得到所述产品开发文档的内容,并基于所述产品开发文档的内容生成产品险种对应关系表。
在步骤S120中,解析产品条款文档得到所述产品条款文档的内容,并基于所述产品条款文档的内容生成文本文档。
在步骤S130中,从所述文本文档中提取字段信息,并基于所述字段信息生成产品条款信息表。
在步骤S140中,对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到险种责任配置表。
该方法可以通过解析产品开发文档和产品条款文档将两者的内容进行匹配,这样在提升工作效率的同时还可以一定程度上降低了错误率,并且基于险种责任配置表可以通过结构化查询语言对客户的保单信息数据进行查询、加工,并通过一定装置以可视化界面的形式展现给用户。例如,当保险代理人为用户时,该可视化界面可以让代理人直观的看到客户保障缺失情况,提升让客户加保的成功率。再例如,当客户为用户时,该可视化界面可以让客户清楚的了解到目前所有的保障情况,提升客户对保险服务的体验。
在本发明的一个实施例中,产品开发文档可以是保险产品的开发文档。一般地,产品开发文档为word文档,在该word文档中含有不同格式的数据。不同格式的数据可以是计算机语言中的代码、表格、图片、以及文本。在本实例中,通过步骤S110可以从word文档中提取出文本,即产品开发文档的内容。
在本发明的一个实施例中,上述产品开发文档的内容可以是产品开发文档中的文本信息。例如,险种代码、险种代码对应名称、保障期限类别。
在本发明的一个实施例中,解析产品开发文档得到所述产品开发文档的内容包括:通过VBA对产品开发文档进行读取、拆解、和/或赋值,得到所述产品开发文档的内容。其中,VBA是一种Visual Basic的一种宏语言,全称是Visual Basic for Applications。
在本发明的一个实施例中,产品险种对应关系表中可以包括险种代码、险种代码对应的产品名称、保障期限以及保险的类别。具体如表1所示:
表1
Figure BDA0002294013260000081
在本发明的一个实施例中,产品条款文档可以是保险产品的条款文档。一般地,保险产品的条款文档为PDF文档。在该保险产品的条款文档中包含了各种保险责任。例如,重大疾病医疗保险金、重大疾病住院津贴、身故保险金、高残保险金等等,但不限于此。
在本发明的一个实施例中,产品条款文档的内容可以是该产品条款文档中的文本信息,基于该文本信息可以生成文本文档。该文本信息可以是两个TXT格式的文本信息,一个TXT文本中保存了条款的所有文字信息,例如,A保险有限责任公司健康百分百D款重大疾病保险条款;另一个TXT文本中对文字信息进行了封装,并带有位置信息,例如,<LTTextBoxHorizontal(0)159.120,729.744,441.225,782.250,A保险有限责任公司健康百分百D款重大疾病保险条款>。其中,带有位置标识的TXT文本中,LTTextBoxHorizontal(0)表示这条文字信息是水平读取的第一条数据,159.120,729.744,441.225,782.250这四个数字代表了文字信息的两个坐标点,pdfminer中设置每个页面的坐标,坐标原点为每个页面的左下角,如图5所示。
在本发明的一个实施例中,解析产品条款文档得到产品条款文档的内容包括:通过Python对PDF格式的产品条款文档解析,得到产品条款文档的内容。例如,使用Python的pdfminer模块对PDF格式的产品条款文档进行解析。由于pdfminer是按页面格式进行解析,因此在解析的过程中不仅可以得到产品条款文档中的文本信息,还可以得到文本信息中文字的位置信息。
在本发明的一个实施例中,上述文本文档可以是可编辑的文本文档。从该文本文档中可以提取字段信息,并基于字段信息生成产品条款信息表。例如,将文本文档导入到文本挖掘模块,首先对产品条款所属险类进行匹配和标记,然后文本挖掘模块根据险类下所需字段的存在结构类型,自动选择信息提取方案并提取所需字段的值,形成条款信息表,包含:险种名称、险类名称、责任名称、等待期、免赔额、受益人、给付条件和保障额度计算因子,其中保障额度计算因子分为三个字段,分别是保障额度计算因子a、保障额度计算因子b、保障额度计算因子c,保障额度的计算公式为a*b-c,其中a通常为保障额度计算的基准,如保额、当期保费;b通常为a的倍数,如表达方式为2倍基本保额,则b=2;c通常为需要减去的总赔付额度范围内的值,如其他责任已赔付、生存金已领取等。在本实例中,产品条款信息表的内具体容如表2所示:
表2
Figure BDA0002294013260000091
在本发明的一个实施例中,对产品险种对应关系表和产品条款信息表进行匹配合并,得到险种责任配置表包括:根据产品险种对应关系表中的险种与产品条款信息表中的险类的相似度,对产品险种对应关系表的内容和产品条款信息表的内容进行匹配合并,得到险种责任配置表。例如,将上述产品险种对应关系表和产品条款信息表进行合并,是根据险种名称相似度进行匹配的。事实上,所述两个表中的险种名称并不是完全匹配的,比如在产品险种对应关系表中其为条款名称的缩写或者为险种名称的含义描述,如祥云如意C款重大疾病保险拆分轻症,而到了条款信息表中其为保险行业标准的条款名称即公司+修饰词+险类+人身险产品设计类型,如泰康祥云如意C款重大疾病保险,可以发现这两个字段的前几个字符是完全匹配的,通过对两个字段中的共现字符位置信息是否一致,可以完成险种名称的匹配,并合并两表内容。该险种责任配置表如表3所示:
表3
险种代码 责任代码 责任名称 a b c
0001 01 身故责任 已缴纳保费 1 0
0002 02 重大疾病 基本保额 1 0
图3示意性示出了根据本发明的另一个实施例的文档处理方法的流程图。
如图3所示,上述步骤S130具体可以包括步骤S210和步骤S220。
在步骤S210中,通过正则表达式规则对所述文本文档进行处理,以获取产品条款名称。
在步骤S220中,根据所述产品条款名称从所述文本文档中提取字段信息。
该方法可以通过正则表达式规则对文本文档进行处理,以获取产品条款名称,并根据产品条款名称从文本文档中提取字段信息,这样可以快速精准的从文本文档中提取字段信息。
在本发明的一个实施例中,正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。在本实例中,字符串可以指文本文档中的文本信息。“规则字符串”可以指正则表达式规则,利用“规则字符串”对文本文档进行处理可以获取产品条款名称。例如,通过正则表达式规则对文本内容进行匹配,以获取产品条款名称,如:‘康护一生两全保险条款’,接着通过判断险种类型字典的险类名称是否是产品条款名称中的子字符串,可以得到险类名称。
在本发明的一个实施例中,根据产品条款名称从文本文档中提取字段信息。该字段信息可以是险类名称、责任名称、等待期、免赔额、受益人、给付条件、计算因子等等。
图4示意性示出了根据本发明的另一个实施例的文档处理方法的流程图。
如图4所示,上述步骤S220可以包括步骤S310~步骤S330。
在步骤S310中,根据所述产品条款名称对所述文本文档中的产品条款所属险类进行分类。
在步骤S320中,根据所述产品条款所属的险类确定所述产品条款所需提取的字段名称。
在步骤S330中,根据所述产品条款所需提取的字段名称从所述文本文档中提取字段信息。
该方法可以根据产品条款名称对文本文档中的产品条款所属险类进行分类,并根据产品条款所属的险类确定产品条款所需提取的字段名称,从而实现了可以根据产品条款所需提取的字段名称从文本文档中提取字段信息,这样进一步地提高提取字段信息时的准确度。
在本发明的一个实施例中,基于产品条款名称可以从险种类型字典中确定出产品条款所属的险类。例如,通过判断险种类型字典的险类名称是否是产品条款名称中的子字符串,从而得到险类名称。
在本发明的一个实施例中,根据产品条款所需提取的字段名称从文本文档中提取字段信息包括:基于产品条款所需提取的字段名称使用正则表达式规则、doc2vec、和/或文本的位置信息从文本文档中提取字段信息。
在本发明的一个实施例中,险类所需提取字段的结构化程度并不一样。在字段提取时,可以采用多维度多层次混合信息提取模型,该模型可以基于产品条款所需提取的字段名称使用正则表达式规则、doc2vec、和/或文本的位置信息从文本文档中提取字段信息。所述多维度多层次混合信息提取模型中多维度多层次是指对字段定位的方式并不仅仅是根据单一信息,而是混合了多种方法,同时通过对文本信息的不同范围的多次定位,缩小字段值范围。混合性是指对不同字段设置了不同的提取函数,最终使得获取字段灵活而准确。
具体地,对于字段如‘等待期’,由于其信息结构相对单一,可以编写正则表达式规则从全文中提取字段值。
对于字段如‘责任名称’,正则表达式的模糊匹配得到信息并不准确。通过正则表达式定位‘保险责任’的title,缩小提取范围。因为责任在PDF文档中有相似的结构,而后根据PDF解析得到的文本位置信息,对所有责任名称进行定位,进而获取了所有责任名称。
对于字段如‘保障额度计算因子a’,需要从具体责任对应的给付逻辑文本中获取,如‘我们将按本合同的基本保险金额向疾病保险金受益人给付重大疾病保险金’,可以得到计算因子a为:基本保险金额。由于语言的灵活性,通过规则信息不能很好获取字段值。提取函数的具体过程为:根据责任名称和位置信息对给付逻辑段落文本进行定位,按照标点符号将其拆分为短文本。而后,对短文本进行自然语言处理,首先是分词,分词是基于Python的jieba模块,并使用了保险行业字典和自建字典数据,使得分词结果更加准确。利用gensim库中的doc2vec技术,可以将短文本向量化对所需目标短文本进行了标记和doc2vec模型训练,通过模型计算与目标短文本的相似度,可以获取字段值所在短文本。最后,对获取的短文本进行句法结构分析,字段值会有相同的词性和语义角色,结合正则表达式规则,可以对所需字段值进行准确提取。
图6示意性示出了根据本发明的实施例的文档处理装置的方框图。
如图6所示,上述文档处理装置600包括第一解析模块610、第二解析模块620、提取模块630和匹配合并模块640。
第一解析模块610,用于解析产品开发文档得到所述产品开发文档的内容,并基于所述产品开发文档的内容生成产品险种对应关系表。
第二解析模块620,用于解析产品条款文档得到所述产品条款文档的内容,并基于所述产品条款文档的内容生成文本文档。
提取模块630,用于从所述文本文档中提取字段信息,并基于所述字段信息生成产品条款信息表。
匹配合并模块640,用于对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到险种责任配置表。
该文档处理装置600可以通过解析产品开发文档和产品条款文档将两者的内容进行匹配,这样在提升工作效率的同时还可以一定程度上降低了错误率,并且基于险种责任配置表可以通过结构化查询语言对客户的保单信息数据进行查询、加工,并通过一定装置以可视化界面的形式展现给用户。例如,当保险代理人为用户时,该可视化界面可以让代理人直观的看到客户保障缺失情况,提升让客户加保的成功率。再例如,当客户为用户时,该可视化界面可以让客户清楚的了解到目前所有的保障情况,提升客户对保险服务的体验。
根据本发明的实施例,该文档处理装置600可以用于实现图2实施例描述的文档处理方法。
在本发明的一些实施例中,上述第一解析模块610配置为:通过VBA对产品开发文档进行读取、拆解、和/或赋值,得到所述产品开发文档的内容。
在本发明的一些实施例中,上述第二解析模块620配置为:通过Python对PDF格式的产品条款文档解析,得到所述产品条款文档的内容。
在本发明的一些实施例中,上述匹配合并模块配置640为:根据所述产品险种对应关系表中的险种与所述产品条款信息表中的险类的相似度,对所述产品险种对应关系表的内容和所述产品条款信息表的内容进行匹配合并,得到所述险种责任配置表。
图7示意性示出了根据本发明的另一个实施例的文档处理装置的方框图。
如图7所示。上述提取模块630具体可以包括获取模块710和第一提取模块720。
具体地,获取模块710,用于通过正则表达式规则对所述文本文档进行处理,以获取产品条款名称。
第一提取模块720,用于根据所述产品条款名称从所述文本文档中提取字段信息。
该提取模块630可以通过正则表达式规则对文本文档进行处理,以获取产品条款名称,并根据产品条款名称从文本文档中提取字段信息,这样可以快速精准的从文本文档中提取字段信息。
根据本发明的实施例,该提取模块630可以用于实现图3实施例描述的文档处理方法。
图8示意性示出了根据本发明的另一个实施例的文档处理装置的方框图。
如图8所示,上述第一提取模块720具体可以包括分类模块810、确定模块820和第一提取模块的子模块830。
具体地,分类模块810,用于根据所述产品条款名称对所述文本文档中的产品条款所属险类进行分类。
确定模块820,用于根据所述产品条款所属的险类确定所述产品条款所需提取的字段名称。
第一提取模块的子模块830,用于根据所述产品条款所需提取的字段名称从所述文本文档中提取字段信息。
该第一提取模块720可以根据产品条款名称对文本文档中的产品条款所属险类进行分类,并根据产品条款所属的险类确定产品条款所需提取的字段名称,从而实现了可以根据产品条款所需提取的字段名称从文本文档中提取字段信息,这样进一步地提高提取字段信息时的准确度。
根据本发明的实施例,该第一提取模块720可以用于实现图4实施例描述的文档处理方法。
本发明的一些实施例中,上述第一提取模块的子模块830配置为:基于所述产品条款所需提取的字段名称使用正则表达式规则、doc2vec、和/或文本的位置信息从所述文本文档中提取字段信息。
可以理解的是,第一解析模块610、第二解析模块620、提取模块630、匹配合并模块640、获取模块710、第一提取模块720、分类模块810、确定模块820、以及第一提取模块的子模块830可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,第一解析模块610、第二解析模块620、提取模块630、匹配合并模块640、获取模块710、第一提取模块720、分类模块810、确定模块820、以及第一提取模块的子模块830中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,第一解析模块610、第二解析模块620、提取模块630、匹配合并模块640、获取模块710、第一提取模块720、分类模块810、确定模块820、以及第一提取模块的子模块830中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
下面参考图9,其示出了适于用来实现本发明实施例的电子设备的计算机***900的结构示意图。图9示出的电子设备的计算机***900仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机***900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有***操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的文档处理方法。
例如,所述的电子设备可以实现如图2中所示的:在步骤S110中,解析产品开发文档得到所述产品开发文档的内容,并基于所述产品开发文档的内容生成产品险种对应关系表。在步骤S120中,解析产品条款文档得到所述产品条款文档的内容,并基于所述产品条款文档的内容生成文本文档。在步骤S130中,从所述文本文档中提取字段信息,并基于所述字段信息生成产品条款信息表。在步骤S140中,对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到险种责任配置表。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文档处理方法,其特征在于,包括:
解析产品开发文档得到所述产品开发文档的内容,并基于所述产品开发文档的内容生成产品险种对应关系表;
解析产品条款文档得到所述产品条款文档的内容,并基于所述产品条款文档的内容生成文本文档;
从所述文本文档中提取字段信息,并基于所述字段信息生成产品条款信息表;以及
对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到险种责任配置表。
2.根据权利要求1所述的方法,其特征在于,解析所述产品开发文档得到所述产品开发文档的内容包括:
通过VBA对产品开发文档进行读取、拆解、和/或赋值,得到所述产品开发文档的内容。
3.根据权利要求1所述的方法,其特征在于,所述产品条款文档的格式为PDF,解析产品条款文档得到所述产品条款文档的内容包括:
通过Python对PDF格式的产品条款文档解析,得到所述产品条款文档的内容。
4.根据权利要求1所述的方法,其特征在于,从所述文本文档中提取字段信息包括:
通过正则表达式规则对所述文本文档进行处理,以获取产品条款名称;
根据所述产品条款名称从所述文本文档中提取字段信息。
5.根据权利要求4所述的方法,其特征在于,根据所述产品条款名称从所述文本文档中提取字段信息包括:
根据所述产品条款名称对所述文本文档中的产品条款所属险类进行分类;
根据所述产品条款所属的险类确定所述产品条款所需提取的字段名称;
根据所述产品条款所需提取的字段名称从所述文本文档中提取字段信息。
6.根据权利要求5所述的方法,其特征在于,根据所述产品条款所需提取的字段名称从所述文本文档中提取字段信息包括:
基于所述产品条款所需提取的字段名称使用正则表达式规则、doc2vec、和/或文本的位置信息从所述文本文档中提取字段信息。
7.根据权利要求1所述的方法,其特征在于,对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到所述险种责任配置表包括:
根据所述产品险种对应关系表中的险种与所述产品条款信息表中的险类的相似度,对所述产品险种对应关系表的内容和所述产品条款信息表的内容进行匹配合并,得到所述险种责任配置表。
8.一种文档处理装置,其特征在于,包括:
第一解析模块,用于解析产品开发文档得到所述产品开发文档的内容,并基于所述产品开发文档的内容生成产品险种对应关系表;
第二解析模块,用于解析产品条款文档得到所述产品条款文档的内容,并基于所述产品条款文档的内容生成文本文档;
提取模块,用于从所述文本文档中提取字段信息,并基于所述字段信息生成产品条款信息表;以及
匹配合并模块,用于对所述产品险种对应关系表和所述产品条款信息表进行匹配合并,得到险种责任配置表。
9.一种电子设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现根据权利要求1~7中任意一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现根据权利要求1~7中任意一项所述的方法。
CN201911192868.5A 2019-11-28 2019-11-28 文档处理方法、装置、介质及电子设备 Active CN111143505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911192868.5A CN111143505B (zh) 2019-11-28 2019-11-28 文档处理方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911192868.5A CN111143505B (zh) 2019-11-28 2019-11-28 文档处理方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN111143505A true CN111143505A (zh) 2020-05-12
CN111143505B CN111143505B (zh) 2023-11-21

Family

ID=70517308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911192868.5A Active CN111143505B (zh) 2019-11-28 2019-11-28 文档处理方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN111143505B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270223A (zh) * 2020-10-14 2021-01-26 招商银行股份有限公司 保单检视方法、装置及计算机可读存储介质
CN112463931A (zh) * 2020-12-11 2021-03-09 中国人寿保险股份有限公司 一种保险产品条款的智能化解析方法及相关设备
CN113077353A (zh) * 2021-04-22 2021-07-06 北京十一贝科技有限公司 用于生成核保结论的方法、装置、电子设备和介质
CN114792272A (zh) * 2022-05-10 2022-07-26 北京华通互惠科技有限公司 保险产品处理装置、方法、电子设备及存储介质
CN117521613A (zh) * 2023-10-24 2024-02-06 中国人寿保险股份有限公司江苏省分公司 一种生成保险险种宣传方案的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016170469A (ja) * 2015-03-11 2016-09-23 ニッセイ情報テクノロジー株式会社 保険申込システム、保険申込方法およびプログラム
CN109035032A (zh) * 2018-06-11 2018-12-18 中国平安人寿保险股份有限公司 数据结构化处理方法、装置、计算机设备及存储介质
CN109344228A (zh) * 2018-07-11 2019-02-15 深圳立安保险经纪有限公司 保单数据处理方法、装置、计算机设备和存储介质
CN109902288A (zh) * 2019-01-17 2019-06-18 深圳壹账通智能科技有限公司 智能条款分析方法、装置、计算机设备及存储介质
CN110276054A (zh) * 2019-05-16 2019-09-24 湖南大学 一种保险文本结构化实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016170469A (ja) * 2015-03-11 2016-09-23 ニッセイ情報テクノロジー株式会社 保険申込システム、保険申込方法およびプログラム
CN109035032A (zh) * 2018-06-11 2018-12-18 中国平安人寿保险股份有限公司 数据结构化处理方法、装置、计算机设备及存储介质
CN109344228A (zh) * 2018-07-11 2019-02-15 深圳立安保险经纪有限公司 保单数据处理方法、装置、计算机设备和存储介质
CN109902288A (zh) * 2019-01-17 2019-06-18 深圳壹账通智能科技有限公司 智能条款分析方法、装置、计算机设备及存储介质
CN110276054A (zh) * 2019-05-16 2019-09-24 湖南大学 一种保险文本结构化实现方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270223A (zh) * 2020-10-14 2021-01-26 招商银行股份有限公司 保单检视方法、装置及计算机可读存储介质
CN112270223B (zh) * 2020-10-14 2024-05-31 招商银行股份有限公司 保单检视方法、装置及计算机可读存储介质
CN112463931A (zh) * 2020-12-11 2021-03-09 中国人寿保险股份有限公司 一种保险产品条款的智能化解析方法及相关设备
CN112463931B (zh) * 2020-12-11 2024-05-28 中国人寿保险股份有限公司 一种保险产品条款的智能化解析方法及相关设备
CN113077353A (zh) * 2021-04-22 2021-07-06 北京十一贝科技有限公司 用于生成核保结论的方法、装置、电子设备和介质
CN113077353B (zh) * 2021-04-22 2024-02-02 北京十一贝科技有限公司 用于生成核保结论的方法、装置、电子设备和介质
CN114792272A (zh) * 2022-05-10 2022-07-26 北京华通互惠科技有限公司 保险产品处理装置、方法、电子设备及存储介质
CN114792272B (zh) * 2022-05-10 2024-02-23 北京华通互惠科技有限公司 保险产品处理装置、方法、电子设备及存储介质
CN117521613A (zh) * 2023-10-24 2024-02-06 中国人寿保险股份有限公司江苏省分公司 一种生成保险险种宣传方案的方法

Also Published As

Publication number Publication date
CN111143505B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
US10282467B2 (en) Mining product aspects from opinion text
CA3048356A1 (en) Unstructured data parsing for structured information
CN113761334A (zh) 一种可视化推荐方法、装置、设备和存储介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
CN113268560A (zh) 用于文本匹配的方法和装置
CN114692628A (zh) 样本生成方法、模型训练方法、文本抽取方法和装置
CN113051380A (zh) 信息生成方法、装置、电子设备和存储介质
CN113379398A (zh) 一种项目需求的生成方法、装置、电子设备及存储介质
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN111753029A (zh) 实体关系抽取方法、装置
CN111625567A (zh) 数据模型匹配方法、装置、计算机***及可读存储介质
Khemani et al. A review on reddit news headlines with nltk tool
CN113806522A (zh) 摘要生成方法、装置、设备以及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
CN112711943A (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN114743012B (zh) 一种文本识别方法及装置
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN113239273B (zh) 用于生成文本的方法、装置、设备以及存储介质
CN111144122A (zh) 评价处理方法、装置和计算机***及介质
CN113761906B (zh) 解析文档的方法、装置、设备和计算机可读介质
CN114969371A (zh) 一种联合知识图谱的热度排序方法及装置
CN114880498A (zh) 事件信息展示方法及装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant