CN116757183A - 项目信息处理方法及装置 - Google Patents

项目信息处理方法及装置 Download PDF

Info

Publication number
CN116757183A
CN116757183A CN202310769811.7A CN202310769811A CN116757183A CN 116757183 A CN116757183 A CN 116757183A CN 202310769811 A CN202310769811 A CN 202310769811A CN 116757183 A CN116757183 A CN 116757183A
Authority
CN
China
Prior art keywords
service
project
item
information
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310769811.7A
Other languages
English (en)
Inventor
黄甜甜
应小诚
张曙林
江发昌
陈思业
黄文亢
石秋慧
罗衡
汤俊
王洪彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310769811.7A priority Critical patent/CN116757183A/zh
Publication of CN116757183A publication Critical patent/CN116757183A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了项目信息处理方法及装置,其中,一种项目信息处理方法包括:根据对项目文档进行解析获得的项目信息确定各项目标题的标题结构,根据确定的标题结构和各项目标题下的文本块生成结构化项目信息,在结构化项目信息中提取服务关键词,并确定服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于属性参数生成项目配置信息并进行项目配置处理。

Description

项目信息处理方法及装置
技术领域
本文件涉及数据处理技术领域,尤其涉及一种项目信息处理方法及装置。
背景技术
随着互联网技术的快速发展,越来越多的线上服务逐渐提高对项目文档的重视程度,从线上的各大网站获取项目文档,比如从权威网站下载项目文档、从第三方服务获取项目文档等;同时,随着越来越多的服务方对于项目文档的关注度提高,越来越多的项目文档的获取渠道逐渐产生,为各服务方获取项目文档增加便捷,针对于此,如何更好地对获取的项目文档进行管理和处理成为各方的研究热点。
发明内容
本说明书一个或多个实施例提供了一种项目信息处理方法,包括:对项目文档进行解析处理获得项目信息。根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息。在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词。确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
本说明书一个或多个实施例提供了一种项目信息处理装置,包括:解析处理模块,被配置为对项目文档进行解析处理获得项目信息。信息生成模块,被配置为根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息。关键词提取模块,被配置为在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词。属性参数确定模块,被配置为确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
本说明书一个或多个实施例提供了一种项目信息处理设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:对项目文档进行解析处理获得项目信息。根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息。在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词。确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:对项目文档进行解析处理获得项目信息。根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息。在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词。确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本说明书一个或多个实施例提供的一种项目信息处理方法实施环境的示意图;
图2为本说明书一个或多个实施例提供的一种项目信息处理方法处理流程图;
图3为本说明书一个或多个实施例提供的一种标题结构示意图;
图4为本说明书一个或多个实施例提供的一种位置标识示意图;
图5为本说明书一个或多个实施例提供的一种确定标准关键词的过程示意图;
图6为本说明书一个或多个实施例提供的一种第一服务数据和第二服务数据的示意图;
图7为本说明书一个或多个实施例提供的一种应用于保险项目场景的项目信息处理方法处理流程图;
图8为本说明书一个或多个实施例提供的一种项目信息处理装置实施例的示意图;
图9为本说明书一个或多个实施例提供的一种项目信息处理设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
参照图1,本说明书一个或多个实施例提供的项目信息处理方法实施环境的示意图。
本说明书一个或多个实施例提供的项目信息处理方法,可适用于项目信息处理这一实施环境,该实施环境至少包括项目信息处理平台的处理平台服务器101。此外,该实施环境还可包括项目配置的配置终端102,配置终端102可配置有客户端,该客户端的具体形式可以是应用程序、应用程序内的子程序(小程序)、应用程序内的服务模块或者网页程序。
其中,处理平台服务器101可以对应一台服务器,或者对应若干台服务器组成的服务器集群,或者对应云计算平台中的一个或者多个云服务器,用于进行项目信息处理。
配置终端102可以是手机、个人电脑、平板电脑、电子书阅读器、基于VR(VirtualReality,虚拟现实技术)进行信息交互的设备、车载终端、IoT设备、穿戴式智能设备、膝上型便携计算机和台式计算机等等,配置终端102可以安装有应用程序或者浏览器。
该实施环境中,处理平台服务器101在获取到项目文档后,首先对项目文档进行解析处理获得项目信息,然后借助项目信息确定各项目标题的标题结构,并根据确定的标题结构和各项目标题下的文本块生成结构化项目信息,在结构化项目信息中提取服务关键词,最后基于服务关键词对应的标准关键词的服务属性集合确定服务属性集合中各服务属性的属性参数,以在获得属性参数的基础上,在配置终端102基于属性参数生成的项目配置信息进行项目配置处理,以此,实现提取服务关键词以及服务属性的属性参数的自动化,提升提取的服务关键词以及服务属性的属性参数等的准确性和有效性,并且通过属性参数生成的项目配置信息进行项目配置处理,实现项目配置的灵活性和便捷性。
本说明书提供的一种项目信息处理方法的一个或多个实施例如下:
参照图2,本实施例提供的项目信息处理方法,具体包括步骤S202至步骤S208。
步骤S202,对项目文档进行解析处理获得项目信息。
本实施例中的项目包括保障项目,也可以包括保险项目;此外,本实施例中的项目可以是资产保障项目,也可以是健康保障项目。
所述项目文档包括保障项目文档,具体所述项目文档可以是保障项目的项目条款文档,比如保险条款文档;所述项目信息包括对项目文档进行解析处理获得的项目信息;所述项目信息中可包括各文本块和/或各文本块的位置信息,此处的位置信息包括位置坐标,比如bbox(bounding box,边界框)坐标,具***置坐标可以包括左上角坐标和/或右下角坐标;此外,所述项目信息中还可包括每个文字的位置信息,比如每个文字的bbox(boundingbox,边界框)坐标,即每个文字的左上角坐标和/或右下角坐标。
具体实施时,可以从各网站上爬取项目文档,此处的爬取是指爬虫抓取;由于获得的项目文档的文档格式不固定,并且内容复杂,无法直接使用,所以为了提升项目文档的利用率,可对项目文档进行解析处理获得项目信息;具体的,所述解析处理包括对项目文档进行内容识别获得各文本块和/或检测各文字的位置信息并根据各文字的位置信息确定各文本块的位置信息。
实际应用中,由于项目文档的类型格式不同,而每种解析工具对项目文档的类型格式要求不同,所以为了提升解析项目文档的灵活性和有效性;本实施例提供的一种可选实施方式中,在对项目文档进行解析处理获得项目信息的过程中,执行如下操作:
根据所述项目文档的类型格式确定解析方式;
基于所述解析方式对所述项目文档进行解析处理获得所述项目信息。
其中,所述类型格式包括项目文档的文档格式;所述类型格式可基于项目文档的后缀标识确定,此处的后缀标识可以是项目文档的文档命名后缀,比如项目文档的后缀标识可以是pdf、txt、docx;例如,项目文档的后缀标识为pdf,可确定项目文档的类型格式为pdf;再比如,项目文档的后缀标识为docx,可确定项目文档的类型格式为word。
具体的,若项目文档的类型格式为预设类型格式,确定项目文档的解析组件为第一解析组件,调用第一解析组件对项目文档进行解析处理获得项目信息;若项目文档的类型格式不为预设类型格式,确定项目文档的解析组件为第二解析组件,调用第二解析组件对项目文档进行解析处理获得项目信息。
其中,所述预设类型格式可以是pdf,第一解析组件可以是pyMuPDF;第二解析组件可以是OCR(Optical Character Recognition,光学字符识别)。
在实际的应用过程中,在对项目文档进行解析处理获得项目信息执行之后,项目信息中可能存在本来属于同一标题的文本块被划分为多个,针对于此,为了提升项目信息的条理性,可基于项目信息的文字排列参数分别对项目信息中多个标题文本块进行标题合并以及对多个正文文本块进行正文合并,并基于合并结果读取各项目标题下的文本块;本实施例提供的一种可选实施方式中,在对项目文档进行解析处理获得项目信息执行之后,还执行如下操作:
根据所述项目文档和所述项目信息的文字排列特征确定所述项目文档的文档类型;
若所述文档类型为项目适配类型,基于所述项目信息的文字排列参数,分别对所述项目信息中多个标题文本块进行标题合并以及对多个正文文本块进行正文合并;
基于合并结果读取所述各项目标题下的文本块。
其中,所述项目文档的文字排列特征,包括项目文档中文字排列的格式;所述项目信息的文字排列特征,包括项目信息中文字排列的格式。所述项目文档的文档类型包括项目文档真实的类型。所述项目适配类型包括适配项目的文档类型。所述文字排列参数包括项目信息的版面尺寸和/或默认标识,比如版面尺寸为项目信息的版面跨度,即项目信息中最左边的文字到最右边的文字之间的长度和/或项目信息中文字的高度,即从上到下的高度;默认标识为默认标点符号。所述文字排列参数中的版面跨度,基于所述项目信息中的文字位置信息确定,此处的文字位置信息可以是每个文字的位置坐标,比如左上角坐标和/或右下角坐标。
具体的,检测项目文档的文字排列特征与项目信息的文字排列特征是否一致;若是,确定项目文档的文档类型为项目适配类型,在项目信息中前一文本块的各文字高度一致或者各文字高度的高度差异处于预设差异阈值内,且前一文本块的目标位置未检测到默认标识的情况下,对前一文本块与所述前一文本块的下一文本块进行正文合并,获得各合并正文文本块;在项目信息中前一文本块的文字长度小于预设长度阈值的情况下,对该前一文本块与该前一文本块的下一文本块进行标题合并,获得各合并标题文本块;基于各合并标题文本块和各合并正文文本块读取各项目标题下的文本块;
若项目文档的文字排列特征与项目信息的文字排列特征不一致,确定项目文档的文档类型不为项目适配类型,直接从项目信息中读取各项目标题下的文本块。
步骤S204,根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息。
上述对项目文档进行解析处理获得项目信息,本步骤中,由于项目信息中可能存在很多噪音,比如项目信息中有些标题是有价值的,有些标题是没价值的,有些标题明显、有些标题不明显,针对于此,为了提升项目信息的有效性和可读性,可根据项目信息确定各项目标题的标题结构,并根据标题结构和各项目标题下的文本块生成结构化项目信息。
本实施例所述各项目标题,包括各项目层级标题,比如各项目标题可以包括一级项目标题、二级项目标题、三级项目标题等;所述各项目标题的标题结构,包括各项目标题的标题格式,比如一级项目标题的标题结构为“一级标题:第x部分”,二级项目标题的标题结构为“二级标题:第x条”;如图3所示的标题结构示意图,“一级标题:第一部分”,“二级标题:第一条”等都是标题结构,需要说明的是,图3中的标题结构仅仅是示意性的,实际场景中可存在一级标题、二级标题等等,一级标题、二级标题等等中可存在第一条、第二条等等。
所述各项目标题下的文本块,包括各项目标题下的正文文本块;所述结构化项目信息,包括结构化后的项目信息。
具体实施时,可根据项目信息确定各项目标题的标题结构,具体可通过遍历项目信息中各文本块的方式确定各项目标题的标题结构;然后根据标题结构和各项目标题下的文本块生成结构化项目信息,具体可以根据标题结构和各项目标题下的文本块进行结构化处理获得结构化项目信息,也可以根据标题结构和各项目标题下的文本块进行组装处理获得结构化项目信息。
实际应用中,项目信息中可能存在附录、脚注等,比如脚注在正文中穿插,导致正文的可读性降低,针对于此,为了进一步提升项目信息的可读性,为了提升项目信息的结构化和标准化;本实施例提供的一种可选实施方式中,在根据所述项目信息确定各项目标题的标题结构的过程中,执行如下操作:
根据所述项目信息中各文本块的位置信息,识别所述项目信息中的附加文本块并从所述项目信息中提取所述附加文本块;
确定所述附加文本块对应的项目标题的标题结构以及剩余项目标题的标题结构。
其中,所述附加文本块,可以是脚注、附录、目录等。所述剩余项目标题是指项目信息中除附加文本块对应的项目标题之外的其他项目标题。
具体的,根据项目信息中各文本块的位置坐标(比如各文本块的左上角坐标和右下角坐标),识别项目信息中的附加文本块并从项目信息中提取附加文本块,并基于项目信息确定剩余项目标题的标题结构,并确定附加文本块对应的项目标题的标题层级,基于标题层级确定附加文本块对应的项目标题的标题结构。
此外,在确定附加文本块对应的项目标题的标题结构以及剩余项目标题的标题结构的过程中,也可对所述附加文本块进行组合处理,并确定剩余项目标题的标题结构以及组合处理获得的文本块组合对应的项目标题的标题结构;例如,附加文本块包括多个脚注文本块,则对多个脚注文本块进行组合处理,并确定剩余项目标题的标题结构和组合处理获得的脚注文本块组合对应的项目标题的标题结构。
进一步,在上述确定附加文本块对应的项目标题的标题结构以及剩余项目标题的标题结构的基础上;本实施例提供的一种可选实施方式中,在根据各项目标题的标题结构和各项目标题下的文本块生成结构化项目信息的过程中,执行如下操作:
根据所述附加文本块与所述附加文本块对应的项目标题的标题结构以及剩余项目标题的标题结构与剩余项目标题下的文本块,生成所述结构化项目信息。
例如,根据项目信息中各文本块的位置信息,识别项目信息中的脚注并从项目信息中提取识别获得的脚注,基于项目信息确定各层级标题的标题结构,然后确定脚注的标题层级为一级,基于一级的标题层级确定脚注对应的项目标题的标题结构为一级项目标题的标题结构。
此外,在根据所述项目信息确定各项目标题的标题结构的过程中,也可根据所述项目信息中各文本块的位置信息,识别所述项目信息中的附加文本块并从所述项目信息中剔除所述附加文本块中的目标附加文本块,基于剔除后的项目信息确定各项目标题的标题结构;其中,所述目标附加文本块可以是所述附加文本块,也可以是所述附加文本块中的一部分。
步骤S206,在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词。
上述步骤中根据项目信息确定各项目标题的标题结构,并根据各项目标题的标题结构和各项目标题下的文本块生成结构化项目信息,本步骤中,为了提升项目信息处理的针对性,可在结构化项目信息中提取项目关键词下的目标文本块,并在目标文本块中提取服务关键词,以此避免直接从结构化项目信息中提取服务关键词增加提取难度。
本实施例所述项目关键词,包括与项目有关的关键词;实际应用中,结构化项目信息中可存在多个项目关键词,比如结构化项目信息中存在保险金额、保险责任、责任免除等多个项目关键词;本实施例可在多个项目关键词中确定所述项目关键词,比如所述项目关键词包括从结构化项目信息的多个项目关键词中提取获得的保险责任。所述服务关键词,是指项目所提供的相关服务的关键词;所述服务关键词包括保障关键词,比如服务关键词包括从保险责任下的目标文本块中提取获得的a保险金、b保险金、c保险金等。所述目标文本块是指项目关键词下的所有文本块,如图4所示,0、1、2、3、4、5、6都是文本块,目标文本块包括1、2、3、4、5、6文本块。
具体实施时,可在结构化项目信息中定位所述项目关键词,并从结构化项目信息中提取所述项目关键词下的目标文本块,并从目标文本块中提取所述服务关键词;具体的,为了提升关键词提取的效率,可引入关键词提取模型,将所述目标文本块输入所述关键词提取模型进行关键词提取以及关键词的位置信息计算,获得所述服务关键词和/或所述服务关键词所属的文本块在所述目标文本块下的位置信息;
在实际的应用场景中,所述关键词提取模型可采用RoBertA+Biaffine模型;所述关键词提取模型可提前训练获得,在训练过程中,可选用爬虫语料进行预训练模型的训练,从而获得所述关键词提取模型。
在具体的执行过程中,在目标文本块中提取服务关键词后,每个项目所属的机构不同,从每个结构化项目信息中提取的服务关键词的表征方式可能不同,比如意思相同的服务关键词,可能描述不同,所以为了对服务关键词进行统一,提升服务关键词的有效性且便于后续进行服务属性的属性参数的提取;本实施例提供的一种可选实施方式中,在所述结构化项目信息中提取项目关键词下的目标文本块,并在目标文本块中提取所述服务关键词执行之后,还执行如下操作:
确定所述服务关键词所属的文本块在所述目标文本块下的位置标识;
基于所述位置标识和所述服务关键词,在标准关键词集合中筛选所述服务关键词对应的所述标准关键词。
其中,所述服务关键词所属的文本块在目标文本块下的位置标识,包括服务关键词所属的文本块在目标文本块下的位置编号,比如服务关键词所属的文本块在所述目标文本块下的位置编号为m,代表服务关键词所属的文本块在目标文本块下属于第m个文本块;如图4所示的位置标识示意图中的2代表服务关键词“a保险金”所属的文本块在目标文本块下的位置标识,5代表服务关键词“b保险金”所属的文本块在目标文本块下的位置标识,图中的0、1、3、4、6都是各文本块在目标文本块下的位置标识。所述标准关键词集合是指由一个或者多个标准关键词组成的集合;所述标准关键词集合中的各标准关键词是指提前获得的各标准化关键词。
本实施例提供的一种可选实施方式中,在上述基于所述位置标识和所述服务关键词,在标准关键词集合中筛选服务关键词对应的标准关键词的过程中,执行如下操作:
根据前一服务关键词与下一服务关键词所属的文本块在所述目标文本块下的位置标识,构建位置组合标签;
通过拼接标识将所述前一服务关键词和所述位置组合标签进行拼接,并将拼接结果和候选标准关键词输入编码器进行标准关键词筛选,获得所述前一服务关键词对应的标准关键词;
可选的,所述候选标准关键词,基于所述前一服务关键词在所述标准关键词集合中筛选获得。
其中,所述下一服务关键词,是指所述前一服务关键词的下一服务关键词;所述位置标签,包括对前一服务关键词的位置标识和下一服务关键词的位置标识进行组合获得的位置组合标签。所述拼接标识包括分隔标识,比如分隔符[SEP];所述前一服务关键词的位置标识,可以采用数字、字母、颜色等形式表示。
具体的,将前一服务关键词所属的文本块在目标文本块下的位置标识与下一服务关键词所属的文本块在目标文本块下的位置标识进行组合处理,获得位置组合标签;通过拼接标识将前一服务关键词与位置组合标签进行拼接,获得拼接标签,将拼接标签和候选标准关键词输入编码器进行标准关键词筛选,获得前一服务关键词对应的标准关键词;需要说明的是,编码器基于拼接标签中的位置组合标签读取对应的服务关联信息,基于前一服务关键词和/或所述服务关联信息从候选标准关键词中筛选出前一服务关键词对应的标准关键词。
例如,图5所示的确定标准关键词的过程示意图,前一服务关键词为“a保险金”,前一服务关键词所属的文本块在目标文本块下的位置编号为2,下一服务关键词所属的文本块在目标文本块下的位置编号为5,位置组合标签为“[2:5]”,通过拼接标识[SEP]将前一服务关键词“a保险金”与位置组合标签[2:5]进行拼接,获得拼接标签,将拼接标签“a保险金[SEP][2:5]”和候选标准关键词“A1保险金、A2保险金、A3保险金”输入编码器Encoder进行标准关键词筛选,获得前一服务关键词“a保险金”对应的标准关键词A1保险金。
本实施例提供的另一种可选实施方式中,在上述基于服务关键词所属的文本块在所述目标文本块下的位置标识和所述服务关键词,在标准关键词集合中筛选服务关键词对应的标准关键词的过程中,执行如下操作:
基于所述位置标识在所述服务关键词下的服务文本块中提取所述服务关键词的服务关联信息;
根据所述服务关键词和所述服务关联信息,在标准关键词集合中筛选所述服务关键词对应的所述标准关键词。
其中,所述服务关联信息,包括所述服务关键词下的服务文本块中的全部信息或者部分信息。
在上述根据所述服务关键词和所述服务关联信息,在标准关键词集合中筛选所述服务关键词对应的所述标准关键词的过程中,本实施例提供的一种可选实施方式中,执行如下操作:
根据所述服务关键词与所述标准关键词集合中各标准关键词的相似度,确定相似度排序位次处于预设位次区间内的候选标准关键词;
基于所述服务关键词和所述服务关联信息,在所述候选标准关键词中筛选出所述标准关键词。
具体的,计算服务关键词与标准关键词集合中各标准关键词的相似度,基于计算获得的相似度对各标准关键词进行排序,并在排序结果中筛选相似度排序位次处于预设位次区间内的候选标准关键词,并基于服务关键词和服务关联信息,在候选标准关键词中筛选出所述服务关键词对应的标准关键词。
需要说明的是,在获得候选标准关键词的过程中,也可采用BM25(Best Matching25,匹配)算法,来提升候选标准关键词的精确度和有效性。
步骤S208,确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
上述在结构化项目信息中提取项目关键词下的目标文本块,并在目标文本块中提取服务关键词,本步骤中,确定服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以此,基于所述属性参数生成项目配置信息并进行项目配置处理。
本实施例所述标准关键词的服务属性集合,是指由一个或多个服务属性组成的集合;比如,标准关键词为xx身故保险金,服务属性集合中包含的服务属性包括限定疾病、限定药品、等待期、犹豫期、赔付比例等;所述属性参数,包括各服务属性的属性取值,比如服务属性为“限定疾病”,“限定疾病”的属性参数为:是;所述项目配置信息,是指项目的相关配置信息。
实际应用中,服务属性集合中各服务属性中可包含默认服务属性,针对于此,为了提升各服务属性的属性参数的有效性,可从服务关键词的第一服务数据和/或第二服务数据中提取各服务属性中默认服务属性的属性参数;本实施例提供的第一种可选实施方式中,在确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数的过程中,执行如下操作:
将所述服务关键词在所述目标文本块下的位置标识转换至在所述结构化项目信息下的位置标识;
基于所述结构化项目信息下的位置标识,确定所述服务关键词的第一服务数据和第二服务数据,并在所述第一服务数据和所述第二服务数据中提取所述各服务属性中默认服务属性的属性参数。
其中,所述服务关键词在所述目标文本块下的位置标识,包括所述服务关键词所属的文本块在目标文本块下的位置标识;所述结构化项目信息下的位置标识,包括所述服务关键词所属的文本块在结构化项目信息下的位置编号。所述第一服务数据,包括所述服务关键词下的文本块数据;所述第二服务数据,包括所述结构化项目信息中除所述服务关键词下的文本块数据之外的剩余文本块数据,此外,所述第二服务数据,还可以是所述项目关键词下的目标文本块中除所述服务关键词下的文本块数据之外的剩余文本块数据。如图6所示,“xxxxxxx1”为第二服务数据,服务关键词1“a保险金”的第一服务数据为“xxxxxxx2”,服务关键词2“b保险金”的第一服务数据为“xxxxxxx3”。所述默认服务属性,是指预设的服务属性,比如等待期、犹豫期等。
具体的,将各服务关键词在对应的目标文本块下的位置编号转换至在结构化项目信息下的位置编号,基于转换后的位置编号,确定各服务关键词下的文本块数据和所述结构化项目信息中除各服务关键词下的文本块数据之外的剩余文本块数据,并在各服务关键词下的文本块数据和剩余文本块数据中提取所述默认服务属性的属性参数。
此外,在确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数的过程中,也可将所述服务关键词在所述目标文本块下的位置标识转换至在所述结构化项目信息下的位置标识;基于所述结构化项目信息下的位置标识,确定所述服务关键词的第一服务数据或者第二服务数据,并在所述第一服务数据或者所述第二服务数据中提取所述各服务属性中默认服务属性的属性参数。
在实际的应用过程中,所述服务关键词对应的标准关键词的服务属性集合中各服务属性中也可包括关键服务属性;本实施例提供的第二种可选实施方式中,在确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数的过程中,执行如下操作:
根据所述标准关键词确定所述各服务属性中关键服务属性的属性参数。
其中,所述关键服务属性,包括各服务属性中关键的服务属性,比如服务属性为限定疾病、限定药品、限定事故场景等。
具体的,根据所述关键服务属性在所述标准关键词中提取属性信息,将所述属性信息作为所述关键服务属性的属性参数或者将所述属性信息与属性参数匹配表中各属性参数进行匹配,获得所述属性信息匹配的属性参数。
例如,标准关键词为“特定疾病住院医疗保险金”,标准关键词的服务属性集合中各服务属性中的关键服务属性包括限定疾病和就诊类型,则关键服务属性“限定疾病”的属性参数为是,关键服务属性“就诊类型”的属性参数为住院。
需要补充的是,在确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数的过程中,也可执行如下操作:
根据所述标准关键词确定所述各服务属性中关键服务属性的属性参数;以及,
将所述服务关键词在所述目标文本块下的位置标识转换至在所述结构化项目信息下的位置标识;基于所述结构化项目信息下的位置标识,确定所述服务关键词的第一服务数据和第二服务数据,并在所述第一服务数据和所述第二服务数据中提取所述各服务属性中默认服务属性的属性参数。
实际应用中,结构化项目信息中可存在较多的专业术语,存在很强的领域约束,比如保障项目的结构化项目信息中存在“赔付比例”、“等待期”等专业术语,针对于此,为了提升对专业术语的处理能力,避免由于对专业术语的感知失败导致属性参数的提取失败;本实施例提供的第三种可选实施方式中,在确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数的过程中,执行如下操作:
检测所述服务关键词的第一服务数据和第二服务数据中的服务字段;
在字段特征数据库中查找与所述服务字段匹配的标准特征向量,并基于所述标准特征向量和所述服务字段的特征向量,在所述第一服务数据和所述第二服务数据中提取所述属性参数。
其中,所述服务字段,包括与项目相关的服务字段,比如与保障项目相关的专业术语“等待期”;所述标准特征向量包括标准embedding;所述字段特征数据库中可包含各服务字段与对应的标准特征向量;所述服务字段的特征向量,包括所述服务字段的embedding。
本实施例提供的一种可选实施方式中,在上述基于所述标准特征向量和所述服务字段的特征向量,在所述第一服务数据和所述第二服务数据中提取所述属性参数的过程中,执行如下操作:
将所述标准特征向量与所述特征向量进行向量融合,并对融合获得的融合特征向量进行向量变换获得目标特征向量;
基于所述目标特征向量,在所述第一服务数据和所述第二服务数据中提取所述属性参数。
具体的,对所述标准特征向量和所述服务字段的特征向量进行加和处理,获得所述融合特征向量,将所述融合特征向量输入全连接层进行向量变换,获得所述目标特征向量,基于所述目标特征向量在所述第一服务数据和所述第二服务数据中进行命名实体识别,获得所述属性参数。
此外,在上述基于所述标准特征向量和所述服务字段的特征向量,在所述第一服务数据和所述第二服务数据中提取所述属性参数的过程中,也可将所述标准特征向量与所述特征向量进行向量融合,并对融合获得的融合特征向量进行向量变换获得目标特征向量,对所述目标特征向量和所述服务关键词的服务关联信息的特征向量进行拼接,获得拼接特征向量,基于所述拼接特征向量在所述第一服务数据和所述第二服务数据中提取所述属性参数。
实际应用中,一种情况下,可基于各服务属性的属性参数进行项目配置,并根据项目配置获得的项目配置信息进行项目发布;本实施例提供的一种可选实施方式中,在基于所述属性参数生成项目配置信息并进行项目配置处理的过程中,执行如下操作:
基于所述属性参数生成可视化页面,并基于配置人员通过所述可视化页面提交的配置数据进行项目配置;
根据项目配置结果进行项目发布。
此外,另一种情况下,可基于多个项目的属性参数对目标项目进行推荐标记,并基于推荐标记结果向用户进行项目推荐;本实施例提供的另一种可选实施方式中,在基于所述属性参数生成项目配置信息并进行项目配置处理的过程中,执行如下操作:
基于多个项目的属性参数确定所述多个项目中的目标项目,并对所述目标项目进行推荐标记;
基于推荐标记结果对所述目标项目进行配置更新,并根据配置更新后的目标项目向用户进行项目推荐。
在实际的应用过程中,在确定各服务属性的属性参数之后,可能存在部分服务属性的属性参数确定失败的情况,针对于此,为了提升各服务属性的属性参数的全面性和完整性,进一步完善各服务属性的属性参数,可根据各服务属性中与目标服务属性存在约束关系的服务属性的属性参数确定所述目标服务属性的属性参数;本实施例提供的一种可选实施方式中,在确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数执行之后,还执行如下操作:
若所述各服务属性中目标服务属性的属性参数为空,检测所述各服务属性中与所述目标服务属性存在约束关系的服务属性;
基于所述服务属性的属性参数确定所述目标服务属性的属性参数;
可选的,所述约束关系包括所述服务属性为主属性且所述目标服务属性为子属性。
需要说明的是,由于默认服务属性之间、关键服务属性与默认服务属性之间均可能存在约束关系,所以在服务属性为默认服务属性的情况下,目标服务属性也可为默认服务属性,在服务属性为关键服务属性的情况下,目标服务属性可为默认服务属性。
需要补充的是,在确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数的过程中,也可引入属性参数模型进行属性参数确定,属性参数模型可提前训练获得;实际应用中,由于有的结构化项目信息中属性相关内容描述清楚,而有的结构化项目信息中属性相关内容缺失,所以在训练属性参数模型的过程中,可对样本数据进行数据增强;所述数据增强包括:将所述样本数据中的属性要素的要素值替换为目标要素值,获得训练数据并将训练数据和所述样本数据作为属性参数模型的训练样本;比如样本数据中包含“等待期a天”,将样本数据中“等待期a天”替换为“等待期b天”、“等待期c天”等,获得训练数据。所述数据增强也可包括对所述样本数据进行内容调换处理,比如将样本数据中的第一语句与第二语句进行顺序调换,获得训练样本。所述数据增强还可包括检测样本数据中的第一属性要素是否存在要素值,若存在,不作处理即可;若不存在,将第二属性要素的要素值作为第一属性要素的要素值,获得训练样本。
还需要补充的是,步骤S202至步骤S204可被替换为:对保障项目的项目文档进行解析处理获得保障项目信息;根据所述保障项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息;并与本实施例提供的其他处理步骤组成新的实现方式。
综上所述,本实施例提供的项目信息处理方法,根据项目文档的类型格式确定解析方式,基于解析方式对项目文档进行解析处理获得项目信息;根据项目信息确定各项目标题的标题结构,并根据标题结构和各项目标题下的文本块生成结构化项目信息;根据标准关键词确定各服务属性中关键服务属性的属性参数,以及在结构化项目信息中提取项目关键词下的目标文本块并在目标文本块中提取服务关键词,将服务关键词在目标文本块下的位置标识转换至在结构化项目信息下的位置标识,基于结构化项目信息下的位置标识,确定服务关键词的第一服务数据和第二服务数据,并在第一服务数据和第二服务数据中提取各服务属性中默认服务属性的属性参数,以基于属性参数生成项目配置信息并进行项目配置处理,以此,实现提取服务关键词以及服务属性的属性参数的自动化,提升提取的服务关键词以及服务属性的属性参数等的准确性和有效性,并且通过属性参数生成的项目配置信息进行项目配置处理,实现项目配置的灵活性和便捷性。
下述以本实施例提供的一种项目信息处理方法在保险服务场景的应用为例,对本实施例提供的项目信息处理方法进行进一步说明,参见图7,应用于保险服务场景的项目信息处理方法,具体包括如下步骤。
步骤S702,根据保险项目的项目文档的类型格式确定解析方式。
步骤S704,基于解析方式对项目文档进行解析处理获得保险项目信息。
步骤S706,根据保险项目信息中各文本块的位置信息,识别保险项目信息中的附加文本块并从保险项目信息中提取附加文本块。
步骤S708,确定附加文本块对应的项目标题的标题结构以及剩余项目标题的标题结构。
步骤S710,根据附加文本块与附加文本块对应的项目标题的标题结构,以及剩余项目标题的标题结构与剩余项目标题下的文本块,生成结构化项目信息。
步骤S712,在结构化项目信息中提取项目关键词下的目标文本块,并在目标文本块中提取服务关键词。
步骤S714,根据服务关键词对应的标准关键词,确定标准关键词的服务属性集合中关键服务属性的属性参数。
步骤S716,将标准关键词的服务属性集合中默认服务属性对应的服务关键词在目标文本块下的位置标识转换至在结构化项目信息下的位置标识。
步骤S718,基于结构化项目信息下的位置标识,确定默认服务属性对应的服务关键词的第一服务数据和第二服务数据,并在第一服务数据和所述第二服务数据中提取默认服务属性的属性参数,以基于关键服务属性的属性参数和默认服务属性的属性参数生成项目配置信息并进行项目配置处理。
需要补充的是,上述步骤S714可被替换为将服务关键词在目标文本块下的位置标识转换至在结构化项目信息下的位置标识,基于结构化项目信息下的位置标识,确定服务关键词的第一服务数据和第二服务数据,并在第一服务数据和第二服务数据中提取服务属性集合中默认服务属性的属性参数;相应的,步骤S716至步骤S718可被替换为根据服务属性集合中关键服务属性对应的服务关键词对应的标准关键词确定关键服务属性的属性参数,以基于关键服务属性的属性参数和默认服务属性的属性参数生成项目配置信息并进行项目配置处理。
本说明书提供的一种项目信息处理装置实施例如下:
在上述的实施例中,提供了一种项目信息处理方法,与之相对应的,还提供了一种项目信息处理装置,下面结合附图进行说明。
参照图8,其示出了本实施例提供的一种项目信息处理装置实施例的示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供一种项目信息处理装置,包括:
解析处理模块802,被配置为对项目文档进行解析处理获得项目信息;
信息生成模块804,被配置为根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息;
关键词提取模块806,被配置为在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词;
属性参数确定模块808,被配置为确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
本说明书提供的一种项目信息处理设备实施例如下:
对应上述描述的一种项目信息处理方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种项目信息处理设备,该项目信息处理设备用于执行上述提供的一种项目信息处理方法,图9为本说明书一个或多个实施例提供的一种项目信息处理设备的结构示意图。
本实施例提供的一种项目信息处理设备,包括:
如图9所示,项目信息处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括项目信息处理设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在项目信息处理设备上执行存储器902中的一系列计算机可执行指令。项目信息处理设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入/输出接口905,一个或一个以上键盘906等。
在一个具体的实施例中,项目信息处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对项目信息处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
对项目文档进行解析处理获得项目信息;
根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息;
在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词;
确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
本说明书提供的一种存储介质实施例如下:
对应上述描述的一种项目信息处理方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种存储介质。
本实施例提供的存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
对项目文档进行解析处理获得项目信息;
根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息;
在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词;
确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
需要说明的是,本说明书中关于一种存储介质的实施例与本说明书中关于一种项目信息处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应方法的实施,重复之处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或者相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处,比如装置实施例、设备实施例和存储介质实施例,三者均相似于方法实施例,所以描述地比较简单,阅读装置实施例、设备实施例和存储介质实施例中的相关内容请参照方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪30年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。

Claims (19)

1.一种项目信息处理方法,包括:
对项目文档进行解析处理获得项目信息;
根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息;
在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词;
确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
2.根据权利要求1所述的项目信息处理方法,所述对项目文档进行解析处理获得项目信息,包括:
根据所述项目文档的类型格式确定解析方式;
基于所述解析方式对所述项目文档进行解析处理获得所述项目信息。
3.根据权利要求1所述的项目信息处理方法,所述对项目文档进行解析处理获得项目信息步骤执行之后,且所述根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息步骤执行之前,还包括:
根据所述项目文档和所述项目信息的文字排列特征确定所述项目文档的文档类型;
若所述文档类型为项目适配类型,基于所述项目信息的文字排列参数,分别对所述项目信息中多个标题文本块进行标题合并以及对多个正文文本块进行正文合并;
基于合并结果读取所述各项目标题下的文本块。
4.根据权利要求1所述的项目信息处理方法,所述根据所述项目信息确定各项目标题的标题结构,包括:
根据所述项目信息中各文本块的位置信息,识别所述项目信息中的附加文本块并从所述项目信息中提取所述附加文本块;
确定所述附加文本块对应的项目标题的标题结构以及剩余项目标题的标题结构。
5.根据权利要求4所述的项目信息处理方法,所述根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息,包括:
根据所述附加文本块与所述附加文本块对应的项目标题的标题结构以及剩余项目标题的标题结构与剩余项目标题下的文本块,生成所述结构化项目信息。
6.根据权利要求1所述的项目信息处理方法,所述在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词步骤执行之后,且所述确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理步骤执行之前,还包括:
确定所述服务关键词所属的文本块在所述目标文本块下的位置标识;
基于所述位置标识和所述服务关键词,在标准关键词集合中筛选所述服务关键词对应的所述标准关键词。
7.根据权利要求6所述的项目信息处理方法,所述基于所述位置标识和所述服务关键词,在标准关键词集合中筛选所述服务关键词对应的所述标准关键词,包括:
根据前一服务关键词与下一服务关键词所属的文本块在所述目标文本块下的位置标识,构建位置组合标签;
通过拼接标识将所述前一服务关键词和所述位置组合标签进行拼接,并将拼接结果和候选标准关键词输入编码器进行标准关键词筛选,获得所述前一服务关键词对应的标准关键词;
其中,所述候选标准关键词,基于所述前一服务关键词在所述标准关键词集合中筛选获得。
8.根据权利要求6所述的项目信息处理方法,所述基于所述位置标识和所述服务关键词,在标准关键词集合中筛选所述服务关键词对应的所述标准关键词,包括:
基于所述位置标识在所述服务关键词下的服务文本块中提取所述服务关键词的服务关联信息;
根据所述服务关键词和所述服务关联信息,在标准关键词集合中筛选所述服务关键词对应的所述标准关键词。
9.根据权利要求8所述的项目信息处理方法,所述根据所述服务关键词和所述服务关联信息,在标准关键词集合中筛选所述服务关键词对应的所述标准关键词,包括:
根据所述服务关键词与所述标准关键词集合中各标准关键词的相似度,确定相似度排序位次处于预设位次区间内的候选标准关键词;
基于所述服务关键词和所述服务关联信息,在所述候选标准关键词中筛选出所述标准关键词。
10.根据权利要求1所述的项目信息处理方法,所述确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,包括:
将所述服务关键词在所述目标文本块下的位置标识转换至在所述结构化项目信息下的位置标识;
基于所述结构化项目信息下的位置标识,确定所述服务关键词的第一服务数据和第二服务数据,并在所述第一服务数据和所述第二服务数据中提取所述各服务属性中默认服务属性的属性参数。
11.根据权利要求1所述的项目信息处理方法,所述确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,包括:
根据所述标准关键词确定所述各服务属性中关键服务属性的属性参数。
12.根据权利要求1所述的项目信息处理方法,所述确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,包括:
检测所述服务关键词的第一服务数据和第二服务数据中的服务字段;
在字段特征数据库中查找与所述服务字段匹配的标准特征向量,并基于所述标准特征向量和所述服务字段的特征向量,在所述第一服务数据和所述第二服务数据中提取所述属性参数。
13.根据权利要求12所述的项目信息处理方法,所述基于所述标准特征向量和所述服务字段的特征向量,在所述第一服务数据和所述第二服务数据中提取所述属性参数,包括:
将所述标准特征向量与所述特征向量进行向量融合,并对融合获得的融合特征向量进行向量变换获得目标特征向量;
基于所述目标特征向量,在所述第一服务数据和所述第二服务数据中提取所述属性参数。
14.根据权利要求1所述的项目信息处理方法,所述基于所述属性参数生成项目配置信息并进行项目配置处理,包括:
基于所述属性参数生成可视化页面,并基于配置人员通过所述可视化页面提交的配置数据进行项目配置;
根据项目配置结果进行项目发布。
15.根据权利要求1所述的项目信息处理方法,所述基于所述属性参数生成项目配置信息并进行项目配置处理,包括:
基于多个项目的属性参数确定所述多个项目中的目标项目,并对所述目标项目进行推荐标记;
基于推荐标记结果对所述目标项目进行配置更新,并根据配置更新后的目标项目向用户进行项目推荐。
16.根据权利要求1所述的项目信息处理方法,所述确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数操作执行之后,还包括:
若所述各服务属性中目标服务属性的属性参数为空,检测所述各服务属性中与所述目标服务属性存在约束关系的服务属性;
基于所述服务属性的属性参数确定所述目标服务属性的属性参数;
其中,所述约束关系包括所述服务属性为主属性且所述目标服务属性为子属性。
17.一种项目信息处理装置,包括:
解析处理模块,被配置为对项目文档进行解析处理获得项目信息;
信息生成模块,被配置为根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息;
关键词提取模块,被配置为在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词;
属性参数确定模块,被配置为确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
18.一种项目信息处理设备,包括:
处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:
对项目文档进行解析处理获得项目信息;
根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息;
在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词;
确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
19.一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
对项目文档进行解析处理获得项目信息;
根据所述项目信息确定各项目标题的标题结构,并根据所述标题结构和所述各项目标题下的文本块生成结构化项目信息;
在所述结构化项目信息中提取项目关键词下的目标文本块,并在所述目标文本块中提取服务关键词;
确定所述服务关键词对应的标准关键词的服务属性集合中各服务属性的属性参数,以基于所述属性参数生成项目配置信息并进行项目配置处理。
CN202310769811.7A 2023-06-27 2023-06-27 项目信息处理方法及装置 Pending CN116757183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310769811.7A CN116757183A (zh) 2023-06-27 2023-06-27 项目信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310769811.7A CN116757183A (zh) 2023-06-27 2023-06-27 项目信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN116757183A true CN116757183A (zh) 2023-09-15

Family

ID=87947654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310769811.7A Pending CN116757183A (zh) 2023-06-27 2023-06-27 项目信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN116757183A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971780A (zh) * 2023-12-29 2024-05-03 青矩技术股份有限公司 文档存储方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971780A (zh) * 2023-12-29 2024-05-03 青矩技术股份有限公司 文档存储方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109190007B (zh) 数据分析方法及装置
US8838657B1 (en) Document fingerprints using block encoding of text
KR20130142121A (ko) 검색 질의 입력에 대한 다중 모드 접근 방법
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
US11281928B1 (en) Querying semantic data from unstructured documents
CN116757183A (zh) 项目信息处理方法及装置
CN114860905A (zh) 意图识别方法、装置及设备
CN116883982A (zh) 电子***录入方法、装置、电子设备及可读存储介质
CN116662657A (zh) 一种模型训练和信息推荐的方法、装置、存储介质及设备
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备
CN113435950B (zh) 票据处理方法及装置
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN113947510A (zh) 一种基于文件格式自适应的不动产电子证照管理***
CN113010573A (zh) 一种关联关系提取方法、装置及电子设备
US9471569B1 (en) Integrating information sources to create context-specific documents
Sanoja et al. Migrating web archives from html4 to html5: A block-based approach and its evaluation
CN113298914B (zh) 知识组块提取方法、装置、电子设备和存储介质
CN117035695B (zh) 一种信息预警的方法、装置、可读存储介质以及电子设备
CN117688140B (zh) 文档查询方法、装置、计算机设备和存储介质
Rastan Towards generic framework for tabular data extraction and management in documents
CN116702783A (zh) 组件模型优化方法及装置、电子设备、存储介质
CN117931910A (zh) 数据存储方法、装置、设备及存储介质
CN113688607A (zh) 在线文档作者的画像更新方法及装置
CN117608490A (zh) 基于投资***的数据管理方法、装置、电子设备及介质
CN114048368A (zh) 一种基于非结构化情报中提取数据的方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination