CN115455935A - 一种文本信息智能处理*** - Google Patents
一种文本信息智能处理*** Download PDFInfo
- Publication number
- CN115455935A CN115455935A CN202211113958.2A CN202211113958A CN115455935A CN 115455935 A CN115455935 A CN 115455935A CN 202211113958 A CN202211113958 A CN 202211113958A CN 115455935 A CN115455935 A CN 115455935A
- Authority
- CN
- China
- Prior art keywords
- information
- entity
- knowledge
- relation
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本信息智能处理***,其特点是该***由文本预处理、知识图谱构建和知识查询与问答三个子***组成,所述文本预处理子***实现对文档读取、扫描和实体抽取等预处理;所述知识图谱构建子***抽取文档中的关系等知识图谱的基本元素,采用实体匹配、知识融合将这些元素增量更新至知识图谱中,并实现可视化;所述知识查询与问答子***利用构建好的知识图谱,实现对文档知识的动态查询与问答应对。本发明与现有技术相比具有自动处理各类文档,构建领域知识图谱对其中的关键信息进行存储、管理、展示,并基于构建好的知识图谱对用户输入的问题实现基于语义的知识搜索和问答功能,为各领域的相关业务职能效率提升提供技术手段支撑。
Description
技术领域
本发明涉及知识图谱和光学字符识别技术领域,尤其是一种文本信息智能处理***的实现方法。
背景技术
知识图谱技术作为新一代人工智能领域内的代表性技术,能够帮助满足运维工程进行知识检索的需求,具体体现在:1)在图谱的构建过程中,可以处理文本类半结构化数据并存储后加以利用,从而达到全文搜索的目的;2)基于知识图谱的搜索是针对命名实体的,而不仅仅是文字匹配;3)命名实体之间用关系串联,信息检索结果并可以遵循关系路径进行扩展。
目前,已经有学者将其引入信息管理领域,如王雪将知识图谱技术应用于人口信息查询领域,解决了人工信息数据可视化以及智能化检索的问题;雷洁等利用Protege工具进行科研档案管理的本体设计,将与之相关的科研人员信息、科研团队信息、财务信息等都进行统一存储,为科研档案智能化应用做铺垫;翟兴等利用知识图谱技术管理健康养生信息,同时能提供人工交互、信息推介、问题转发等功能。
光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文字识别主要解决的问题是每个文字是什么,识别出的文本通常需要再次核对以保证其正确性。文本校正也被认为属于这一环节,而其中当识别的内容是由词库中的词汇组成时,称作有词典识别(Lexicon-based),反之称作无词典识别(Lexicon-free)。
现有技术的文档信息检索自动化处理和计算能力低,成本高,文档信息管理繁琐、复杂,智能问答的效果差,文档处理***通常不能兼顾智能问答与可视化功能,用户在使用时不够便利。
发明内容
本发明的目的是针对现有技术的不足而提供的一种文本信息智能处理***,采用文本预处理子***、知识图谱构建子***和知识查询与问答子***构建的智能***为文本信息处理工具,实现对文档知识的动态查询与问答应对的智能处理,通过利用知识图谱、OCR等领域技术,实现对大量文档数据的自动化处理和计算,为使用者提供高效的文档信息检索和智能问答功能,实现减少文档信息管理、检索成本的效果。该工具通过自动处理各类文档,构建领域知识图谱对其中的关键信息进行存储、管理、展示,并基于构建好的知识图谱对用户输入的问题实现基于语义的知识搜索和问答功能,为各领域的相关业务职能效率提升提供技术手段支撑。
实现本发明目的的具体技术方案是:一种文本信息智能处理***,其特点是采用文本预处理子***、知识图谱构建子***和知识查询与问答子***构建的智能***为文本信息处理工具,实现对文档知识的动态查询与问答应对的智能处理,通过文本预处理子***、知识图谱构建子***和知识查询与问答子***中的九个模块:源文档信息抽取模块、基于目录的粗粒度图谱构建模块、实体抽取模块、关系挖掘与补全模块、图谱数据预处理模块、知识图谱***模块、知识图谱可视化模块、问题答案生成模块和候选答案排序及输出模块进行联动配合,实现文档自动化处理、关键信息抽取、图谱构建和智能问答功能。
所述文档自动化处理指使用OCR对文档进行处理,识别并存储文档中的文本、图片、表格;所述关键信息抽取指使用正则匹配、命名实体识别技术获取文档中的例如:项目负责人、项目预算、开始/结束日期等重要信息;所述图谱构建指构建文档标题层级结构的粗粒度图谱和关键信息细粒度图谱;所述智能问答功能指用户以文本形式输入问题,***根据构建的知识图谱进行答案检索和预测,并返回执行度最高的答案。
所述源文档信息抽取模块通过如下四个步骤实现将待解析文档中的信息抽取并存储:
1)寻址并读取文档:获取用户想要处理的文档的所在地址,并读取文档内容;2)文档文本信息识别(ocr技术):使用ocr技术,抽取pdf、word、txt、html格式的文档中的文本信息;3)图像、表格信息抽取及存储:识别文档中的图片、表格,并将其存储到硬盘;4)文本格式处理:处理页眉页脚、是否正确的换行、文字中图片所在位置是否准确等格式问题。
所述基于目录的粗粒度图谱构建模块通过如下四个步骤实现根据源文档信息抽取模块中抽取的信息构建文档标题层级的粗粒度知识图谱:1)识别标题、层级:抽取pdf、word、txt、html格式的文档中的标题,计算每个标题的层级;2)筛选正确标题:根据标题正则表达式筛选出正确的标题;3)构建目录树:根据标题层级关系,使用树状形式存储标题,将标题与标题对应的内容构建链接;4)构建粗粒度图谱及存储:根据标题及标题间层级关系构建粗粒度知识图谱,并将其存储到服务器端。
所述实体抽取模块通过如下四个步骤从文档中识别、抽取关键实体:1)实体分类:预设实体类型,便于后续实体处理;2)实体识别:构造实体抽取规则,识别规律性较强的几种类型的实体,搭建并训练深度学习模型,利用模型抽取文档中的实体;3)实体筛选:对抽取出的实体进行筛查,删去错误的实体;4)实体消歧:对指代相同实体的不同名词(全称、简称、别称等情况)进行合并、统一。
所述关系挖掘与补全模块通过如下四个步骤实现从文档信息中抽取实体抽取模块所得实体间的关系:1)关系定位:根据实体在文档中的位置,确定该对实体间的关系在文档中可能出现的范围;2)关系挖掘:使用规则判定并抽取出实体间关系,搭建并训练模型用于抽取实体间关系;3)关系筛选:对抽取出的关系进行筛查,删去错误的关系;4)关系消歧:根据现有实体和关系,推理出部分文档中没有提及或者***未能抽取出的关系。
所述图谱数据预处理模块通过如下五个步骤实现构建细粒度图谱前的准备工作:1)抽取信息读取:将实体、关系、图片、表格等信息读入***;2)实体信息获取,筛选出实体信息;3)实体间关系获取:筛选出关系信息;4)格式处理:将实体、关***一为方便***处理的格式;5)信息存储:将实体、关系等关键信息存入json文件。
所述知识图谱***模块通过如下四个步骤实现将前序模块中抽取到的实体和关系***到知识图谱中:1)初始化知识图谱:配置知识图谱必要内容,并创建空的知识图谱;2)实体节点***:将实体作为节点***到知识图谱中要元素;3)实体间关系***:将实体间的关系构建为实体节点间的边;4)图谱自纠错:利用规则对构建好的知识图谱进行纠错。
所述知识图谱可视化模块通过如下四个步骤实现知识图谱的可视化展示:1)图谱节点类型设置:为各节点设置节点类型;2)节点绘制:使用相关工具绘制节点;3)节点间关系绘制:绘制节点间的关系;4)图谱可视化展示:呈现完整知识图谱效果。
所述问题答案生成模块通过如下三个步骤实现用户输入问题的自动化处理及问答深度学习模型预测:1)模型构建与训练:搭建模型并使用训练数据进行训练;2)测试输入问题:使用模型计算输入问题的答案;3)答案返回与格式处理:将模型输出的答案进行格式处理后返回。
所述候选答案排序及输出模块通过如下三个步骤获取用户输入问题的最有可能的答案并输出:1)节点信息读取:找到模型选择的作为答案的节点,读取答案节点和路径上的节点;2)节点权重计算:使用注意力机制,通过问题特征为每个节点给与不同的重要性,计算每个节点的权重值;3)候选答案筛选与输出:根据答案节点以及答案路径节点的权重进行筛选,将最终选出的答案进行输出。
本发明与现有技术相比具有利用知识图谱、OCR等领域技术实现对大量文档数据的自动化处理和计算,为使用者提供高效的文档信息检索和智能问答功能,实现减少文档信息管理、检索成本的效果,为各领域的相关业务职能效率提升提供技术手段支撑。
附图说明
图1为本发明***架构图;
图2为本发明功能框架图;
图3为源文档信息抽取示例;
图4为实体抽取效果示例;
图5为关系抽取效果示例;
图6为实体对齐效果示例;
图7为图谱生成效果图;
图8为图谱关系生成效果图;
图9为图谱可视化效果图;
图10为本发明的基于知识图谱的问答效果图。
具体实施方式
参阅图1,本发明由文本预处理、知识图谱构建和知识查询与问答三个子***中的九个功能模块组成,实现文档自动化处理、关键信息抽取、图谱构建和智能问答应对的智能处理,所述文本预处理子***负责实现对文档读取、扫描和实体抽取等预处理,为下游图谱构建做支撑;所述知识图谱构建子***负责抽取文档中的关系等知识图谱的基本元素,采用实体匹配、知识融合等技术将这些元素增量更新至知识图谱中,并实现知识图谱的可视化;所述知识查询与问答子***,负责利用构建好的知识图谱,实现对文档知识的动态查询与问答应对。所述的九个功能模块分别为:源文档信息抽取模块、基于目录的粗粒度图谱构建模块、实体抽取模块、关系挖掘与补全模块、图谱数据预处理模块、知识图谱***模块、知识图谱可视化模块、问题答案生成模块和候选答案排序及输出模块。
参阅图2,使用方将待处理文件输入源文档信息抽取模块进行挖掘,从中抽取出关键信息,将其输入实体抽取模块及基于目录的粗粒度知识图谱构建模块,实体抽取从关键信息中抽取实体信息,基于目录的粗粒度知识图谱构建模块根据关键信息中的目录结构信息,关系挖掘与补全模块根据实体和关键信息挖掘和补全实体间的关系,抽取的关系和实体将用于构建知识图谱。知识图谱***模块将实体和关系***至知识图谱预处理模块预设置好节点类型、关系类型等的初始化知识图谱中,图谱内容可经由知识图谱可视化模块进行展示。当用户输入问题文本时,问题答案生成模块将从知识图谱中寻找候选答案,候选答案经由候选答案排序及输出模块排序后输出到客户端。
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例1
步骤一:文件资料信息抽取
参阅图3,文件后缀名类型为.pdf、.docx、.doc,首先在java环境中采用jacob工具用于文件类型转化,将.docx、.doc都转化为.pdf文件,之后使用pdfplumber和pypdf2工具识别和抽取PDF细粒度文本信息,将PDF文件的具体内容分为具体表格、图片、非结构化文本三个部分。
(一)表格抽取具体步骤如下:
1)确定原始pdf的某页,并将其转存为图像。
2)对图像使用opencv工具的adaptiveThreshold功能进行二值化处理。光学字符识别的算法研究中,快速有效地将文档图像二值化是图像预处理阶段的关键步骤。Niblack算法是通过当前目标考察点及其模板算子邻域内像素点灰度值的平均值及标准差数学运算后得到二值化阈值。在确定图像的二值化时,先计算以(x,y)为中心的n×n大小的邻域内像素点的灰度平均值m和标准差s。
所述以(x,y)为中心的n×n大小的邻域内像素点的灰度平均值m由下述(a)式计算:
所述以(x,y)为中心的n×n大小的邻域内像素点的标准差s由下述(b)式计算:
所述图像的二值化阈值T(x,y)由下述(c)式计算:
T(x,y)=k·s(x,y)+m(x,y) (c);
式中:k是根据经验预定的修正系数,一般k取0.1~0.5。
当前观察点的最终阈值由下述(d)式决定:
3)用(1,20)和(20,1)的卷积核对图像做用闭运算,确定图中的横/竖线,得到用于寻找表格的图。
4)使用opencv工具的findContours和opencv boundingRect功能寻找图中的矩形,按矩形面积从大到小排序并遍历,当table_list为空或者有不被table_list内的矩形所包含时就算作是table,否则停止遍历。
5)遍历每个table,使用PaddleOCR离线模型寻找table区域内的文字框;对区域再做一次矩形检测,如果区域内文本框数量少于4个或区域内矩形框少于4个则跳过。
6)取上一步的矩形列表并遍历,确定每行每列的位置。
7)视矩形为单元格,截取单元格内容用于OCR识别文字,作为单元格文字。
(二)图片抽取具体步骤如下:
1)通过fitz检测pdf中当前页的图片并存储。
2)识别页面中存在的图注并按顺序将检测到的所有图片的引用一一替换上去。
3)对多余的图片将其引用添加到页面尾部。
步骤2:实体与关系抽取的具体步骤如下:
(一)表格中的实体与关系抽取
1)跨页表格检测
在表格转图谱之前需要先检测跨页表格,针对在识别结果中的两个相邻的表格,首先判断这两个表格是不是出于相邻的页码中,同时根据两个表格的列数,在文本页中的位置以及表格名称来判断这两个表格是不是属于跨页的表格,如果判断为跨页表格,将两个表格的内容合并。
2)表名识别
表格实体的名称采用资料中的表格名称,对每个识别的表格抽取该表格在文档中的上下文(临近文本),使用模板匹配这些上下文文本,从中找出符合表格名称特点的文本内容,模板形式为“.*[表](\s*)[0-9a-zA-Z]*.*”,匹配包含显示表格内容的文本。
3)第一依据与第二依据识别
在表格转图谱过程中,首先根据自定一系列中英文关键字(如“接口”,“重量”,“参数”,“因素”,“频率”等)预估表格属于哪种类别,同时计算出第一依据与第二依据开始的行和列,其间需要考虑参照依据是否跨行或是否跨列,也需考虑参照依据需要几层才能唯一确定一个属性。
(二)非结构化文本中的实体与关系抽取
参阅图4~图5,采用人工标注部分数据(包括词性标注与分词),配合模型学习泛化至其他数据训练深度学习模型,借助百度分词工具LAC,从名词(n)、其他专名(nz)、普通动词(v)、形容词(a)以及标点符号(w)中获取关键词。
1)实体对齐:如果两个实体间的字符重叠度很高,则认为这两个名称有较大可能是指代同一实体。在此基础上,进一步分析两个实体所在句子的语法结构和句子含义,判断实体在句子中的语法成分,短文本X,Y之间的莱文斯坦比LRx,y由下述(e)式计算:
式中:lenX与lenY为短文本X,Y的长度;IdistX,Y为文本间的类莱文斯坦距离,与原莱文斯坦距离相比,增、删的操作依然+1,但替换的操作+2,这样做是避免类似计算LR"a","b"≠0的情况。但莱文斯坦比没有考虑短文本之间公共子串对文本相似度的影响,所以需要由下述(f)式再计算公共子串占比DX,Y:
式中:CSlenX,Y为短文本X,Y间最长公共子串的长度,在本文中会存在一些由下述(g)式表示的纯数字εX,Y:
故短文本X,Y的相似度PX,Y由下述(h)式计算:
式中:WLR与WD为对应参数的权重,取1和0.8。
参阅图6,如果实体相似度和实体语义都较为相似,则认为这两个名称是同一个实体的不同称谓。
步骤3:构建知识图谱
1)两个实体出现在相近的上下文中,可以认为两个实体是相互联系的,实体节点之间存在一条边。
2)两个实体在项目文档的目录中属于同级或者上下级关系,可能存在从属关系,可以认为两个实体之间存在一条边。
3)两个实体在经过消歧后指向同一个实体,认为这两个实体在语义层面上是相同的,实体节点间存在一条边。
参阅图7,如果两个实体满足上面的规则之一,可以认为在知识图谱中两个实体节点之间是存在一条关系边的。
步骤4:图谱可视化展示
参阅图8~图9,Neovis可视化工具将节点信息投射到前端网页,效果如图9所示。
步骤5:问题语义分析
(一)根据TF-ID算法,通过构建文档中词的出现频率,来得到文本的语义特征,其计算由下述(i)式表示为:
式中:tfij为特征项tj在文档di中出现的次数;idfj用以表征反比于tj在所有文本中出现次数;N表示总文档数;nj为出现特征tj的文档数,为防止nj为0,修正为nj+1。
(二)模型的具体构建过程如下:
1)从neo4j数据库中查询所有节点。
2)合并节点中的段落标题与段落文本作为训练语料。
3)在entity_solver中使用jieba模块对所有语料进行分词并删除停用词。
4)删除分词后出现频率为1的低频词。
5)建立词袋模型,并构建TF-IDF模型。
6)创建文本相似度矩阵。
步骤6:答案检索
1)针对输入的问题做规整化处理。具体操作包括将中英文之间空格、中文之间空格、英文之间多余空格以及标点符号左右两边空格规整化,统一英文字符大小写(例如都统一成小写)。
2)对问题用与构建方法中相同的方式进行分词并获取词向量。
3)根据文本相似度矩阵查询前k相似的句子并返回。
4)最终答案返回结果详见图10所示的问答效果图。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
Claims (10)
1.一种文本信息智能处理***,其特征在于采用文本预处理子***、知识图谱构建子***和知识查询与问答子***构建的智能***为文本信息处理工具,实现基于语义的知识搜索和问答,所述文本预处理子***包括:源文档信息抽取模块、基于目录的粗粒度图谱构建模块和实体抽取模块;所述源文档信息抽取模块用于从源文档中抽取信息;所述基于目录的粗粒度图谱构建模块用于分析文档目录结构,并以此构造树状知识图谱;所述实体抽取模块用于从文档信息中抽取关键实体信息;所述知识图谱构建子***包括:关系挖掘与补全模块、图谱数据预处理模块、知识图谱***模块、知识图谱可视化模块,所述关系挖掘与补全模块用于从文档信息中抽取关键关系信息,并对缺失关系进行补全;所述图谱数据预处理模块用于实现图谱数据的预处理,主要包括图谱中节点的连接信息以及边信息以及节点标识与节点名称的映射信息;所述知识图谱***模块用于构建知识图谱,并将实体、关系***到知识图谱中;所述知识图谱可视化模块用于将知识图谱可视化展示; 所述知识查询与问答子***包括:问题答案生成模块和候选答案排序及输出模块,所述问题答案生成模块用于根据输入问题,寻找和计算合适的候选答案;所述候选答案排序及输出模块用于从候选答案中找出置信度最高的答案进行输出,实现对文档知识的动态查询与问答应对的智能处理。
2. 根据权利要求1所述的文本信息智能处理***,其特征在于所述源文档信息抽取模块将待解析文档中的信息抽取并存储,具体包括下述步骤:
1)寻址并读取文档
将用户在网页中输入的文档地址使用POST技术传输至服务器端,服务器找到对应路径文件,若文件为pdf格式,直接存入内存;若为word、html格式,使用只读方式读取文件内容,并转存为pdf格式保存;
2)文档文本信息识别
使用CNOCR模型提供的文字特征抽取算法,对寻址并读取文档操作读取到的内容进行分析识别处理,抽取文本及版面信息;
3)图像、表格信息抽取及存储
使用fast-rcnn 深度学习的图像检测模型来抽取表格和图片内容,并判断识别内容是否具有表头、单元格等表格特征,从而分辨识别内容为表格或图片,将
抽取到的表格和图片存入硬盘,将存取地址记录在文档文本内容中;
4)文本格式处理
使用正侧式匹配进行如下处理:定位并删除页眉和页脚、识别图片和表格位置信息后是否存在换行符,若不存在,说明图片和表格后文本未正确换行,则添加换行符、判断是否存在空行或只有无意义符号的行,若存在则进行删除。
3. 根据权利要求1所述的文本信息智能处理***,其特征在于所述基于目录的粗粒度图谱构建模块根据抽取的信息构建文档标题层级的粗粒度知识图谱,具体包括下述步骤:
1)识别标题、层级
根据标题在文本中存在的特征,生成如标题前存在序号、序号后有逗号或顿号的一些规则,基于规则从文档中找出标题,并根据标题编号、标号类型,将标题归入正确的层级,若为html格式,可根据html语言的层级关系作为辅助信息查询文档中的标题;
2)筛选正确标题
对于筛选出来的标题,根据正则表达式筛选出正确的标题,所述正则表达式需要根据文本的具体内容和写作风格指定;
3)构建目录树:
对标题进行正则表达式筛选后,获取用于构建目录树的标题及其层级,利用标题层级关系,构建树状结构形式的目录树,以字典形式保存在本地,并将标题与标题对应的内容构建链接;
4)构建粗粒度图谱及存储
根据标题及标题间层级关系构建粗粒度知识图谱,并将其存储到服务器端,后续由关系挖掘与补全模块进行实体抽取、关系挖掘与补全,进一步完善该知识图谱。
4. 根据权利要求1所述的文本信息智能处理***,其特征在于所述实体抽取模块从文档信息中抽取关键实体信息,具体包括下述步骤:
1)实体分类
根据文档内容,预设在文档中经常出现的实体类型进行分类;
2)实体识别
构造实体抽取规则,识别规律性较强的几种类型的实体,通过预定义的词性标签(POSTag)规则来识别文档中的高质量名词短语,搭建并训练深度学习模型,利用模型的双向LSTM结合条件随机场抽取文档中的实体;
3)实体筛选
基于统计学习的方法,根据计算候选短语的统计指标特征给词汇打分和排序来进行实体词汇筛选,所述统计指标包括:TF-IDF、PMI和C-Value;
4)实体消歧
使用基于模式匹配的自举法,自动发现新模式,准备种子样本或定义初始模式,将语料与模式匹配,发现新的同义词对,根据新发现的同义词对挖掘新的模式,不断重复上述步骤,直到***判断无法发现更多同义词对。
5. 根据权利要求1所述的文本信息智能处理***,其特征在于所述关系挖掘与补全模块从文档信息中抽取实体抽取模块所得实体间的关系,具体包括下述步骤:
1)关系定位
根据实体在文档中的位置,确定该对实体间的关系在文档中可能出现的范围,通过缩小范围增强实体分类的准确性;
2)关系挖掘
使用模式表达关系在文本中提及的方式,将模式与语料匹配,获取来实现关系实例,搭建并训练关系抽取深度学习模型用于抽取实体间关系,利用标注语料学习抽取模型,以接受文本作为输入,将其输入至嵌入层经CRF生成相应的标记序列,每个标记表示相应字符是否是实体和关系,所述模式根据粒度可分为字符模式、语法模式和语义模式;所述字符模式是将自然语言视作字符序列,模式表示为一组正则表达式;所述语法模式为词法和句法信息的抽取模式;所述语义模式是将概念引入模式的描述中,且定义基于概念约束的模式;
3)关系筛选
结合上、下文中的词法、句法和语义信息或背景知识,对抽取的关系进行筛查,删去错误的关系,所述筛查使用句子级别的注意力机制为实体对的每个句子赋予一个权重,权重越大表明该句子表达目标关系的程度越高,反之则越可能是噪声;
4)关系消歧
使用基于矩阵以和翻译方案——TransH、TransD,利用头尾实体和关系在某个空间下的向量关系实现预测。
6. 根据权利要求1所述的文本信息智能处理***,其特征在于所述图谱数据预处理模块构建细粒度图谱前的准备工作,具体包括下述步骤:
1)抽取信息读取
读取图片地址和表格地址,使用预设模板统一其格式,并以字典的形式存放在内存;
2)实体信息获取
在实体表中对抽取实体进行质量筛选,删除重复的实体,对实体使用相似度匹配,对于相似度大于0.8的实体对,通过语义分析算法判断是否是同一指代的实体,如果是则进行消歧操作,然后对每个实体的完整度进行判断,通过Jieba分词工具对实体进行分词,如果分词结果出现单个字符,则判断该实体质量存在问题,予以删除并重新组织实体列表;
3)实体间关系获取
对关系表进行质量筛选,使用相似度匹配,对于相似度大于0.6的关系对,通过语义分析算法判断是否是同一指代的关系,如果是则进行消歧操作,针对每个关系,在实体表中通过相似度匹配找到和其对应的头实体和尾实体,如果出现头实体或尾实体的缺失,则将该关系删除;
4)格式处理
将关系表和实体表进行整合,把实体表中的实体通过关系表中的关系组合成“头实体-关系-尾实体”的三元组格式,并对三元组进行去重,将得到的三元组以字典形式存放在内存中;
5)信息存储
以JSON格式对三元组字典进行存储,并将存储路径返回。
7. 根据权利要求1所述的文本信息智能处理***,其特征在于所述知识图谱***模块将前序模块中抽取到的实体和关系***到知识图谱中,具体包括下述步骤:
1)初始化知识图谱
使用Cypher语句对图谱进行初始化,其主要内容为清除知识图谱中的所有实体和关系,并将维护的实体表和关系表进行清空;
2)实体节点***:
使用Cypher语句将关系三元组中的实体进行***,首先根据关系确定实体的类型,然后对其进行编号和命名,对于表格数据中的实体,将其各种属性记录到实体节点中,如果在***过程中,遇到同名实体,则检查其属性信息是否完全相同,排除同一节点重复***的可能;
3)实体间关系***
使用Cypher语句将关系三元组中的关系进行***,首先根据关系模板确定关系类型,然后建立关系结构,得到关系结构后根据其首尾实体的名称,在知识图谱中进行查询,将查询到的首尾实体和关系进行连接;
4)图谱自纠错
在***实体和关系的过程中,图谱会根据维护的实体表和关系表对***数据进行纠错,对于唯一性的实体,如出现重复***的操作,***则会报错并根据实体表反馈重复的节点信息。
8. 根据权利要求1所述的文本信息智能处理***,其特征在于所述知识图谱可视化模块按下述步骤实现知识图谱的可视化展示:
1)图谱节点类型设置
在建立可视化知识图谱时,根据节点和关系的数量以及种类对知识图谱的展示架构进行设计,具体为,根据节点种类对不同的种类设置相应的颜色,同时为每种节点根据其意义设置相应的LOGO;
2)节点绘制
根据知识图谱的后台数据,使用Neovis可视化工具将节点信息投射到前端网页,根据其种类使用相应的LOGO取代之前的圆形节点,并将节点根据其在知识图谱中的重要程度对节点大小进行调整;
3)节点间关系绘,
根据知识图谱的后台数据,首先判断前端中两个实体间的关系,根据关系种类使用Neovis在前端创建一个特定颜色和名称的关系箭头,然后分别对箭头和首尾实体进行连接;
4)图谱可视化展示
在建立完所有实体和节点之后,使用Neovis激活可视化知识图谱,使得图谱可以以动态的形式进行展示,并在可视化界面***删除、修改、***、查询的常用操作功能,在点击对应按钮时,命令信息会通过POST技术传输至服务器端,服务器端会根据指令进行相应操作,前端在接收到更新信息时,会对图谱进行更新。
9. 根据权利要求1所述的文本信息智能处理***,其特征在于所述问题答案生成模块根据输入问题,寻找和计算合适的候选答案,具体包括下述步骤:
1)模型构建与训练
使用图神经网络作为答案预测模型主体框架,通过知识图谱读取接口,将图谱读入到模型中,获得知识谱图中每个节点的上下文特征,通过传播并学习节点周围的结构信息,预先使用python爬虫从互联网收集公开、非保密的文档共1371份用作训练数据,将训练数据输入到模型中,训练模型,让模型找到数据中的潜在规律;
2)测试输入问题
使用TF-IDF算法,通过构建文档中词的出现频率,得到文本的语义特征,获取较为表层的语义信息;使用基于预训练的语言模型获取文本的上下文语义信息,通过深层的神经网络训练,挖掘到包含:问题的上、下文,以及推理信息的语义特征;
3)答案返回与格式处理
将答案预测模型找到的答案节点位置信息和路径信息以元组形式保存,并传递给候选答案排序及输出模块,方便后续计算候选节点的权重。
10. 根据权利要求1所述的文本信息智能处理***,其特征在于所述候选答案排序及输出模块从候选答案中找出置信度最高的答案进行输出,具体包括下述步骤:
1)节点信息读取
使用深度优先算法遍历问题答案生成模块的GNN模型寻找到答案路径上的所有节点、访问答案节点和路径节点,读取其信息;
2)节点权重计算
使用图神经网络学习到知识图谱图在结构上的信息后通过计算问题特征与节点特征的相似度,获得最优的搜索节点,对于问题文本特征以及节点特征,通过构建单层神经网络,将两个特征映射到同一个向量空间后构建基于问题的注意力机制,并通过问题特征为每个节点给与不同的重要性,计算每个节点的权重值,依据权重值得到所有节点总的权重表示;
3)候选答案筛选与输出
对候选答案节点和路径节点的权重进行加权求和,计算候选答案的总置信度,将置信度最高的答案使用POST技术传输至网页,输出到文本框,展示给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211113958.2A CN115455935A (zh) | 2022-09-14 | 2022-09-14 | 一种文本信息智能处理*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211113958.2A CN115455935A (zh) | 2022-09-14 | 2022-09-14 | 一种文本信息智能处理*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115455935A true CN115455935A (zh) | 2022-12-09 |
Family
ID=84302391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211113958.2A Pending CN115455935A (zh) | 2022-09-14 | 2022-09-14 | 一种文本信息智能处理*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455935A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617956A (zh) * | 2022-12-16 | 2023-01-17 | 北京知呱呱科技服务有限公司 | 一种基于多模态注意力图谱的专利检索方法及*** |
CN115809311A (zh) * | 2022-12-22 | 2023-03-17 | 企查查科技有限公司 | 知识图谱的数据处理方法、装置及计算机设备 |
CN116070602A (zh) * | 2023-01-05 | 2023-05-05 | 中国科学院计算机网络信息中心 | 一种pdf文档智能标注与抽取方法 |
CN116090560A (zh) * | 2023-04-06 | 2023-05-09 | 北京大学深圳研究生院 | 基于教材的知识图谱建立方法、装置及*** |
CN116110051A (zh) * | 2023-04-13 | 2023-05-12 | 合肥机数量子科技有限公司 | 一种文件信息处理方法、装置、计算机设备及存储介质 |
CN116627912A (zh) * | 2023-07-19 | 2023-08-22 | 中国电子科技集团公司第十研究所 | 一种多类型文档多模态内容的整合提取方法 |
CN116737967A (zh) * | 2023-08-15 | 2023-09-12 | 中国标准化研究院 | 一种基于自然语言的知识图谱构建和完善***及方法 |
CN116821712A (zh) * | 2023-08-25 | 2023-09-29 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
CN116910386A (zh) * | 2023-09-14 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 地址补全方法、终端设备及计算机可读存储介质 |
CN116932767A (zh) * | 2023-09-18 | 2023-10-24 | 江西农业大学 | 基于知识图谱的文本分类方法、***、存储介质及计算机 |
CN117075778A (zh) * | 2023-10-12 | 2023-11-17 | 北京智文创想科技有限公司 | 一种图片文字的信息处理*** |
CN117236435A (zh) * | 2023-11-08 | 2023-12-15 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
CN117708280A (zh) * | 2023-11-27 | 2024-03-15 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于知识图谱的输电工作票智能检索方法及*** |
CN117972070A (zh) * | 2024-04-01 | 2024-05-03 | 中国电子科技集团公司第十五研究所 | 一种面向大模型表格问答方法 |
-
2022
- 2022-09-14 CN CN202211113958.2A patent/CN115455935A/zh active Pending
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617956A (zh) * | 2022-12-16 | 2023-01-17 | 北京知呱呱科技服务有限公司 | 一种基于多模态注意力图谱的专利检索方法及*** |
CN115809311A (zh) * | 2022-12-22 | 2023-03-17 | 企查查科技有限公司 | 知识图谱的数据处理方法、装置及计算机设备 |
CN116070602A (zh) * | 2023-01-05 | 2023-05-05 | 中国科学院计算机网络信息中心 | 一种pdf文档智能标注与抽取方法 |
CN116070602B (zh) * | 2023-01-05 | 2023-10-17 | 中国科学院计算机网络信息中心 | 一种pdf文档智能标注与抽取方法 |
CN116090560A (zh) * | 2023-04-06 | 2023-05-09 | 北京大学深圳研究生院 | 基于教材的知识图谱建立方法、装置及*** |
CN116110051A (zh) * | 2023-04-13 | 2023-05-12 | 合肥机数量子科技有限公司 | 一种文件信息处理方法、装置、计算机设备及存储介质 |
CN116627912A (zh) * | 2023-07-19 | 2023-08-22 | 中国电子科技集团公司第十研究所 | 一种多类型文档多模态内容的整合提取方法 |
CN116737967B (zh) * | 2023-08-15 | 2023-11-21 | 中国标准化研究院 | 一种基于自然语言的知识图谱构建和完善***及方法 |
CN116737967A (zh) * | 2023-08-15 | 2023-09-12 | 中国标准化研究院 | 一种基于自然语言的知识图谱构建和完善***及方法 |
CN116821712B (zh) * | 2023-08-25 | 2023-12-19 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
CN116821712A (zh) * | 2023-08-25 | 2023-09-29 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
CN116910386A (zh) * | 2023-09-14 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 地址补全方法、终端设备及计算机可读存储介质 |
CN116910386B (zh) * | 2023-09-14 | 2024-02-02 | 深圳市智慧城市科技发展集团有限公司 | 地址补全方法、终端设备及计算机可读存储介质 |
CN116932767A (zh) * | 2023-09-18 | 2023-10-24 | 江西农业大学 | 基于知识图谱的文本分类方法、***、存储介质及计算机 |
CN116932767B (zh) * | 2023-09-18 | 2023-12-12 | 江西农业大学 | 基于知识图谱的文本分类方法、***、存储介质及计算机 |
CN117075778A (zh) * | 2023-10-12 | 2023-11-17 | 北京智文创想科技有限公司 | 一种图片文字的信息处理*** |
CN117075778B (zh) * | 2023-10-12 | 2023-12-26 | 北京智文创想科技有限公司 | 一种图片文字的信息处理*** |
CN117236435A (zh) * | 2023-11-08 | 2023-12-15 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
CN117236435B (zh) * | 2023-11-08 | 2024-01-30 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
CN117708280A (zh) * | 2023-11-27 | 2024-03-15 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于知识图谱的输电工作票智能检索方法及*** |
CN117972070A (zh) * | 2024-04-01 | 2024-05-03 | 中国电子科技集团公司第十五研究所 | 一种面向大模型表格问答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115455935A (zh) | 一种文本信息智能处理*** | |
CN110399457B (zh) | 一种智能问答方法和*** | |
CN110442760B (zh) | 一种问答检索***的同义词挖掘方法及装置 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN109271626B (zh) | 文本语义分析方法 | |
US10482115B2 (en) | Providing question and answers with deferred type evaluation using text with limited structure | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
Kowalski | Information retrieval architecture and algorithms | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
US7877383B2 (en) | Ranking and accessing definitions of terms | |
CN109493265A (zh) | 一种基于深度学习的政策解读方法及政策解读*** | |
US20150066895A1 (en) | System and method for automatic fact extraction from images of domain-specific documents with further web verification | |
US20090138466A1 (en) | System and Method for Search | |
US20200004873A1 (en) | Conversational query answering system | |
CN110609983A (zh) | 一种政策文件结构化分解方法 | |
CN116719913A (zh) | 一种基于改进命名实体识别的医疗问答***及其构建方法 | |
CN111553160A (zh) | 一种获取法律领域问句答案的方法和*** | |
Sarkhel et al. | Improving information extraction from visually rich documents using visual span representations | |
CN113963748B (zh) | 一种蛋白质知识图谱向量化方法 | |
Abolhassani et al. | Information extraction and automatic markup for XML documents | |
CN113505195A (zh) | 知识库及其构建、检索方法、基于其的出题方法和*** | |
Liu | Corpus Design of Chinese Medicine English Vocabulary Translation Teaching System Based on Python | |
CN111681731A (zh) | 一种对检查报告进行自动颜色标注的方法 | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |