CN113486148A - Pdf文件的转换方法、装置、电子设备以及计算机可读介质 - Google Patents
Pdf文件的转换方法、装置、电子设备以及计算机可读介质 Download PDFInfo
- Publication number
- CN113486148A CN113486148A CN202110769021.XA CN202110769021A CN113486148A CN 113486148 A CN113486148 A CN 113486148A CN 202110769021 A CN202110769021 A CN 202110769021A CN 113486148 A CN113486148 A CN 113486148A
- Authority
- CN
- China
- Prior art keywords
- text
- paragraph
- character
- block
- pdf file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 26
- 230000004931 aggregating effect Effects 0.000 claims abstract description 10
- 238000013145 classification model Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 18
- 238000012015 optical character recognition Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了PDF文件的转换方法、装置、电子设备以及计算机可读介质,涉及自然语言处理技术领域。该方法的一具体实施方式包括:对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;从所述各个段落中抽取出编号和所述编号对应的标题;根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。该实施方式能够解决无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及PDF文件的转换方法、装置、电子设备以及计算机可读介质。
背景技术
目前,通常采用OCR将PDF文件的页面内容从图片识别为文字,然后通过关键词检索到包含关键词的文字内容。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1)PDF文件内容是复印件形式,不能直接进行文件内的文字检索;
2)无法获知文件的层级结构,检索的结果是文字片段,片段内容不是完整的文字信息,无法快速地获知完整内容以及上下文语境,极大地削弱了信息检索利用的效率。
发明内容
有鉴于此,本发明实施例提供一种PDF文件的转换方法、装置、电子设备以及计算机可读介质,以解决无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种PDF文件的转换方法,包括:
对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;
根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;
从所述各个段落中抽取出编号和所述编号对应的标题;
根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
可选地,对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容,包括:
以页为单位,将PDF文件转换为多个连续的图片文件;
对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。
可选地,根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落,包括:
对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量;
对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。
可选地,从所述各个段落中抽取出编号以及所述编号对应的标题,包括:
通过经过训练的Bi-LSTM-CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。
可选地,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容,包括:
对所述各个段落的文字内容进行向量化,得到所述各个段落的向量;
对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应的标题输入到文本分类模型中,输出所述段落是否归于上一层级或者下一层级,从而形成具有层级结构的文字内容。
可选地,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容之后,还包括:
将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎。
可选地,将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎之后,还包括:
根据用户输入的目标层级和/或关键词,通过所述全文检索引擎检索出所述目标层级和/或所述关键词对应的检索结果;
响应用户点击任意一项检索结果,展示所述层级结构、所述任意一项检索结果对应的文字内容以及所述任意一项检索结果对应的文字内容在所述PDF文件中的位置区域。
另外,根据本发明实施例的另一个方面,提供了一种PDF文件的转换装置,包括:
识别模块,用于对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;
聚合模块,用于根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;
抽取模块,用于从所述各个段落中抽取出编号和所述编号对应的标题;
转换模块,用于根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
可选地,所述识别模块还用于:
以页为单位,将PDF文件转换为多个连续的图片文件;
对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。
可选地,所述聚合模块还用于:
对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量;
对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。
可选地,所述抽取模块还用于:
通过经过训练的Bi-LSTM-CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。
可选地,所述转换模块还用于:
对所述各个段落的文字内容进行向量化,得到所述各个段落的向量;
对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应的标题输入到文本分类模型中,输出所述段落是否归于上一层级或者下一层级,从而形成具有层级结构的文字内容。
可选地,还包括检索模块,用于:
根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容之后,将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎。
可选地,所述检索模块还用于:
将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎之后,根据用户输入的目标层级和/或关键词,通过所述全文检索引擎检索出所述目标层级和/或所述关键词对应的检索结果;
响应用户点击任意一项检索结果,展示所述层级结构、所述任意一项检索结果对应的文字内容以及所述任意一项检索结果对应的文字内容在所述PDF文件中的位置区域。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现上述任一实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用从各个段落中抽取出编号和编号对应的标题,根据各个段落及其对应的编号和编号对应的标题形成具有层级结构的文字内容的技术手段,所以克服了现有技术中无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。本发明实施例综合运用了OCR和NLP技术,基于文本的内容及文本的相对位置信息,将PDF文件转换为结构化、层次化的文字内容,使得用户可以完整地获知文件中的文字内容以及上下文语境,极大地提高了文本检索的效果和信息利用效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的PDF文件的转换方法的主要流程的示意图;
图2是根据本发明实施例的文字识别结果的示意图;
图3是根据本发明一个可参考实施例的PDF文件的转换方法的主要流程的示意图;
图4是根据本发明另一个可参考实施例的PDF文件的转换方法的主要流程的示意图;
图5是根据本发明实施例的通过全文检索引擎检索出检索结果的示意图;
图6是根据本发明实施例的详情页的示意图;
图7是根据本发明实施例的PDF文件的转换装置的主要模块的示意图;
图8是本发明实施例可以应用于其中的示例性***架构图;
图9是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的PDF文件的转换方法的主要流程的示意图。作为本发明的一个实施例,如图1所示,所述PDF文件的转换方法可以包括:
步骤101,对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容。
首先,对待转换的PDF文件进行文字识别,比如采用OCR对PDF文件中每页内容进行文字识别,从而得到各个文字块的像素坐标以及各个文字块中的文字内容。
可选地,步骤101可以包括:以页为单位,将PDF文件转换为多个连续的图片文件;对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。通常来说,PDF文件内容是复印件形式,不能直接进行文件内的文字检索,因此需要以页为单位,将PDF文件转换为多个连续的图片文件,例如某个60页的PDF文件,将其转换为连续的60个jpg图片文件;然后对图片文件进行OCR识别,从而输出各个文字块的像素坐标以及各个文字块中的文字内容。
如图2所示,像素坐标是以图片的左上角为坐标原点(0,0),文字块可以通过四个角的像素坐标唯一定位,并可以体现相邻文字块之间的相对位置关系。需要说明的是,图2中的上半部分是文字识别的真实举例,下半部分是识别的结果细节展示,其中text是文本内容,type是指印刷体/手写体,score是置信度(***对识别结果的打分,一般在0~1000分,分数越高,代表识别正确的可能性越高),coords是四个角的像素坐标。
步骤102,根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落。
在该步骤中,根据步骤101中的识别结果(即各个文字块的像素坐标以及文字内容),对各个文字块进行聚合,判断各个文字块是否归于同一段落,从而将各个文件块聚合成各个段落。
可选地,步骤102可以包括:对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量;对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。具体地,可以采用BERT算法对各个文字块的文字内容进行向量化(词嵌入),从而得到各个文字块的文字含义;然后以文字块的向量和文字块的像素坐标作为文本分类模型的输入,通过文本分类模型输出文字块是否归于上一段落或者下一段落,从而根据文本分类模型的输出结果形成各个段落。
需要指出的是,所述文本分类模型需要预先进行有监督训练。具体地,人工标注大量的输入输出样本,构建文本分类模型,并进行训练,训练结果是一个模型文件,功能是对于新的、没有人工标注的文字块,实现文字块的段落化。可选地,所述文本分类模型为Transformer-CRF模型,通过该模型可以将各个文字块准确地聚合为一个一个段落。
步骤103,从所述各个段落中抽取出编号和所述编号对应的标题。
通常来说,每个段落中都会包含编号,有些段落中会包含编号以及编号对应的标题,有些段落既不会有编号也不会有标题,因此可以通过预先训练好的抽取模型从各个段落中抽取出编号和编号对应的标题,这些编号和编号对应的标题用于形成层级结构(类似树级目录)。
可选地,步骤103可以包括:通过经过训练的Bi-LSTM-CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。需要指出的是,所述Bi-LSTM-CRF模型需要预先进行有监督训练。具体地,人工标注大量的段落中的编号和编号对应的标题,构建Bi-LSTM-CRF模型并进行训练,该模型的功能是从段落中抽取出编号和编号对应的标题。
可选地,编号可以数字、英文字母或者罗马数字等,本发明实施例对此不作限制。需要说明的是,同一个编号可能会重复出现,比如“(a)”这种编号会在不同的层级重复出现,所以不能简单地通过编号得到层级结构,还需要结合编号对应的标题。
步骤104,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
每个层级可能包括一个段落,也可能包括多个段落,为了展示完整的层级结构,本发明实施例根据各个段落及其对应的编号和所述编号对应的标题,对各个段落进行聚合,从而形成具有层级结构的文字内容,因此每个层级的文字内容包括至少一个段落。
可选地,步骤104可以包括:对所述各个段落的文字内容进行向量化,得到所述各个段落的向量;对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应的标题输入到文本分类模型中,输出所述段落是否归于上一层级或者下一层级,从而形成具有层级结构的文字内容。
具体地,可以采用BERT算法对各个段落的文字内容进行向量化(词嵌入),从而得到各个段落的文字含义;然后以段落的向量、段落的像素坐标(段落内最边缘的文字块的像素坐标)和从段落中抽取出的编号和所述编号对应的标题(部分段落该项为空)作为文本分类模型的输入,通过文本分类模型输出段落是否归于上一层级或者下一层级,从而根据文本分类模型的输出结果形成具有层级结构的文字内容。
需要指出的是,所述文本分类模型需要预先进行有监督训练。具体地,人工标注大量的输入输出样本,构建文本分类模型,并进行训练,训练结果是一个模型文件,功能是对于新的、没有人工标注的段落,实现段落的结构化、层级化。可选地,所述文本分类模型为Transformer-CRF模型,通过该模型可以将各个段落准确地聚合为一个一个层级。
至此,一个PDF文件就被转换为结构化、层次化的文字内容,最小的颗粒度是最小层级的文字内容。
根据上面所述的各种实施例,可以看出本发明实施例通过从各个段落中抽取出编号和编号对应的标题,根据各个段落及其对应的编号和编号对应的标题形成具有层级结构的文字内容的技术手段,解决了现有技术中无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。本发明实施例综合运用了OCR和NLP技术,基于文本的内容及文本的相对位置信息,将PDF文件转换为结构化、层次化的文字内容,使得用户可以完整地获知文件中的文字内容以及上下文语境,极大地提高了文本检索的效果和信息利用效率。
图3是根据本发明一个可参考实施例的PDF文件的转换方法的主要流程的示意图。作为本发明的又一个实施例,如图3所示,所述PDF文件的转换方法可以包括:
步骤301,以页为单位,将PDF文件转换为多个连续的图片文件。
接收上传的PDF文件,以页为单位,将该PDF文件转换为多个连续的图片文件。
步骤302,对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。
将PDF文件转换为多个连续的图片文件之后,对图片文件进行OCR识别,从而输出各个文字块的像素坐标以及各个文字块中的文字内容。像素坐标是以图片的左上角为坐标原点(0,0),文字块可以通过四个角的像素坐标唯一定位,并可以体现相邻文字块之间的相对位置关系。
步骤303,对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量。
可以采用BERT算法对各个文字块的文字内容进行向量化,从而得到各个文字块的文字含义。
步骤304,对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。
所述文本分类模型需要预先进行有监督训练,训练过程不再赘述。本发明实施例通过文字块的向量和像素坐标来判断文字块是否归于上一段落或者下一段落,这样可以准确地对文字块进行聚合,从而形成各个段落。可选地,所述文本分类模型为Transformer-CRF模型,通过该模型可以将各个文字块准确地聚合为一个一个段落。
步骤305,通过经过训练的Bi-LSTM-CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。
可以通过预先训练好的抽取模型(比如Bi-LSTM-CRF模型)从各个段落中抽取出编号和编号对应的标题,这些编号和编号对应的标题用于形成层级结构。如果所述PDF文件为法律文件,那么可以从各个段落中抽取出条款编号以及条款编号对应的条款标题。
需要指出的是,有些段落既没有条款编号、也没有条款标题,有些段落只有条款编号,有些段落既有条款编号、又有条款标题,通过Bi-LSTM-CRF模型可以从各个段落中准确地抽取出条款编号以及所述条款编号对应的标题,或者,条款编号。可选地,条款编号可以数字、英文字母或者罗马数字等,本发明实施例对此不作限制。所述Bi-LSTM-CRF模型需要预先进行有监督训练,训练过程不再赘述。
步骤306,对所述各个段落的文字内容进行向量化,得到所述各个段落的向量。
可选地,可以采用BERT算法对各个段落的文字内容进行向量化,从而得到各个段落的文字含义。
步骤307,对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应的标题输入到文本分类模型中,输出所述段落是否归于上一层级或者下一层级,从而形成具有层级结构的文字内容。
所述文本分类模型需要预先进行有监督训练,训练过程不再赘述。本发明实施例通过段落的向量、段落的像素坐标和从段落中抽取出的编号和所述编号对应的标题来判断段落是否归于上一层级或者下一层级,这样可以准确地对段落进行聚合,从而形成具有层级结构的文字内容。可选地,所述文本分类模型为Transformer-CRF模型,通过该模型可以将各个段落准确地聚合为一个一个层级。
另外,在本发明一个可参考实施例中PDF文件的转换方法的具体实施内容,在上面所述PDF文件的转换方法中已经详细说明了,故在此重复内容不再说明。
图4是根据本发明另一个可参考实施例的PDF文件的转换方法的主要流程的示意图。作为本发明的另一个实施例,如图4所示,所述PDF文件的转换方法可以包括:
步骤401,对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容。
接收上传的PDF文件,对该PDF文件进行文字识别,比如采用OCR对PDF文件中每页内容进行文字识别,从而得到各个文字块的像素坐标以及各个文字块中的文字内容。通常来说,PDF文件内容是复印件形式,不能直接进行文件内的文字检索,因此需要以页为单位,将PDF文件转换为多个连续的图片文件,然后对图片文件进行OCR识别,从而输出各个文字块的像素坐标以及各个文字块中的文字内容。
步骤402,根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落。
在该步骤中,根据步骤401中的识别结果(即各个文字块的像素坐标以及文字内容),对各个文字块进行聚合,判断各个文字块是否归于同一段落,从而将各个文件块聚合成各个段落。
步骤403,从所述各个段落中抽取出编号和所述编号对应的标题。
通常地,每个段落中都会包含编号,有些段落中会包含编号以及编号对应的标题,有些段落既不会有编号也不会有标题,因此可以通过预先训练好的抽取模型从各个段落中抽取出编号和编号对应的标题,这些编号和编号对应的标题用于形成层级结构。
步骤404,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
每个层级可能包括一个段落,也可能包括多个段落,为了展示完整的层级结构,本发明实施例根据各个段落及其对应的编号和所述编号对应的标题,对各个段落进行聚合,从而形成具有层级结构的文字内容,因此每个层级的文字内容包括至少一个段落。
步骤405,将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎。
将PDF文件中的编号、编号对应的标题以及文字内容全部导入全文检索引擎。如果PDF文件为法律文件,将条款编号、条款标题、条款内容导入全文检索引擎(比如ElasticSearch全文检索引擎)。
步骤406,根据用户输入的目标层级和/或关键词,通过所述全文检索引擎检索出所述目标层级和/或所述关键词对应的检索结果。
用户可以通过全文检索引擎检索文字内容,比如用户可以输入目标层级、关键词或者标题等,通过全文检索引擎检索出对应的检索结果。如图5所示,以法律文件为例,用户可以输入法律条款的层级和关键词,输出的检索结果是包含关键词的、选定层级颗粒度的法律条款列表,排序是尊重原文的条款先后顺序。进一步地,还可以增加过滤字段,比如时间、国家等,以提高检索的准确性。
步骤407,响应用户点击任意一项检索结果,展示所述层级结构、所述任意一项检索结果对应的文字内容以及所述任意一项检索结果对应的文字内容在所述PDF文件中的位置区域。
选中如图5所示中的列表中的某个条款后,弹出详情页,如图6所示,详情页的左侧是层级结构的目录(包含条款编号和条款标题),右侧上方是条款内容,下方是PDF文件中对应的位置区域。
本发明综合运用了OCR和NLP技术,基于文本的内容及文本的相对位置信息,将PDF文件转换为结构化、层次化的文字内容,检索结果以条款而非一般文字片段呈现;而且结构化、层次化的信息以直观灵活地方式展示,用户可以获知条款的完整内容以及上下文语境,极大地提高了法律文本检索的效果和信息利用效率。
另外,在本发明另一个可参考实施例中PDF文件的转换方法的具体实施内容,在上面所述PDF文件的转换方法中已经详细说明了,故在此重复内容不再说明。
图7是根据本发明实施例的PDF文件的转换装置的主要模块的示意图,如图7所示,所述PDF文件的转换装置700包括识别模块701、聚合模块702、抽取模块703和转换模块704;其中,识别模块701用于对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;聚合模块702用于根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;抽取模块703用于从所述各个段落中抽取出编号和所述编号对应的标题;转换模块704用于根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
可选地,所述识别模块701还用于:
以页为单位,将PDF文件转换为多个连续的图片文件;
对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。
可选地,所述聚合模块702还用于:
对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量;
对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。
可选地,所述抽取模块703还用于:
通过经过训练的Bi-LSTM-CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。
可选地,所述转换模块704还用于:
对所述各个段落的文字内容进行向量化,得到所述各个段落的向量;
对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应的标题输入到文本分类模型中,输出所述段落是否归于上一层级或者下一层级,从而形成具有层级结构的文字内容。
可选地,还包括检索模块,用于:
根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容之后,将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎。
可选地,所述检索模块还用于:
将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎之后,根据用户输入的目标层级和/或关键词,通过所述全文检索引擎检索出所述目标层级和/或所述关键词对应的检索结果;
响应用户点击任意一项检索结果,展示所述层级结构、所述任意一项检索结果对应的文字内容以及所述任意一项检索结果对应的文字内容在所述PDF文件中的位置区域。
根据上面所述的各种实施例,可以看出本发明实施例通过从各个段落中抽取出编号和编号对应的标题,根据各个段落及其对应的编号和编号对应的标题形成具有层级结构的文字内容的技术手段,解决了现有技术中无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。本发明实施例综合运用了OCR和NLP技术,基于文本的内容及文本的相对位置信息,将PDF文件转换为结构化、层次化的文字内容,使得用户可以完整地获知文件中的文字内容以及上下文语境,极大地提高了文本检索的效果和信息利用效率。
需要说明的是,在本发明所述PDF文件的转换装置的具体实施内容,在上面所述PDF文件的转换方法中已经详细说明了,故在此重复内容不再说明。
图8示出了可以应用本发明实施例的PDF文件的转换方法或PDF文件的转换装置的示例性***架构800。
如图8所示,***架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的PDF文件的转换方法一般由服务器805执行,相应地,所述PDF文件的转换装置一般设置在服务器805中。本发明实施例所提供的PDF文件的转换方法也可以由终端设备801、802、803执行,相应地,所述PDF文件的转换装置可以设置在终端设备801、802、803中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用来实现本发明实施例的终端设备的计算机***900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机***900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有***900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括识别模块、聚合模块、抽取模块和转换模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,该设备实现如下方法:对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;从所述各个段落中抽取出编号和所述编号对应的标题;根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
根据本发明实施例的技术方案,因为采用从各个段落中抽取出编号和编号对应的标题,根据各个段落及其对应的编号和编号对应的标题形成具有层级结构的文字内容的技术手段,所以克服了现有技术中无法获知文件的层级结构和检索结果缺少上下文语境的技术问题。本发明实施例综合运用了OCR和NLP技术,基于文本的内容及文本的相对位置信息,将PDF文件转换为结构化、层次化的文字内容,使得用户可以完整地获知文件中的文字内容以及上下文语境,极大地提高了文本检索的效果和信息利用效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种PDF文件的转换方法,其特征在于,包括:
对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;
根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;
从所述各个段落中抽取出编号和所述编号对应的标题;
根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
2.根据权利要求1所述的方法,其特征在于,对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容,包括:
以页为单位,将PDF文件转换为多个连续的图片文件;
对所述图片文件进行文字识别,从而输出所述图片文件中各个文字块的像素坐标以及文字内容。
3.根据权利要求1所述的方法,其特征在于,根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落,包括:
对所述各个文字块的文字内容进行向量化,得到所述各个文字块的向量;
对于任意一个文字块,将所述文字块的向量和像素坐标输入到文本分类模型中,输出所述文字块是否归于上一段落或者下一段落,从而形成各个段落。
4.根据权利要求1所述的方法,其特征在于,从所述各个段落中抽取出编号以及所述编号对应的标题,包括:
通过经过训练的Bi-LSTM-CRF模型从所述各个段落中抽取出编号以及所述编号对应的标题。
5.根据权利要求1所述的方法,其特征在于,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容,包括:
对所述各个段落的文字内容进行向量化,得到所述各个段落的向量;
对于任意一个段落,将所述段落的向量、所述段落内最边缘的文字块的像素坐标以及从所述段落中抽取出的编号和所述编号对应的标题输入到文本分类模型中,输出所述段落是否归于上一层级或者下一层级,从而形成具有层级结构的文字内容。
6.根据权利要求1所述的方法,其特征在于,根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容之后,还包括:
将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎。
7.根据权利要求6所述的方法,其特征在于,将所述编号和所述编号对应的标题以及文字内容导入全文检索引擎之后,还包括:
根据用户输入的目标层级和/或关键词,通过所述全文检索引擎检索出所述目标层级和/或所述关键词对应的检索结果;
响应用户点击任意一项检索结果,展示所述层级结构、所述任意一项检索结果对应的文字内容以及所述任意一项检索结果对应的文字内容在所述PDF文件中的位置区域。
8.一种PDF文件的转换装置,其特征在于,包括:
识别模块,用于对PDF文件进行文字识别,从而输出各个文字块的像素坐标以及文字内容;
聚合模块,用于根据所述各个文字块的像素坐标以及文字内容,对所述各个文字块进行聚合,形成各个段落;
抽取模块,用于从所述各个段落中抽取出编号和所述编号对应的标题;
转换模块,用于根据所述各个段落及其对应的编号和所述编号对应的标题,形成具有层级结构的文字内容。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110769021.XA CN113486148A (zh) | 2021-07-07 | 2021-07-07 | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110769021.XA CN113486148A (zh) | 2021-07-07 | 2021-07-07 | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486148A true CN113486148A (zh) | 2021-10-08 |
Family
ID=77941755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110769021.XA Pending CN113486148A (zh) | 2021-07-07 | 2021-07-07 | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486148A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462383A (zh) * | 2022-04-12 | 2022-05-10 | 江西少科智能建造科技有限公司 | 建筑图纸设计说明书获取方法、***、存储介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334346A (zh) * | 2019-06-26 | 2019-10-15 | 京东数字科技控股有限公司 | 一种pdf文件的信息抽取方法和装置 |
CN112434691A (zh) * | 2020-12-02 | 2021-03-02 | 上海三稻智能科技有限公司 | 基于智能解析识别的hs编码匹配、展示方法、***及存储介质 |
CN112926471A (zh) * | 2021-03-05 | 2021-06-08 | 中国工商银行股份有限公司 | 业务单据影像内容识别方法及装置 |
-
2021
- 2021-07-07 CN CN202110769021.XA patent/CN113486148A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334346A (zh) * | 2019-06-26 | 2019-10-15 | 京东数字科技控股有限公司 | 一种pdf文件的信息抽取方法和装置 |
CN112434691A (zh) * | 2020-12-02 | 2021-03-02 | 上海三稻智能科技有限公司 | 基于智能解析识别的hs编码匹配、展示方法、***及存储介质 |
CN112926471A (zh) * | 2021-03-05 | 2021-06-08 | 中国工商银行股份有限公司 | 业务单据影像内容识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462383A (zh) * | 2022-04-12 | 2022-05-10 | 江西少科智能建造科技有限公司 | 建筑图纸设计说明书获取方法、***、存储介质及设备 |
CN114462383B (zh) * | 2022-04-12 | 2022-07-08 | 江西少科智能建造科技有限公司 | 建筑图纸设计说明书获取方法、***、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151177B2 (en) | Search method and apparatus based on artificial intelligence | |
CN106960030B (zh) | 基于人工智能的推送信息方法及装置 | |
CN106649890B (zh) | 数据存储方法和装置 | |
CN106708940B (zh) | 用于处理图片的方法和装置 | |
CN108628830B (zh) | 一种语义识别的方法和装置 | |
US11055373B2 (en) | Method and apparatus for generating information | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
US20220284218A1 (en) | Video classification method, electronic device and storage medium | |
CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
CN110688449A (zh) | 基于深度学习的地址文本处理方法、装置、设备及介质 | |
CN108334489B (zh) | 文本核心词识别方法和装置 | |
CN111177532A (zh) | 一种垂直搜索方法、装置、计算机***及可读存储介质 | |
US11599727B2 (en) | Intelligent text cleaning method and apparatus, and computer-readable storage medium | |
CN112395420A (zh) | 视频内容检索方法、装置、计算机设备及存储介质 | |
CN110020312B (zh) | 提取网页正文的方法和装置 | |
US20230206670A1 (en) | Semantic representation of text in document | |
EP3961426A2 (en) | Method and apparatus for recommending document, electronic device and medium | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN109902152B (zh) | 用于检索信息的方法和装置 | |
CN110737824A (zh) | 内容查询方法和装置 | |
CN110910178A (zh) | 一种生成广告的方法和装置 | |
CN113486148A (zh) | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 | |
CN111783433A (zh) | 一种文本检索纠错方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |