CN113298914B - 知识组块提取方法、装置、电子设备和存储介质 - Google Patents

知识组块提取方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113298914B
CN113298914B CN202110859647.XA CN202110859647A CN113298914B CN 113298914 B CN113298914 B CN 113298914B CN 202110859647 A CN202110859647 A CN 202110859647A CN 113298914 B CN113298914 B CN 113298914B
Authority
CN
China
Prior art keywords
slide
page
title
knowledge
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110859647.XA
Other languages
English (en)
Other versions
CN113298914A (zh
Inventor
曹梦娣
刘俊辰
陈奇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110859647.XA priority Critical patent/CN113298914B/zh
Publication of CN113298914A publication Critical patent/CN113298914A/zh
Application granted granted Critical
Publication of CN113298914B publication Critical patent/CN113298914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识组块提取方法、装置、电子设备和存储介质。其中,方法包括获取PPTX文档中每页幻灯片的文本信息;其中,所述文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;根据所述文本信息,确定每页幻灯片的知识类别;基于所述知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块。采用本发明提供的方案能利用PPTX文档中的字体格式等信息提取文档中的知识组块,提取更准确。

Description

知识组块提取方法、装置、电子设备和存储介质
技术领域
本发明涉及文件处理技术领域,尤其涉及一种知识组块提取方法、装置、电子设备和存储介质。
背景技术
企业中存在大量的非结构化PPTX文档,如产品介绍、***、解决方案、说明文档、操作手册等。这些文档中包含大量的优质信息,从文档中以知识组块的形式提取出优质信息,能够用于用户后续使用。
但目前,大多数文档挖掘方法都只是利用PPTX文档中的纯文本信息从文档中抽取知识组块,并没有考虑文档中的格式、字体大小、字***置等内容,因此,抽取的知识组块不够准确。
发明内容
为解决相关技术问题,本发明实施例提供一种知识组块提取方法、装置、电子设备和存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种知识组块提取方法,方法包括:
获取PPTX文档中每页幻灯片的文本信息;其中,文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;
根据文本信息,确定每页幻灯片的知识类别;
基于知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块。
上述方案中,根据文本信息,确定每页幻灯片的知识类别包括:
根据文本信息,确定每页幻灯片中标题和关键点;
利用标题和关键点,判断每页幻灯片是否为目录页;
在幻灯片不是目录页的情况下,利用标题和关键点确定幻灯片的知识类别。
上述方案中,根据文本信息,确定每页幻灯片中标题和关键点包括:
将文本信息中文本框的位置在预设范围内的文本框作为第一候选集合;
从第一候选集合中选取位置最顶端的文本框中字数在预设范围内字体最大的文本内容作为标题;
判断标题中有无预设词组;
当标题中有预设词组时,将幻灯片中除标题外的其他文本框中字体最大的文本内容作为关键点;
当标题中没有预设词组时,则在幻灯片中除标题外的其他文本内容的字体大小存在不同时,将除标题外的其他文本内容中字体最大的文本内容作为关键点。
上述方案中,利用标题和关键点,判断每页幻灯片是否为目录页包括:
判断每页幻灯片的标题或关键点中是否存在预设词组,或者判断每页幻灯片是否有标题、关键点个数是否少于预设第一阈值,关键点的字数是否少于预设第二阈值,幻灯片中除标题和关键点之外的正文的字数是否少于预设第三阈值,关键点和正文中是否存在第二预设词组;
当标题或关键点中存在预设词组,或者幻灯片没有标题、关键点个数少于预设第一阈值,关键点的字数少于预设第二阈值,幻灯片中除标题和关键点之外的正文的字数少于预设第三阈值,且关键点和正文中存在第二预设词组时,确定标题或关键点对应的幻灯片为目录页。
上述方案中,基于知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块包括:
根据知识类别,判断每页幻灯片是否为无类别幻灯片;
在幻灯片不是无类别幻灯片的情况下,对幻灯片进行要素抽取,获取幻灯片的知识组块。
上述方案中,对幻灯片进行要素抽取,获取幻灯片的知识组块包括:
获取幻灯片标题中的要素,将标题中的要素作为幻灯片的知识组块;
当幻灯片的标题中没有要素时,获取幻灯片关键点中的要素,将关键点中的要素作为幻灯片的知识组块;
当幻灯片的关键点中没有要素时,获取幻灯片相邻幻灯片的时间要素,将幻灯片相邻幻灯片的时间要素作为幻灯片的知识组块;
当幻灯片相邻幻灯片没有时间要素时,获取幻灯片文件名中的要素,将文件名中的要素作为幻灯片的知识组块。
上述方案中,获取幻灯片相邻幻灯片的时间要素包括:
当幻灯片相邻幻灯片为目录页时,将幻灯片相邻幻灯片的标题中的要素作为幻灯片相邻幻灯片的时间要素;
当幻灯片相邻幻灯片的标题中没有要素时,将幻灯片相邻幻灯片的关键点中的要素作为幻灯片相邻幻灯片的时间要素;
当幻灯片相邻幻灯片的关键点中没有要素时,确定幻灯片相邻幻灯片没有时间要素。
上述方案中,获取幻灯片相邻幻灯片的时间要素包括:
当幻灯片相邻幻灯片不是目录页时,将幻灯片相邻幻灯片的标题中的要素作为幻灯片相邻幻灯片的时间要素;
当幻灯片相邻幻灯片的标题中没有要素时,确定幻灯片相邻幻灯片没有时间要素。
上述方案中,方法还包括:
对连续页相同的知识组块进行合并。
上述方案中,方法还包括:
利用知识图谱对知识组块进行扩展。
本发明实施例还提供了一种知识组块提取装置,知识组块提取装置包括:
获取模块,用于获取PPTX文档中每页幻灯片的文本信息;其中,文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;
确定模块,用于根据文本信息,确定每页幻灯片的知识类别;
抽取模块,用于基于知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块。
本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
处理器用于运行计算机程序时,执行上述任一方法的步骤。
本发明实施例还提供了一种存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时,实现上述任一方法的步骤。
本发明实施例提供的知识组块提取方法、装置、电子设备和存储介质,获取PPTX文档中每页幻灯片的文本信息;其中,文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;根据文本信息,确定每页幻灯片的知识类别;基于知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块。采用本发明提供的方案能利用PPTX文档中的字体格式等信息提取文档中的知识组块,提取更准确。
附图说明
图1为本发明实施例知识组块提取方法的流程示意图;
图2为本发明应用实施例提取流程示意图;
图3为本发明应用实施例提取过程示意图;
图4为本发明实施例知识组块提取装置的结构示意图;
图5为本发明实施例计算机设备的内部结构图。
具体实施方式
下面将结合附图及实施例对本发明作进一步详细的描述。
本发明旨在从非结构化PPTX文档中挖掘知识组块,知识一般包含两部分:要素和类别,例如:金融行业痛点(要素:金融,类别:行业痛点),家用电器的产品案例(要素:家用电器,类别:产品案例)。本发明实施例不仅利用了PPTX文档中的文本信息,还利用了一些格式字体信息等,从而更准确的提取PPTX中的知识组块。并且提取完成后再利用知识图谱进行扩展,使得提取出的知识组块可以用于后续的知识推荐、知识搜索等相关场景。
具体地,本发明实施例提供了一种知识组块提取方法,如图1所示,该方法包括:
步骤101:获取PPTX文档中每页幻灯片的文本信息;其中,文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;
步骤102:根据文本信息,确定每页幻灯片的知识类别;
步骤103:基于知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块。
这里,可以使用PPTX解析库获取PPTX文档中每页幻灯片的文本信息,例如python-pptx。
由于本实施例是利用文档中的格式、字体大小、字***置等信息提取知识组块,文档中的格式、字体大小、字***置等信息可以更准确地确定出重要知识的位置,因此,本实施例提取的知识组块更加准确。
进一步地,在一实施例中,根据文本信息,确定每页幻灯片的知识类别包括:
根据文本信息,确定每页幻灯片中标题和关键点;
利用标题和关键点,判断每页幻灯片是否为目录页;
在幻灯片不是目录页的情况下,利用标题和关键点确定幻灯片的知识类别。
由于目录页无法判断幻灯片的知识类别,因此,本实施例先利用标题和关键点,确定每页幻灯片是否为目录页,仅在幻灯片不是目录页的情况下,利用标题和关键点确定幻灯片的知识类别。
进一步地,在一实施例中,根据文本信息,确定每页幻灯片中标题和关键点包括:
将文本信息中文本框的位置在预设范围内的文本框作为第一候选集合;
从第一候选集合中选取位置最顶端的文本框中字数在预设范围内字体最大的文本内容作为标题;
判断标题中有无预设词组;
当标题中有预设词组时,将幻灯片中除标题外的其他文本框中字体最大的文本内容作为关键点;
当标题中没有预设词组时,则在幻灯片中除标题外的其他文本内容的字体大小存在不同时,将除标题外的其他文本内容中字体最大的文本内容作为关键点。
具体地,可以选取幻灯片中左上一定范围为预设范围。例如,可以选取距离幻灯片页顶部2.2厘米以内,距离幻灯片页左端5厘米以内为预设范围。
根据用户撰写习惯,由于标题的字数不会太长,因此,可以从第一候选集合中选取位置最顶端的文本框中字数在预设范围内字体最大的文本内容作为标题时,这里,可将预设范围设定为小于50字。
具体地,实际应用时,可以先从第一候选集合中选取位置最顶端的文本框,再从位置最顶端的文本框中选择字体最大的文本内容作为标题。这里,选择的文本内容的字数需要在预设范围内(例如50字以内),当选择的文本内容的字数超出预设范围时,不将该选择的文本内容作为标题。
实际应用时,预设词组可以根据情况进行设定,例如将目录、大纲等词语设定为预设词组。
进一步地,在确定标题和关键点后,还可以将幻灯片中除标题和关键点之外的文本框内容确定为正文。具体地,在确定正文时,可以将幻灯片中的其他文本框按位置从上到下从左到右的顺序依次进行文本内容的拼接,将拼接后的内容作为该幻灯片的正文。
在确定标题和关键点后,可以利用标题和关键点,判断每页幻灯片是否为目录页。
具体地,在一实施例中,利用标题和关键点,判断每页幻灯片是否为目录页包括:
判断每页幻灯片的标题或关键点中是否存在预设词组,或者判断每页幻灯片是否有标题、关键点个数是否少于预设第一阈值,关键点的字数是否少于预设第二阈值,幻灯片中除标题和关键点之外的正文的字数是否少于预设第三阈值,关键点和正文中是否存在第二预设词组;
当标题或关键点中存在预设词组,或者幻灯片没有标题、关键点个数少于预设第一阈值,关键点的字数少于预设第二阈值,幻灯片中除标题和关键点之外的正文的字数少于预设第三阈值,且关键点和正文中存在第二预设词组时,确定标题或关键点对应的幻灯片为目录页。
这里,预设词组可以根据情况进行设定,例如可以设定目录、大纲等词语为预设词组。这里设定的词语可与上述实施例中设定的词语相同或不同。另外,第二预设词组可以设定为part/1st/2nd/3rd等。
具体地,在确定幻灯片是否为目录页时,可以按照如下规则进行确定:
1)如果幻灯片的标题中存在预设词组则为目录页;
2)如果幻灯片无标题但关键点中存在预设词组则为目录页;
3)如果幻灯片无标题,关键点个数较少(例如少于3个),关键点和正文字数较少(例如关键点总字数少于10个字,正文总字数少于25个字),第二预设词组出现在关键点或正文中则为目录页。
进一步地,可以利用分类模型确定每页幻灯片是否为目录页。具体地,该分类模型可以通过将每张幻灯片页转为图像格式后,对每张幻灯片人工标注一些数据,利用标注后的幻灯片进行训练后得到。训练后的分类模型能用于判断幻灯片是否为目录页。
此外,在进行目录页的判断之后,可将除目录页之外的其余幻灯片进行知识类别的判断。具体地,可将除目录页之外的其余幻灯片中的标题和关键点输送到知识类别分类器中,判断其知识类别。判断的知识类别可以为无类别、行业痛点、产品简介、产品优势、产品功能、产品案例、产品架构等,具体的类别可以视数据情况或业务需求而定。这里,需要说明的是,目录页不进行知识类别的判断。
这里,知识类别分类器可以通过可用的标注数据集进行训练获得。训练后的知识类别分类器可以用于进行知识类别的判断。
当然,除了使用知识类别分类器外,在没有大量的标注数据的情况下,还可以使用基于关键词的方法进行知识类别的判断。即通过数据探索后,人工确定一批关键词进行知识类别的判断。例如,可以将包含产品概述/简介/介绍/定位等词语的幻灯片判断为产品简介。
在确定每页幻灯片的知识类别后,在一实施例中,基于知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块包括:
根据知识类别,判断每页幻灯片是否为无类别幻灯片;
在幻灯片不是无类别幻灯片的情况下,对幻灯片进行要素抽取,获取幻灯片的知识组块。
由于要素只针对有知识类别的幻灯片抽取,因此,当幻灯片为无类别幻灯片时,不进行要素抽取(即实体识别,给定输入文本,识别文本中的实体),当幻灯片不是无类别幻灯片时,才进行要素抽取,获取幻灯片的知识组块。例如,当知识类别为产品简介、产品优势或产品架构等时,抽取幻灯片中的要素为具体某个产品或项目;当知识类别为行业痛点时,抽取幻灯片中的要素为具体某个行业或业务。
进一步地,在一实施例中,对幻灯片进行要素抽取,获取幻灯片的知识组块包括:
获取幻灯片标题中的要素,将标题中的要素作为幻灯片的知识组块;
当幻灯片的标题中没有要素时,获取幻灯片关键点中的要素,将关键点中的要素作为幻灯片的知识组块;
当幻灯片的关键点中没有要素时,获取幻灯片相邻幻灯片的时间要素,将幻灯片相邻幻灯片的时间要素作为幻灯片的知识组块;
当幻灯片相邻幻灯片没有时间要素时,获取幻灯片文件名中的要素,将文件名中的要素作为幻灯片的知识组块。
实际抽取时,当有可用的数据标注集时,可以利用根据可用的数据标注集进行训练后模型进行要素抽取,例如,训练后的CRF、LSTM+CRF、Bert+CRF等序列标注模型。当无可用的数据标注集时,可以使用基于词典的方式抽取要素,例如,对想要提取的各种类型的实体进行归纳整理,形成词典,利用词典匹配进行要素抽取。
具体地,在确定相邻幻灯片时,可将距离该幻灯片最近的幻灯片作为相邻幻灯片,当距离最近的幻灯片没有时间要素时,将距离第二近的幻灯片作为相邻幻灯片;当距离第二近的幻灯片没有时间要素时,将距离第三近的幻灯片作为相邻幻灯片,以此类推,直至到达设定距离范围的幻灯片。这里,距离范围可以设定为距离当前幻灯片10页范围。
进一步地,在一实施例中,获取幻灯片相邻幻灯片的时间要素包括:
当幻灯片相邻幻灯片为目录页时,将幻灯片相邻幻灯片的标题中的要素作为幻灯片相邻幻灯片的时间要素;
当幻灯片相邻幻灯片的标题中没有要素时,将幻灯片相邻幻灯片的关键点中的要素作为幻灯片相邻幻灯片的时间要素;
当幻灯片相邻幻灯片的关键点中没有要素时,确定幻灯片相邻幻灯片没有时间要素。
与此同时,在一实施例中,获取幻灯片相邻幻灯片的时间要素还包括:
当幻灯片相邻幻灯片不是目录页时,将幻灯片相邻幻灯片的标题中的要素作为幻灯片相邻幻灯片的时间要素;
当幻灯片相邻幻灯片的标题中没有要素时,确定幻灯片相邻幻灯片没有时间要素。
具体地,在实际应用时,还可对连续页相同的知识组块进行合并(即可以修改知识组块的起始页码)。例如三个知识组块,分别以第3页起始以第3页结束的金融行业痛点、以第4页起始以第4页结束的金融行业痛点、以第5页起始以第5页结束的金融行业痛点,可以合并为一个以第3页起始以第5页结束的知识组块。
另外,在获取知识组块后,可利用知识图谱对知识组块进行扩展。
知识图谱是一种基于图的数据结构,由节点和边组成,每个节点表示一个实体,比如员工、产品、公司等,每条边为是实体与实体之间的关系,本质上是一种揭示实体之间关系的语义网络,能够把所有信息连接在一起。
具体地,可利用知识图谱中的节点和关系对知识组件进行扩展。例如,在知识图谱中,A产品是B产品的子产品,那么A产品的知识组块可以扩展为B产品的产品功能。具体扩展方式根据具体的知识图谱确定。
本发明实施例提供的知识组块提取方法,获取PPTX文档中每页幻灯片的文本信息;其中,文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;根据文本信息,确定每页幻灯片的知识类别;基于知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块。采用本发明提供的方案能利用PPTX文档中的字体格式等信息提取文档中的知识组块,提取更准确。
下面结合应用实施例对本发明再作进一步详细的描述。
本应用实施例利用非结构化PPTX文档的文本和格式信息等直接抽取知识组块,并在提取完成后再利用知识图谱进行扩展;相比于从文档中抽取实体、关系等用于扩充知识图谱,或者是基于给出的问题从文档中抽取答案的方式,更加准确。
具体地,参见图2,本应用实施例从非结构化PPTX文档中挖掘知识组块的主要步骤如下:
步骤1:获取PPTX文档中每页幻灯片的文本内容、文本框的位置、字体大小等信息。
步骤2:根据提取的文本内容,对每页幻灯片进行知识类别的判断。
步骤3:根据知识类别,确定要抽取的要素,从而得到该页幻灯片的知识组块。
步骤4:对连续页相同的知识组块进行合并,最后根据知识图谱扩展知识要素。
下面将结合图3详细介绍上述各个步骤。
步骤1:
使用python-pptx解析PPTX文档中每张幻灯片页的内容,记录每个文本框的位置(距离幻灯片顶端和左端的距离),文本框中的文字内容和文本字体大小。
通过观察大量数据以及大多数人编辑文档的惯性规律,总结出抽取标题、关键点和正文的策略如下:
1)标题
首先选取位置在左上预设范围内(距离顶部2.2cm以内,距离左端5cm以内)的文本框作为候选,然后选取最顶端的文本框中字体最大的文本内容作为标题,控制字数在一定范围内(50字以内)。
2)关键点
抽取出标题之后,判断标题中是否存在“目录”、“content”、“大纲”、“outline”等词,如果存在则抽取除标题外其余文本中字体最大的文本内容作为关键点。如果不存在则判断除标题外其余文本字体大小是否相等,如果不相等则将字体最大的文本内容作为关键点。
3)正文
除了标题和关键点之外的文本,按照文本框位置从上到下从左到右的顺序进行文本内容拼接得到。
利用解析得到的内容信息,根据上述规则抽取每页幻灯片的标题、关键点和正文。根据抽取到的标题、关键点、正文等内容进一步判断幻灯片页是否为目录页。通过探查大量的文档数据,总结出粗略判断目录页的策略如下:
1)如果标题中存在content/目录/大纲/outline等词则为目录页;
2)如果无标题但关键点中存在content/目录/大纲/outline等词则为目录页;
3)如果无标题,关键点个数较少(少于3个),关键点和正文字数较少(关键点总字数少于10,正文总字数少于25),part/1st/2nd/3rd等词出现在关键点或正文中则为目录页等。
也可以将每张幻灯片页转为图像格式,人工标注一些数据,训练一个判断是否为目录页的图像二分类模型进行判断。
上述归纳的各种策略中,括号内的预设阈值是通过观察数据归纳总结得到的,在实际应用过程中,可以视具体数据情况进行微调修改。
步骤2:
除了目录页,对于每张幻灯片,将提取的标题和关键点输送到知识类别分类器中,判断其知识类别,如可能为无类别、行业痛点、产品简介、产品优势、产品功能、产品案例、产品架构等,具体的类别可以视数据情况或业务需求而定。(目录页不进行知识类别的判断)
对于知识类别分类器,如果没有大量的标注数据,可以使用基于关键词的方法,通过数据探索人工确定一批关键词进行知识类别的判断,如包含产品概述/简介/介绍/定位等词则判断为产品简介。如果有可用的标注数据集,则可以训练一个知识多分类网络模型进行知识类别的判断。
步骤3:
根据知识类别,除了无类别幻灯片页,抽取该页幻灯片的知识类别对应的要素,如果知识类别为产品简介/产品优势/产品架构等,则抽取要素为具体某个产品或项目,如果知识类别为行业痛点,则抽取要素为具体某个行业或业务。
要素抽取即实体识别,给定输入文本,识别文本中的实体。如果没有大量的标注数据,则使用基于词典的方法,对想要提取的各种类型的实体进行归纳整理,形成词典,利用词典匹配进行实体抽取。如果有可用的标注集,可以训练CRF、LSTM+CRF、Bert+CRF等序列标注模型进行实体抽取。
幻灯片页要素选取的优先级为当页幻灯片标题中的要素->当前幻灯片关键点的要素->时间要素(即将距离当页最近的幻灯片页的时间要素作为当页要素,限制在10页内)->文件名要素(即抽取PPTX文档名的要素)。如果均抽取不到要素,则该页幻灯片不存在知识。下面具体介绍幻灯片页时间要素的抽取方法。
时间要素的抽取:如果当页幻灯片为目录页,则首先抽取标题要素,如果存在则为当页幻灯片的时间要素,如果不存在则抽取关键点要素作为当页幻灯片的时间要素。如果当页幻灯片为非目录页,则只抽取标题要素作为当页幻灯片的时间要素。
综上可知,如果某页幻灯片为非目录页,知识类别不是无类别,且抽取到了要素,则得到一个以该页为开始,以该页为结束的知识组块。
步骤4:
如果连续页的知识组块相同,则进行合并,修改知识组块的起始页码即可。如下面三个知识组块,以第3页起始以第3页结束的金融行业痛点、以第4页起始以第4页结束的金融行业痛点、以第5页起始以第5页结束的金融行业痛点,可以合并为一个以第3页起始以第5页结束的知识组块。
最后根据已经存在的知识图谱,对知识组块进行扩展,比如抽取到的知识组块为A产品的产品功能,而在知识图谱中,A产品是B产品的子产品,那么该知识组块可以扩展为B产品的产品功能。可以根据具体的知识图谱确定如何扩展。
这里,需要说明的是,本实施例除了使用python-pptx库进行内容提取,还可以采用其他PPTX解析库进行内容提取。
本应用实施例利用非结构化PPTX文档的文本和格式信息等抽取知识组块,相比于利用PPTX文档中的纯文本信息抽取知识组块的方式,抽取的知识组块更加准确。
为了实现本发明实施例的方法,本发明实施例还提供了一种知识组块提取装置,如图4所示,知识组块提取装置400包括:获取模块401、确定模块402和抽取模块403;其中,
获取模块401,用于获取PPTX文档中每页幻灯片的文本信息;其中,文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;
确定模块402,用于根据文本信息,确定每页幻灯片的知识类别;
抽取模块403,用于基于知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块。
实际应用时,获取模块401、确定模块402和抽取模块403可由知识组块提取装置中的处理器实现。
需要说明的是:上述实施例提供的上述装置在执行时,仅以上述各程序模块的划分进行举例说明,实际应用时,可以根据需要而将上述处理分配由不同的程序模块完成,即将终端的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的上述装置与上述方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备(计算机设备)。具体地,在一个实施例中,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器A01、网络接口A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作***B01和计算机程序B02。该内存储器A03为非易失性存储介质A06中的操作***B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现上述任意一项实施例的方法。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供的设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任意一项实施例的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
可以理解,本发明实施例的存储器可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,ReadOnly Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccess Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种知识组块提取方法,其特征在于,所述方法包括:
获取PPTX文档中每页幻灯片的文本信息;其中,所述文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;
根据所述文本信息,确定每页幻灯片的知识类别;
基于所述知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块;
其中,所述根据所述文本信息,确定每页幻灯片的知识类别包括:
根据所述文本信息,确定每页幻灯片中的标题和关键点;
利用所述标题和所述关键点,判断每页幻灯片是否为目录页;
在所述幻灯片不是目录页的情况下,利用所述标题和所述关键点确定所述幻灯片的知识类别;
其中,所述利用所述标题和关键点,判断每页幻灯片是否为目录页包括:
判断每页幻灯片的标题或关键点中是否存在预设词组,或者判断每页幻灯片是否有标题、关键点个数是否少于预设第一阈值,关键点的字数是否少于预设第二阈值,幻灯片中除标题和关键点之外的正文的字数是否少于预设第三阈值,关键点和正文中是否存在第二预设词组;
当标题或关键点中存在预设词组,或者幻灯片没有标题、关键点个数少于预设第一阈值,关键点的字数少于预设第二阈值,幻灯片中除标题和关键点之外的正文的字数少于预设第三阈值,且关键点和正文中存在第二预设词组时,确定所述标题或关键点对应的幻灯片为目录页。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本信息,确定每页幻灯片中的标题和关键点包括:
将所述文本信息中文本框的位置在预设范围内的文本框作为第一候选集合;
从所述第一候选集合中选取位置最顶端的文本框中字数在预设范围内字体最大的文本内容作为标题;
判断所述标题中有无预设词组;
当所述标题中有预设词组时,将所述幻灯片中除标题外的其他文本框中字体最大的文本内容作为关键点;
当所述标题中没有预设词组时,则在所述幻灯片中除标题外的其他文本内容的字体大小存在不同时,将所述除标题外的其他文本内容中字体最大的文本内容作为关键点。
3.根据权利要求1所述的方法,其特征在于,所述基于所述知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块包括:
根据所述知识类别,判断每页幻灯片是否为无类别幻灯片;
在所述幻灯片不是无类别幻灯片的情况下,对所述幻灯片进行要素抽取,获取所述幻灯片的知识组块。
4.根据权利要求3所述的方法,其特征在于,所述对所述幻灯片进行要素抽取,获取所述幻灯片的知识组块包括:
获取所述幻灯片标题中的要素,将所述标题中的要素作为所述幻灯片的知识组块;
当所述幻灯片的标题中没有要素时,获取所述幻灯片关键点中的要素,将所述关键点中的要素作为所述幻灯片的知识组块;
当所述幻灯片的关键点中没有要素时,获取所述幻灯片相邻幻灯片的时间要素,将所述幻灯片相邻幻灯片的时间要素作为所述幻灯片的知识组块;
当所述幻灯片相邻幻灯片没有时间要素时,获取所述幻灯片文件名中的要素,将所述文件名中的要素作为所述幻灯片的知识组块。
5.根据权利要求4所述的方法,其特征在于,所述获取所述幻灯片相邻幻灯片的时间要素包括:
当所述幻灯片相邻幻灯片为目录页时,将所述幻灯片相邻幻灯片的标题中的要素作为所述幻灯片相邻幻灯片的时间要素;
当所述幻灯片相邻幻灯片的标题中没有要素时,将所述幻灯片相邻幻灯片的关键点中的要素作为所述幻灯片相邻幻灯片的时间要素;
当所述幻灯片相邻幻灯片的关键点中没有要素时,确定所述幻灯片相邻幻灯片没有时间要素。
6.根据权利要求4所述的方法,其特征在于,所述获取所述幻灯片相邻幻灯片的时间要素包括:
当所述幻灯片相邻幻灯片不是目录页时,将所述幻灯片相邻幻灯片的标题中的要素作为所述幻灯片相邻幻灯片的时间要素;
当所述幻灯片相邻幻灯片的标题中没有要素时,确定所述幻灯片相邻幻灯片没有时间要素。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对连续页相同的知识组块进行合并。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用知识图谱对所述知识组块进行扩展。
9.一种知识组块提取装置,其特征在于,所述知识组块提取装置包括:
获取模块,用于获取PPTX文档中每页幻灯片的文本信息;其中,所述文本信息包括幻灯片中文本框中的文字内容、文本框的位置和文本框中字体大小;
确定模块,用于根据所述文本信息,确定每页幻灯片的知识类别;
抽取模块,用于基于所述知识类别,对每页幻灯片进行要素抽取,获取每页幻灯片的知识组块;
其中,所述确定模块还用于:
根据所述文本信息,确定每页幻灯片中的标题和关键点;
利用所述标题和所述关键点,判断每页幻灯片是否为目录页;
在所述幻灯片不是目录页的情况下,利用所述标题和所述关键点确定所述幻灯片的知识类别;
其中,所述确定模块还用于:
判断每页幻灯片的标题或关键点中是否存在预设词组,或者判断每页幻灯片是否有标题、关键点个数是否少于预设第一阈值,关键点的字数是否少于预设第二阈值,幻灯片中除标题和关键点之外的正文的字数是否少于预设第三阈值,关键点和正文中是否存在第二预设词组;
当标题或关键点中存在预设词组,或者幻灯片没有标题、关键点个数少于预设第一阈值,关键点的字数少于预设第二阈值,幻灯片中除标题和关键点之外的正文的字数少于预设第三阈值,且关键点和正文中存在第二预设词组时,确定所述标题或关键点对应的幻灯片为目录页。
10.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至8任一项所述方法的步骤。
11.一种存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至8任一项所述方法的步骤。
CN202110859647.XA 2021-07-28 2021-07-28 知识组块提取方法、装置、电子设备和存储介质 Active CN113298914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110859647.XA CN113298914B (zh) 2021-07-28 2021-07-28 知识组块提取方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110859647.XA CN113298914B (zh) 2021-07-28 2021-07-28 知识组块提取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113298914A CN113298914A (zh) 2021-08-24
CN113298914B true CN113298914B (zh) 2021-10-15

Family

ID=77331271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110859647.XA Active CN113298914B (zh) 2021-07-28 2021-07-28 知识组块提取方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113298914B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111209411A (zh) * 2020-01-03 2020-05-29 北京明略软件***有限公司 一种文档分析的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190006027A1 (en) * 2017-06-30 2019-01-03 Accenture Global Solutions Limited Automatic identification and extraction of medical conditions and evidences from electronic health records
CN107358208B (zh) * 2017-07-14 2018-07-13 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN109101491B (zh) * 2018-07-24 2021-12-17 湖南星汉数智科技有限公司 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111209411A (zh) * 2020-01-03 2020-05-29 北京明略软件***有限公司 一种文档分析的方法及装置

Also Published As

Publication number Publication date
CN113298914A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及***
AU2016203856B2 (en) System and method for automating information abstraction process for documents
US10789281B2 (en) Regularities and trends discovery in a flow of business documents
US20170337260A1 (en) Method and device for storing data
US20130305149A1 (en) Document reader and system for extraction of structural and semantic information from documents
US10572528B2 (en) System and method for automatic detection and clustering of articles using multimedia information
CN101271459A (zh) 一种生成词库的方法、一种输入的方法和一种输入法***
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
CN111178079B (zh) 一种三元组抽取方法及装置
CN108304530B (zh) 知识库词条分类方法和装置、模型训练方法和装置
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN116484808A (zh) 一种公文用可控文本生成方法及装置
Chua et al. DeepCPCFG: deep learning and context free grammars for end-to-end information extraction
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN113298914B (zh) 知识组块提取方法、装置、电子设备和存储介质
CN116757183A (zh) 项目信息处理方法及装置
US6470362B1 (en) Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置
Modi et al. Multimodal web content mining to filter non-learning sites using NLP
CN113468377A (zh) 一种视频与文献关联整合方法
CN113723047A (zh) 一种基于法律文件的图谱构建方法、设备及介质
CN110968691B (zh) 司法热点确定方法及装置
CN111241313A (zh) 支持图像录入的检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant