CN113641783A - 基于关键语句的内容块检索方法、装置、设备和介质 - Google Patents
基于关键语句的内容块检索方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN113641783A CN113641783A CN202010345947.1A CN202010345947A CN113641783A CN 113641783 A CN113641783 A CN 113641783A CN 202010345947 A CN202010345947 A CN 202010345947A CN 113641783 A CN113641783 A CN 113641783A
- Authority
- CN
- China
- Prior art keywords
- content block
- title
- content
- key
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于关键语句的内容块检索方法、装置、设备和介质。该方法包括:基于关键语句的相关度评分模型,得到待检索文档的内容块与关键语句的相关度评分,其中,内容块包括文字段落、标题、表格、图表、图片中的至少一个;基于内容块与关键语句的相关度评分,从内容块中确定关键语句相关的目标内容块;将目标内容块作为待检索文档中关键语句的内容块检索结果。根据本发明实施例提供的基于关键语句的内容块检索方法、装置、设备和介质,可以提高文档的检索准确度。
Description
技术领域
本发明涉及数据处理领域,尤其涉及基于关键语句的内容块检索方法、装置、设备和介质。
背景技术
为了能够在待检索文档中获取用户需要的内容,需要用户在文档工具中手动输入关键词,从而在待检索文档中查找到关键词相关的位置。以WORD文档为例,可以利用WORD文档自带的“查找”功能,在文档中确定关键词的查找结果。例如关键词所在语句等。检索准确度较低。
发明内容
本发明实施例提供的基于关键语句的内容块检索方法、装置、设备和介质,可以提高文档的内容块检索准确度。
第一方面,提供一种基于关键语句的内容块检索方法、装置、设备和介质方法,包括:基于关键语句的相关度评分模型,得到待检索文档的内容块与关键语句的相关度评分,其中,内容块包括文字段落、标题、表格、图表、图片中的至少一个;基于内容块与关键语句的相关度评分,从内容块中确定关键语句相关的目标内容块;将目标内容块作为待检索文档中关键语句的内容块检索结果。
根据本发明实施例中的基于关键语句的内容块检索方法,可以利用关键语句的相关度评分模型计算待检索文档中的内容块与关键语句的相关度评分。再基于相关度评分模型从待检索文档中选出与关键语句相关的目标内容块。由于相关度评分可以准确地表征内容块与关键语句的相关程度,相较于在待检索文档中查找关键词的方法,能够提高内容块检索准确度。
在一种可选的实施方式中,基于关键语句的相关度评分模型,得到待检索文档的内容块与关键语句的相关度评分,包括:提取待检索文档的内容块的特征;将内容块的特征输入至相关度评分模型,得到内容块与关键语句的相关度评分。
在本示例中,通过提取内容块的特征,再利用内容块的特征计算该内容块与关键语句的相关度评分,能够保证相关度评分的计算准确度,也能提高计算速度。
在一种可选的实施方式中,内容块的特征包括以下至少一者:内容块的词特征,内容块的上下文词特征和内容块对应的标题的上级标题的词特征。
在本示例中,通过计算内容块的词特征,能够准确地标识内容块的文本特征,提高了相关度评分的计算准确性。通过利用内容块的上下文词特征,能够根据内容块的周围内容块的词特征,来提高相关度评分的计算准确度。通过内容块对应的标题的上级标题的词特征,能够根据内容块与上级标题之间的相关性计算相关度评分,提高了相关度评分的计算准确度。
在一种可选的实施方式中,提取待检索文档的内容块的特征,包括:若特征包括内容块的词特征,对内容块执行预处理操作,并获取预处理后的内容块的词特征,预处理操作包括分词操作和/或去掉冗余文字的操作;若特征包括内容块的上下文词特征,基于内容块以及内容块的相邻内容块,得到内容块的上下文词特征;若特征包括内容块的上级标题的词特征,基于内容块的上级标题,得到内容块的上级标题的词特征。
在本示例中,能够准确地获取内容块的特征,从而保证相关度计算的准确度。
在一种可选的实施方式中,基于内容块的上级标题,得到内容块的上级标题的词特征,包括:基于标题逻辑树确定内容块的上级标题;基于内容块的上级标题,得到内容块的上级标题的词特征。
在本示例中,由于标题逻辑树中任一节点对应的标题为该节点的子节点对应的标题的上一级标题,通过建立标题逻辑树的方式,能够确定各标题组件之间的层级关系,从而能够准确地求得内容块的上级标题的准确性,以及提高相关度评分的计算准确度。
在一种可选的实施方式中,方法还包括:获取待检索文档的标题有序序列;将标题有序中序列的标题依次作为第一标题;针对每一第一标题,执行以下操作:若标题逻辑树中第一标题的前一标题所在子树存在与第一标题同级的第二标题,将第一标题作为第二标题的同级节点,第二标题的同级节点的父节点和第二标题的父节点相同;若前一标题所在子树不存在第二标题,将第一标题作为前一标题的子节点。
现有技术中利用标题模板生成目录结构的方法,目标结构的层级数目与标题模板中设置的层级数目相同。例如,如果模板中只设置了3个标题层级,则也只能最多生成3个标题层级。而利用本发明实施例中的方法,可以与已添加至标题逻辑树中的标题组件比较是否同级,如果不同级则作为前一标题组件的子节点。即时待处理文档的标题层级较多,也能够生成对应的标题层级。例如,8级、9级等。相较于利用标题模板生成目录结构的方法,能够提高生成目录结构的灵活性、准确性及深度。
在一种可选的实施方式中,方法还包括:针对关键语句的相关度评分模型,执行以下操作:将与关键语句相关的内容块样本标记为正样本,将与关键语句无关的内容块样本标记为负样本;利用正样本和负样本,训练关键语句的相关度评分模型。
通过将内容块标记为正负样本的方法训练相关度评分模型,能够提高模型的准确度。
在一种可选的实施方式中,基于内容块与关键语句的相关度评分,从内容块中确定关键语句相关的目标内容块,包括:将相关度评分最高的前N个内容块确定为目标内容块。
在本实施例中,由于相关度评分能够准确地表征内容块与待检索语句的相关程度,因此,通过计算相关度评分,能够提高检索准确度。此外,通过筛选掉与待检索语句相关度较低的目标内容块,能够提高内容块检索效率,以及检索出用户较为期望的内容块检索结果。
第二方面,提供一种基于关键语句的内容块检索装置,包括:计算模块,用于基于关键语句的相关度评分模型,得到待检索文档的内容块与关键语句的相关度评分,其中,内容块包括文字段落、标题、表格、图表、图片中的至少一个;确定模块,用于基于内容块与关键语句的相关度评分,从内容块中确定关键语句相关的目标内容块;结果处理模块,用于将目标内容块作为待检索文档中关键语句的内容块检索结果。
第三方面,提供一种基于关键语句的内容块检索设备,包括:存储器,用于存储程序;处理器,用于运行存储器中存储的程序,以执行第一方面或第一方面的任一可选的实施方式提供的基于关键语句的内容块检索方法。
第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或第一方面的任一可选的实施方式提供的基于关键语句的内容块检索方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示出根据本发明实施例的基于关键语句的内容块检索方法的示意流程图;
图2是本发明实施例的一种示例性的元素逻辑树的结构示意图;
图3示出了根据本发明实施例提供的基于关键语句的内容块检索装置的结构示意图;
图4是本发明实施例中基于关键语句的内容块检索设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种基于检索语句的内容块检索方案,适用于在文档中输入待检索语句进行文档内容的关键内容块检索的具体场景中。特别适用于对具有特定文本结构的文档进行检索的具体场景中。例如招股说明书、债券募集说明书、年报、财务报告、并购重组报告、评级报告、研究报告、法律合同文书、舆情新闻等复杂的金融信息文本的检索工作。特别适用于在文档内部对内容块进行检索。本发明实施例在获取关键语句后,可以计算待检索文档中每一内容块与该关键语句的相关度评分,再根据相关度评分从待检索文档中确定与关键语句相关的目标内容块,并将目标内容块作为待检索文档中关键语句的内容块检索结果。
在本发明实施例中,待检索文档指能够获取其文字以及图表信息的电子文档。具体地,可以是WORD格式、PDF格式、TXT等格式的电子文档。此外,待检索文档可视为由多个段落组成,其中,表格、图片、图表、标题等均可各自视为一个段落。因此,以段落为单位,可以将待检索文档划分为多个彼此间相独立的内容块。也就是说,待检索文档的内容块包括文本内容段落、标题、表格、图表、图片中的至少一种。
通常待检索文档内往往设置有多级标题。按照层级由高到低的次序,依次为一级标题、二级标题、三级标题等等。高层级标题下往往有多个低层级标题,多个低层级标题隶属于高层级标题。针对第L层标题,其隶属于前L-1级标题。针对该第L层标题,其所隶属的前L-1级标题均为其上级标题。示例性的,若待检索文档的第二章中存在五级标题“(1).固定资产情况”,其上级标题按照层级由低到高的次序依次为:四级标题“19、固定资产”、三级标题“七、合并财务报表项目注释”、二级标题“第十一节、财务报告”、一级标题“第二章、固定资产”。为了便于理解,本发明下述实施例将继续利用上述五级标题进行示例性的说明。
由于标题往往是对一个或多个连续文本内容段落的内容的高度概括,每个标题后往往紧紧跟随着一个或多个连续的内容块,例如文本内容段落、图片、图表、表格等。在本发明实施例中,可以认为某一标题后紧跟着的内容块与该标题具有对应关系。示例性的,若按照内容块在待检索文档中出现的次序,依次是三级标题A31,文本内容段落B2、表格C1、图表D1、四级标题A41、文档内容段落B3、文本内容段落B4、三级标题A32。则文档内容段落B2、表格C1、图表D1对应于三级标题A31,文档内容段落B3、文档内容段落B4对应于四级标题A41。
为了更好的理解本发明实施例的技术方案,下面将结合附图,详细描述根据本发明实施例的基于关键语句的内容块检索方法、装置、设备和介质,应注意,这些实施例并不用来限制本发明公开的范围。
图1是示出根据本发明实施例的基于关键语句的内容块检索方法的示意流程图。如图1所示,本实施例中的基于关键语句的内容块检索方法100可以包括以下步骤:
S110,基于关键语句的相关度评分模型,得到待检索文档的内容块与关键语句的相关度评分。
首先,针对关键语句,在S110之前,可以先提前预置若干条关键语句,再从中选择一条作为关键语句。关键语句可以表征用户期望从待检索文档中获取的内容。例如针对招股说明书,关键语句可以是“净利润”、“主营业务收入”等用户期望得到的信息。关键语句可以根据实际需求和待检索文档的应用场景设置,对此不做限定。此外,关键语句可以是由至少一个完整的句子或者由至少一个词语组成,对此不作具体限定。
其次,针对内容块与关键语句的相关度评分,该相关度评分用于表示内容块与关键语句的相关程度。相关度评分越高,则内容块与关键语句的相关度越高。示例性的,若待检索文档包括M个内容块,则可以分别计算M个内容块与关键语句的相关度评分。可选的,相关度评分的范围为[0,1]。在一些实施例中,相关度评分可以是基于预先训练好的关键语句的相关度评分模型确定的。
再其次,针对关键语句的相关度评分模型,相关度评分模块可以选用梯度提升决策树(Gradient Boosting Decision Tree,GBDT)回归模型,或者逻辑回归(LogisticRegression)模块。优选地,为了兼顾评分计算速度和准确度,相关度评分模型选用逻辑回归模块。
在训练相关度评分模型的过程中,首先,可以提前选取L个内容块样本,将L个内容块样本中与该关键语句相关的内容块样本标记为正样本,将L个内容块样本中与该关键语句无关的内容块样本标记为负样本。再利用正样本和负样本,训练关键语句的相关度评分模型。其中,针对L个内容块样本,可以选取K个训练文档,将K个训练文档中的全部内容块作为内容块样本。K个训练文档的内容块个数之和为L。针对正负样本,可以将正样本的标签设置为1,将负样本的标签设置为0。具体地,针对正样本,则将其相关度评分的期望预测值设置为1,针对负样本,则将其相关度评分的期望预测值设置为0。可选的,若利用内容块的特征计算相关度评分,且该特征包括R个子特征,则训练相关度评分模型的训练数据可以具体实现为二维数据矩阵,该二维数据特征包括L行,R列。
此外,考虑到在S110之前,可能会提前预置若干条关键语句,并从中选取一条作为关键语句。为了保证相关度评分的计算准确度和计算速度,针对上述多条关键语句中的每一条关键语句,均可以建立该条关键语句的相关度评分模型。在确定关键语句后,可以从训练好的多个相关度评分模型中选取关键语句的相关度评分模块。其中,各关键语句的训练方法与关键语句的相关度评分模型的训练方法类似,在此不再赘述。
在一个示例中,若需要利用本发明实施例提供的基于检索语句的内容块检索方案对金融信息文本进行检索时,可以利用各大证券交易所公开的数据文本作为训练文档。为了验证本发明实施例训练的相关度评分模型的准确度,可以用训练文本中与每条关键语句最相关的5个内容块的召回率作为评价指标来评价该条关键语句的相关度评分模型。其中,若共包括P条关键语句,则可以将P条关键语句的评价指标的平均值作为总的评价指标。当依次利用香港证券交易所、上海证券交易所、深圳证券交易所的数据文本作为训练样本时,相关度评分模型总的评价指标分别能够达到88%、97%和93%。相关度评分模型的计算准确率极高。
最后,为了能够保证相关评分的计算准确度,可以先提取各内容块的特征,再利用特征计算内容块与关键语句的相关度评分。相应地,S110的具体实施方式包括:
第一步骤,提取待检索文档的内容块的特征。其中,内容块的特征包括以下至少一者:内容块的词特征,内容块的上下文词特征和内容块对应的标题的上级标题的词特征。又或者,内容块的特征还可以包括目标内容块在文档中的位置。其中,内容块的特征不同,第一步骤的具体实施方式也不完全相同。本发明下述部分将分为三个示例,结合内容块的特征对第一步骤的具体实施例方式做具体说明。
在一个示例中,提取待检索文档的内容块的特征的具体实施方式包括:若内容块的特征包括内容块的词特征,对内容块进行预处理。然后再获取预处理后的内容块的词特征。
首先,针对预处理操作,若待检索文档为中文文档,上述预处理可以包括分词操作,可以利用结巴(jieba)分词技术进行分词,还可以根据具体工作场景和工作需求选择除jieba分词方法之外的其他合适的分词方法,对此不做限定。在分词的过程中,可以将表格内所有单元格的文字的集合作为该表格的为文字内容,并对该表格的文字内容进行分词处理。需要说明的是,若待检索文档为中文文档,也可以不对内容块进行分词处理,而是对内容块进行分字操作。例如,可以采用n-gram模型执行分字操作。例如,若内容块包括文字内容“内容块检索模型”,n-gram模型中的n取值为2,则执行分字操作后,可以划分为信息、息抽、抽取、取模、模型。
上述预处理还可以包括去除冗余文字的操作。具体地,可以设置最低词频和/或最高词频。通过设置最低词频,若某一词语在待检索文档中出现的频率低于该最低词频,则可以将该低频词语从内容块中删除,从而能够去掉文档中的不常见词、停用词、以及拼写错误的词语。通过设置最高词频,若某一词语在待检索文档中出现的频率高于该最高词频,则可以将该高频词语从内容块中删除,从而能够去掉文档中语气助词、结构助词等无实际含义的词语,例如“的”、“了”等。通过去除掉上述词语,能够提高相关度评分的准确度。
其次,针对内容块的词特征,可以基于词频-逆向文件频率(term frequency–inverse document frequency,tfidf)算法计算内容块的词特征,此时,内容块的词特征可以是一个词向量稀疏矩阵。具体地,针对每一内容块的每一词条,可以利用tfidf算法提取表征该词条在表格中的词特征的第一词特征和表征该词条在非表格中的词特征的第二词特征。示例性的,词特征可以是tfidf值。此外,还可以使用tfidf算法对预处理后的内容块的文字内容进行计算,得到该内容块的词向量稀疏矩阵。需要说明的是,若目标文档中的文字非中文,则还可以不对内容块进行预处理,直接使用tfidf算法对内容块的文字内容进行处理,得到该内容块的词向量稀疏矩阵。此外,还可以利用其它算法获取内容块的词特征,对此不做限定。
在另一个示例中,若内容块的特征包括内容块的上下文词特征,基于该内容块以及该内容块的相邻内容块,得到内容块的上下文词特征。其中,可以将相邻内容块的词特征进行拼接,得到内容块的上下文词特征。此外,还可以利用其它算法获取内容块的上下文词特征,对此不做限定。
在又一个示例中,若内容块的特征包括内容块的上级标题的词特征,基于内容块的上级标题的文字内容,得到内容块的上级标题的词特征。若该内容块非标题,则该内容块的上级标题包括该内容块对应的标题,以及该内容块对应的标题的上级标题。在计算内容块的上级标题的词特征时,可以根据该内容块对应的标题的文字内容,以及该内容块对应的标题的上级标题的文字内容,计算上级标题的词特征。又或者,若该内容块对应三级标题“七、合并财务报表项目注释”,则可以根据该内容块的文字内容、三级标题“七、合并财务报表项目注释”、二级标题“第十一节、财务报告”、一级标题“第二章、固定资产”,计算该内容块对应的标题的上级标题的词特征。其中,计算该内容块的上级标题的词特征的方式与上述第一个示例中计算预处理后的内容块的词特征的方法相似,对此不再赘述。
在一个具体的示例中,为了准确地提取内容块的上级标题的词特征,需要准确地获取内容块的上级标题。其中,获取内容块的上级标题的方式可以包括:根据内容块逻辑树确定该内容块的上级标题。
首先,针对标题逻辑树的具体结构,标题逻辑树的结构可以如图2所示。标题逻辑树由根节点R0和子节点A1-A7组成的第一子树、子节点A8-A13组成的第二子树、子节点A14-A19第三子树组成,其中,A1、A8、A14为直接与相连的R0的三个子节点。上述三棵子树彼此之间没有直接的连接关系。
在图2所示的标题逻辑树中,根节点R0可以是文档的主题名称或者文档的题目。又或者,图2所示的根节点R0也可以空置,也就是说根节点R0不用于表示目录的层级结构。组成上述三颗子树的所有子节点均为标题。对于子树中的任意子节点,其父节点为其上一级标题,其子节点为其下一级标题。例如,子节点A1是第一个一级标题,子节点A2是第一个一级标题下的第二个二级标题。
相应地,针对标题逻辑树中任意子节点,根据内容块逻辑树确定该内容块的上级标题具体包括:将元素逻辑树中根节点与该任意子节点之间的节点均为该任意子节点的上级节点。例如,针对子节点A6,其上级节点包括A1、A3和A5。
其次,构建标题逻辑树的方法可以包括下述第一子步骤和第二子步骤。
具体如下:
第一子步骤、获取待检索文档的标题有序序列。其中,标题有序序列中各标题的前后次序,与其在待检索文档中出现的先后次序相同。示例性地,若按照标题在待检索文档中出现的先后次序,依次为标题A1,标题A2,……,标题Am,其中,各标题的下角标表示了标题在文档中出现的先后次序。则标题有序序列为{标题A1,标题A2,……,标题Am}。其中,m为正整数。
第一子步骤、将标题有序序列中的标题依次作为第一标题,并针对每一第一标题,执行以下操作。
首先、若标题逻辑树中第一标题的前一标题所在子树存在与第一标题同级的第二标题,将第一标题作为第二标题的同级节点,第二标题的同级节点的父节点和第二标题的父节点相同。其中,判断可以通过标题判别模型判断第一标题和第二标题是否同级。例如,标题判别模型可以包括前馈神经网络模型(Feedforward Neural Network,FNN)和第二Softmax分类器。
为了充分理解子步骤一,本发明下述部分结合图2对子步骤一作具体说明。继续参见图2,如果标题A14作为第一标题,其前一标题A13对应的子树为由子节点A8以及与子节点A8直接或间接连接的所有子节点A9至A14组成的子树。则需要在子节点A8至A13之中确定是否存在A14的同级标题。如果A11与A14同级,则将A14确定为A10的子节点,将A14连接至A10的下面。如果子节点A8是A14的同级标题,则将A14与根节点R0相连。此时,A14作为标题逻辑树中第三棵子树的起始节点。
其次,若前一标题所在子树不存在第二标题,将第一标题作为前一标题的子节点。继续上一示例,如果子节点A8至A13均不是A14的同级标题组件,则将A14确定为A13的子节点,将A14连接至A13的下面。
通过第一步骤提取了内容块的特征之后,S110还可以包括第二步骤,第二步骤,将内容块的特征输入至相关度评分模型,得到内容块与关键语句的相关度评分。其中,相关度评分以及相关度评分模型的相关描述可参见本发明上述实施例的相关内容,在此不再赘述。
S120,基于内容块与关键语句的相关度评分,从内容块中确定关键语句相关的目标内容块。
在一些实施例中,若待检索文档包括M个内容块,则可以M个内容块中相关度评分最高的前N个内容块确定为目标内容块。其中,N为不大于M的正整数。示例性的,N可以根据具体工作场景和工作需求设置,例如N等于100,对此不做具体的限定。
S130,将目标内容块作为待检索文档中关键语句的内容块检索结果。
根据本发明实施例中的基于关键语句的内容块检索方法,可以利用关键语句的相关度评分模型的相关度评分模型计算待检索文档中的内容块与关键语句的相关度评分。再基于相关度评分从关键语句中选出与关键语句相关的目标内容块。由于相关度评分可以准确地表征内容块与关键语句的相关程度,相较于在待检索文档中查找关键词的方法,能够提高内容块检索准确度。
在一些实施例,可以按照目标内容块与关键语句的相关度评分从高到低的次序,在显示界面上依次显示目标内容块。
在一些实施例中,可以提取目标内容块的位置特征,以在用户需要时对该目标内容块进行快速定位。其中,目标内容块的位置特征可以是该内容块在待检索文档中的页码数与待检索文档的总页数的比值。例如,目标内容块在待检索文档的第7页,待检索文档总共12页,则目标内容块的位置特征的取值是7/12。
下面结合附图,详细介绍根据本发明实施例的装置。
基于相同的发明构思,本发明实施例提供的基于关键语句的内容块检索装置。图3是本发明实施例提供的一种基于关键语句的内容块检索装置的结构示意图。如图3所示,基于关键语句的内容块检索装置300包括:
计算模块310,用于基于关键语句的相关度评分模型,得到待检索文档的内容块与关键语句的相关度评分。其中,内容块包括文字段落、标题、表格、图表、图片中的至少一个。
确定模块320,用于基于内容块与关键语句的相关度评分,从内容块中确定关键语句相关的目标内容块。
结果处理模块330,用于将目标内容块作为待检索文档中关键语句的内容块检索结果。
在本发明的一些实施例中,计算模块310,包括提取单元和评分单元。
其中,提取单元,用于提取待检索文档的内容块的特征。
评分单元,用于将内容块的特征输入至相关度评分模型,得到内容块与关键语句的相关度评分。
在本发明的一些实施例中,内容块的特征包括以下至少一者:内容块的词特征,内容块的上下文词特征和内容块对应的标题的上级标题的词特征。
在一些实施例中,提取单元具体用于:若特征包括内容块的词特征,对内容块执行预处理操作,并获取预处理后的内容块的词特征,预处理操作包括分词操作和/或去掉冗余文字的操作;若特征包括内容块的上下文词特征,基于内容块以及内容块的相邻内容块,得到内容块的上下文词特征;若特征包括内容块的上级标题的词特征,基于内容块的上级标题,得到内容块的上级标题的词特征。
在一些实施例中,提取单元具体用于:基于标题逻辑树确定内容块的上级标题;基于内容块的上级标题,得到内容块的上级标题的词特征。
在一些实施例中,基于关键语句的内容块检索装置300还包括获取模块和逻辑树生成模块。
其中,获取模块,用于获取待检索文档的标题有序序列。
逻辑树生成模块,用于将标题有序中序列的标题依次作为第一标题。以及,针对每一第一标题,执行以下操作:若标题逻辑树中第一标题的前一标题所在子树存在与第一标题同级的第二标题,将第一标题作为第二标题的同级节点,第二标题的同级节点的父节点和第二标题的父节点相同。
若前一标题所在子树不存在第二标题,将第一标题作为前一标题的子节点。
在本发明一些实施例中,基于关键语句的内容块检索装置300还包括模型训练模块。
其中,模型训练模块用于针对关键语句的相关度评分模型,执行以下操作:将与关键语句相关的内容块样本标记为正样本,将与关键语句无关的内容块样本标记为负样本。利用正样本和负样本,训练关键语句的相关度评分模型。
在本发明一些实施例中,确定模块320具体用于:将相关度评分最高的前N个内容块确定为目标内容块。
根据本发明实施例的基于关键语句的内容块检索装置的其他细节,与以上结合图1至图2描述的根据本发明实施例的基于关键语句的内容块检索方法类似,并能达到其相应的技术效果,在此不再赘述。
图4是本发明实施例中基于关键语句的内容块检索设备的示例性硬件架构的结构图。
如图4所示,基于关键语句的内容块检索设备400包括输入设备401、输入接口402、中央处理器403、存储器404、输出接口405、以及输出设备406。其中,输入接口402、中央处理器403、存储器404、以及输出接口405通过总线410相互连接,输入设备401和输出设备406分别通过输入接口402和输出接口405与总线410连接,进而与基于关键语句的内容块检索设备400的其他组件连接。
具体地,输入设备401接收来自外部的输入信息,并通过输入接口402将输入信息传送到中央处理器403;中央处理器403基于存储器404中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器404中,然后通过输出接口405将输出信息传送到输出设备406;输出设备406将输出信息输出到基于关键语句的内容块检索设备400的外部供用户使用。
也就是说,图4所示的基于关键语句的内容块检索设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图2描述的基于关键语句的内容块检索设备的方法和装置。
在一个实施例中,图4所示的基于关键语句的内容块检索设备400可以被实现为一种设备,该设备可以包括:存储器,用于存储程序;处理器,用于运行存储器中存储的程序,以执行本发明实施例的基于关键语句的内容块检索方法。
本发明实施例还提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现本发明实施例的基于关键语句的内容块检索方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
上述结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
以上,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
Claims (11)
1.一种基于关键语句的内容块检索方法,其特征在于,所述方法包括:
基于所述关键语句的相关度评分模型,得到待检索文档的内容块与所述关键语句的相关度评分,其中,所述内容块包括文字段落、标题、表格、图表、图片中的至少一个;
基于所述内容块与所述关键语句的相关度评分,从所述内容块中确定所述关键语句相关的目标内容块;
将所述目标内容块作为所述待检索文档中所述关键语句的内容块检索结果。
2.根据权利要求1所述的方法,其特征在于,
所述基于所述关键语句的相关度评分模型,得到待检索文档的内容块与所述关键语句的相关度评分,包括:
提取所述待检索文档的内容块的特征;
将所述内容块的特征输入至所述相关度评分模型,得到所述内容块与关键语句的相关度评分。
3.根据权利要求2所述的方法,其特征在于,所述内容块的特征包括以下至少一者:所述内容块的词特征,所述内容块的上下文词特征和所述内容块对应的标题的上级标题的词特征。
4.根据权利要求2所述的方法,其特征在于,
所述提取所述待检索文档的内容块的特征,包括:
若所述特征包括所述内容块的词特征,对所述内容块执行预处理操作,并获取预处理后的内容块的词特征,所述预处理操作包括分词操作和/或去掉冗余文字的操作;
若所述特征包括所述内容块的上下文词特征,基于所述内容块以及所述内容块的相邻内容块,得到所述内容块的上下文词特征;
若所述特征包括所述内容块的上级标题的词特征,基于所述内容块的上级标题,得到所述内容块的上级标题的词特征。
5.根据权利要求4所述的方法,其特征在于,所述基于所述内容块的上级标题,得到所述内容块的上级标题的词特征,包括:
基于标题逻辑树确定所述内容块的上级标题;
基于所述内容块的上级标题,得到所述内容块的上级标题的词特征。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述待检索文档的标题有序序列;
将所述标题有序中序列的标题依次作为第一标题;
针对每一第一标题,执行以下操作:
若所述标题逻辑树中所述第一标题的前一标题所在子树存在与所述第一标题同级的第二标题,将所述第一标题作为所述第二标题的同级节点,所述第二标题的同级节点的父节点和所述第二标题的父节点相同;
若所述前一标题所在子树不存在所述第二标题,将所述第一标题作为所述前一标题的子节点。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对关键语句的相关度评分模型,执行以下操作:
将与所述关键语句相关的内容块样本标记为正样本,将与所述关键语句无关的内容块样本标记为负样本;
利用所述正样本和所述负样本,训练所述关键语句的相关度评分模型。
8.根据权利要求1所述的方法,其特征在于,基于所述内容块与关键语句的相关度评分,从所述内容块中确定所述关键语句相关的目标内容块,包括:
将所述相关度评分最高的前N个所述内容块确定为所述目标内容块。
9.一种基于关键语句的内容块检索装置,其特征在于,所述装置包括:
计算模块,用于基于所述关键语句的相关度评分模型,得到待检索文档的内容块与所述关键语句的相关度评分,其中,所述内容块包括文字段落、标题、表格、图表、图片中的至少一个;
确定模块,用于基于所述内容块与所述关键语句的相关度评分,从所述内容块中确定所述关键语句相关的目标内容块;
结果处理模块,用于将所述目标内容块作为所述待检索文档中所述关键语句的内容块检索结果。
10.一种基于关键语句的内容块检索设备,其特征在于,所述设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行权利要求1-8任一权利要求所述的基于关键语句的内容块检索方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-8任一权利要求所述的基于关键语句的内容块检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010345947.1A CN113641783A (zh) | 2020-04-27 | 2020-04-27 | 基于关键语句的内容块检索方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010345947.1A CN113641783A (zh) | 2020-04-27 | 2020-04-27 | 基于关键语句的内容块检索方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113641783A true CN113641783A (zh) | 2021-11-12 |
Family
ID=78415214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010345947.1A Pending CN113641783A (zh) | 2020-04-27 | 2020-04-27 | 基于关键语句的内容块检索方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641783A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108266A1 (en) * | 2003-11-14 | 2005-05-19 | Microsoft Corporation | Method and apparatus for browsing document content |
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和*** |
CN102063474A (zh) * | 2010-12-16 | 2011-05-18 | 西北工业大学 | 基于语义相关的XML关键字top-k查询方法 |
CN105005562A (zh) * | 2014-04-15 | 2015-10-28 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
CN105488151A (zh) * | 2015-11-27 | 2016-04-13 | 小米科技有限责任公司 | 参考文档的推荐方法及装置 |
WO2017098341A1 (en) * | 2015-12-08 | 2017-06-15 | Kumar Damnish | System and method of content tagging and indexing |
CN108733766A (zh) * | 2018-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
CN109219811A (zh) * | 2016-05-23 | 2019-01-15 | 微软技术许可有限责任公司 | 相关段落检索*** |
CN110134760A (zh) * | 2019-05-17 | 2019-08-16 | 北京思维造物信息科技股份有限公司 | 一种搜索方法、装置、设备及介质 |
CN110162764A (zh) * | 2018-02-12 | 2019-08-23 | 北京庖丁科技有限公司 | 电子文档的拆分方法、装置、设备及介质 |
CN110263345A (zh) * | 2019-06-26 | 2019-09-20 | 北京百度网讯科技有限公司 | 关键词提取方法、装置及存储介质 |
CN110532834A (zh) * | 2018-05-24 | 2019-12-03 | 北京庖丁科技有限公司 | 基于富文本格式文档的表格提取方法、装置、设备和介质 |
-
2020
- 2020-04-27 CN CN202010345947.1A patent/CN113641783A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108266A1 (en) * | 2003-11-14 | 2005-05-19 | Microsoft Corporation | Method and apparatus for browsing document content |
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和*** |
CN102063474A (zh) * | 2010-12-16 | 2011-05-18 | 西北工业大学 | 基于语义相关的XML关键字top-k查询方法 |
CN105005562A (zh) * | 2014-04-15 | 2015-10-28 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
CN105488151A (zh) * | 2015-11-27 | 2016-04-13 | 小米科技有限责任公司 | 参考文档的推荐方法及装置 |
WO2017098341A1 (en) * | 2015-12-08 | 2017-06-15 | Kumar Damnish | System and method of content tagging and indexing |
CN109219811A (zh) * | 2016-05-23 | 2019-01-15 | 微软技术许可有限责任公司 | 相关段落检索*** |
CN110162764A (zh) * | 2018-02-12 | 2019-08-23 | 北京庖丁科技有限公司 | 电子文档的拆分方法、装置、设备及介质 |
CN108733766A (zh) * | 2018-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
CN110532834A (zh) * | 2018-05-24 | 2019-12-03 | 北京庖丁科技有限公司 | 基于富文本格式文档的表格提取方法、装置、设备和介质 |
CN110134760A (zh) * | 2019-05-17 | 2019-08-16 | 北京思维造物信息科技股份有限公司 | 一种搜索方法、装置、设备及介质 |
CN110263345A (zh) * | 2019-06-26 | 2019-09-20 | 北京百度网讯科技有限公司 | 关键词提取方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
付鸿鹄;张晓林;: "基于段落检索和段落内容分析的知识化检索***设计", 情报理论与实践, no. 05, pages 109 - 113 * |
付鸿鹄;张晓林;: "段落检索及其相关算法研究", 现代图书情报技术, no. 02, pages 44 - 48 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN101404015B (zh) | 自动生成词条层次 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
US7756859B2 (en) | Multi-segment string search | |
CN103678412B (zh) | 一种文档检索的方法及装置 | |
US20020021838A1 (en) | Adaptively weighted, partitioned context edit distance string matching | |
US20080147642A1 (en) | System for discovering data artifacts in an on-line data object | |
US20070027882A1 (en) | Record boundary identification and extraction through pattern mining | |
US20080147588A1 (en) | Method for discovering data artifacts in an on-line data object | |
CN101799802A (zh) | 利用结构信息进行实体关系提取的方法和*** | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索*** | |
CN106649557A (zh) | 一种缺陷报告与邮件列表语义关联挖掘方法 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN114756733A (zh) | 一种相似文档搜索方法、装置、电子设备及存储介质 | |
CN113642320A (zh) | 文档目录结构的提取方法、装置、设备和介质 | |
CN111985212A (zh) | 文本关键字识别方法、装置、计算机设备及可读存储介质 | |
CN114706938A (zh) | 一种文档标签确定方法、装置、电子设备及存储介质 | |
WO2016099422A2 (en) | Content sensitive document ranking method by analyzing the citation contexts | |
CN115982390B (zh) | 一种产业链构建和迭代扩充开发方法 | |
CN111008285B (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
CN117235199A (zh) | 一种基于文档树的信息智能匹配检索的方法 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 | |
CN113641783A (zh) | 基于关键语句的内容块检索方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |