CN116306631A - 文本信息排序方法、装置、电子设备及计算机存储介质 - Google Patents
文本信息排序方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN116306631A CN116306631A CN202310154425.7A CN202310154425A CN116306631A CN 116306631 A CN116306631 A CN 116306631A CN 202310154425 A CN202310154425 A CN 202310154425A CN 116306631 A CN116306631 A CN 116306631A
- Authority
- CN
- China
- Prior art keywords
- text information
- information
- text
- target
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012163 sequencing technique Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 52
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本信息排序方法、装置、电子设备及计算机存储介质。该方法包括:获取文档信息,文档信息包括多条文本信息;将所述多条文本信息分别输入至所述文本信息的内容类型对应的质量评分模型,通过所述质量评分模型确定所述文本信息的目标关键词;针对每条所述文本信息,分别根据所述目标关键词和所述目标关键词对应的权重,确定文本信息的第一数值;利用第一权重计算所述第一数值和引用次数的加权评分,得到所述文本信息的目标评分;根据所述目标评分对多条文本信息进行排序,得到排序结果。如此提高排序结果的准确性,进而提高了用户根据需求查找文本信息的效率。
Description
技术领域
本申请属于人工智能领域,尤其涉及一种文本信息排序方法、装置、电子设备及计算机存储介质。
背景技术
为了满足用户需求,通常是针对用户需要引用的信息进行评分,并根据评分结果进行排序,向用户提供排序后的文本信息,在这种情况下,往往排在前面的文本信息更满足用户的需求。
现有技术中对于文本信息评分,主要是基于引用计数对文本信息进行评分,评分维度较为单一,单纯靠引用计数对文本信息进行评分确定文本信息的排序,会造成排序结果的准确性较低,影响了用户根据需求查找文本信息的效率。
发明内容
本申请实施例提供一种在文本信息排序方法、装置、设备及计算机存储介质,能够提高排序结果的准确性,进而提高了用户根据需求查找文本信息的效率。
第一方面,本申请实施例提供一种文本信息排序方法,方法包括:
获取文档信息,文档信息包括多条文本信息,文本信息包括文本信息的内容类型,以及文本信息被引用的引用次数;
将多条文本信息分别输入至文本信息的内容类型对应的质量评分模型,通过质量评分模型确定文本信息的目标关键词,目标关键词是与内容类型对应的关键词;
针对每条文本信息,分别根据目标关键词和目标关键词对应的权重,确定文本信息的第一数值,第一数值用于表征文本信息的内容质量;
利用第一权重计算第一数值和引用次数的加权评分,得到文本信息的目标评分;
根据目标评分对多条文本信息进行排序,得到排序结果。
在一个可能实现的实施例中,在分别将多条文本信息输入至质量评分模型,通过质量评分模型确定文本信息的目标关键词之前,方法还包括:
获取多个不同内容类型的训练文本信息样本,训练文本信息样本包括多个相同内容类型的训练文本信息;
将不同内容类型的训练文本信息样本分别输入至初始质量评分模型进行训练;
按照中文分词规则将训练文本信息样本进行分词,得到训练分词集合;
通过词频逆文档频率在训练分词集合中选取预定数量的关键词,得到关键词集合;
确定训练分词集合中,关键词出现的次数与词的总数量之间的比值,得到关键词的加权词频;
将加权词频进行归一化,得到关键词对应的权重;
在确定关键词集合和关键词集合中每个关键词对应的权重的情况下,得到不同类型的质量评分模型。
在一个可能实现的实施例中,通过质量评分模型确定文本信息的目标关键词,包括:
按照中文分词规则将文本信息进行分词,得到文本信息的分词集合;
从分词集合中筛选出与关键词集合中的关键词一致的词作为目标关键词。
在一个可能实现的实施例中,在将多条文本信息分别输入至文本信息的内容类型对应的质量评分模型之前,还包括:
获取文档信息;
将文档信息输入至预先训练好的序号识别模型,得到文档信息中的序号;
按照序号层次结构对序号进行划分,构建序号结构树;
根据文本信息序号模式,从序号结构树中抽取文本信息的序号;
获取文本信息的序号对应的文本信息,得到文档信息中的多条文本信息。
在一个可能实现的实施例中,还包括:
在文档信息不包括文本信息序号模式的情况下,统计序号结构树中各层级的节点数目;
从节点数目最多的层级中抽取文本信息,得到文档信息中的多条文本信息。
在一个可能实现的实施例中,在将文档信息输入至预先训练好的序号识别模型,得到文档信息中的序号之前,方法还包括:
删除文档信息中除标点符号、序号字符和中文字符之外的其他符号。
在一个可能实现的实施例中,在将文档信息输入至预先训练好的序号识别模型,得到文档信息中的序号之前,方法还包括:
获取标注序号的文档信息;
将标注序号的文档信息输入至序号识别模型中,通过序号识别模型得到预测标签的概率;
在预测标签的概率与真实标签的概率之间的误差在预设范围内的情况下,得到训练好的序号识别模型。
第二方面,本申请实施例提供了一种文本信息排序装置,装置包括:
获取模块,用于获取文档信息中的多条文本信息,文本信息包括文本信息的内容类型,以及文本信息被引用的引用次数;
确定模块,用于将多条文本信息分别输入至文本信息的内容类型对应的质量评分模型,通过质量评分模型确定文本信息的目标关键词,目标关键词是与内容类型对应的关键词;
确定模块,还用于针对每条文本信息,分别根据目标关键词和目标关键词对应的权重,确定文本信息的第一数值,第一数值用于表征文本信息的内容质量;
计算模块,用于利用第一权重计算第一数值和引用次数的加权评分,得到文本信息的目标评分;
排序模块,用于根据目标评分对多条文本信息进行排序,得到排序结果。
第三方面,本申请实施例提供了一种文本信息排序设备,设备包括:
处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现上述任意一项的在文本信息排序方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述任意一项的文本信息排序方法。
第五方面,本申请实施例提供了一种计算机程序产品,其特征在于,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任意一项的文本信息排序方法。
本申请实施例的文本信息排序方法、装置、设备及计算机存储介质,获取文档信息,文档信息包括多条文本信息,文本信息包括文本信息的内容类型,以及文本信息被引用的引用次数,将多条文本信息分别输入至文本信息的内容类型对应的质量评分模型,通过质量评分模型确定文本信息的目标关键词,目标关键词是与内容类型对应的关键词,针对每条文本信息,分别根据目标关键词和目标关键词对应的权重,确定文本信息的第一数值,第一数值用于表征文本信息的内容质量,利用第一权重计算第一数值和引用次数的加权评分,得到文本信息的目标评分,根据目标评分对多条文本信息进行排序,得到排序结果。如此,通过质量评分模型对文本信息的内容质量进行评分,计算质量评分值和引用次数的加权评分,解决了评分维度单一的问题,根据表征文本信息的内容质量的第一数值和引用计数进行评分确定文本信息的排序,提高了排序结果的准确性,进而提高了用户根据需求查找文本信息的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的文本信息排序方法的流程示意图;
图2是本申请另一个实施例提供的文本信息排序方法的流程示意图;
图3是本申请又一个实施例提供的文本信息排序方法的流程示意图;
图4是本申请再一个实施例提供的文本信息排序装置的结构示意图;
图5是本申请再一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了满足用户需求,通常是针对用户需要引用的信息进行评分,并根据评分结果进行排序,向用户提供排序后的文本信息,在这种情况下,往往排在前面的文本信息更满足用户的需求。现有技术中对于文本信息评分,主要是基于引用计数对文本信息进行评分,评分维度较为单一,单纯靠引用计数对文本信息进行评分确定文本信息的排序,会造成排序结果的准确性较低,影响了用户根据需求查找文本信息的效率。
为了解决现有技术问题,本申请实施例提供了一种文本信息排序方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的文本信息排序方法进行介绍。
图1示出了本申请一个实施例提供的文本信息排序方法的流程示意图。
如图1所示,本申请实施例提供的文本信息排序方法包括以下步骤。
S110、获取文档信息,文档信息包括多条文本信息,文本信息包括文本信息的内容类型,以及文本信息被引用的引用次数。
其中,文档信息包括文字和/或图片,文本信息可以但不限于包括,例如:合同条款。
其中,引用次数为用户引用文本信息的次数,用户引用文本信息每增加一次,该文本信息的引用次数加1。
在一些实施例中,每条文本信息都有其对应的内容类型。获取到的文本信息中包括文本信息的内容类型。
S120、将多条文本信息分别输入至文本信息的内容类型对应的质量评分模型,通过质量评分模型确定文本信息的目标关键词,目标关键词是与内容类型对应的关键词。
质量评分模型为通过不同类型的文本信息样本进行训练得到的训练好的质量评分模型,质量评分模型包括关键词集合以及关键词集合中每个关键词对应的权重,通过质量评分模型中的关键词集合确定文本信息的目标关键词。
在一些实施例中,质量评分模型至少包括一个内容类型,通过文本信息的内容类型将该文本信息输入至对应类型的质量评分模型。
S130、针对每条文本信息,分别根据目标关键词和目标关键词对应的权重,确定文本信息的第一数值,第一数值用于表征文本信息的内容质量。
这里,文本信息的目标关键词对应唯一一个权重,第一数值为对文本信息的内容质量的评分值。
在一些实施例中,通过计算每条文本信息中目标关键词对应的权重之和,得到文本信息的第一数值。
S140、利用第一权重计算第一数值和引用次数的加权评分,得到文本信息的目标评分。
这里,第一权重为预设定的,第一权重包括第一数值对应的权重和引用次数对应的权重,计算第一数值和引用次数的加权评分,得到文本信息的目标评分。
作为一个示例,第一权重为0.5和0.5,即第一数值对应的权重为0.5,引用次数对应的权重为0.5,计算第一数值和引用次数的加权评分,即第一数值*0.5+引用次数*0.5,得到文本信息的目标评分。
在一些实施例中,第一权重可以是按照文本信息的内容类型分别设定的权重。
S150、根据目标评分对多条文本信息进行排序,得到排序结果。
在一些实施例中,按照目标评分的大小对多条文本信息进行排序,输出排序结果。
在一些实施例中,在文本信息的目标评分相等的情况下,根据引用次数对多条文本信息进行排序,得到排序结果。
这样,通过质量评分模型对文本信息的内容质量进行评分,计算质量评分值和引用次数的加权评分,解决了评分维度单一的问题,不单纯靠引用计数进行评分确定文本信息的排序,提高排序结果的准确性,进而提高了用户根据需求查找文本信息的效率。
在一些实施例中,如图2所示,在上述S120之前,该方法还可以包括以下步骤。
S210、获取多个不同内容类型的训练文本信息样本,训练文本信息样本包括多个相同内容类型的训练文本信息。
S220、将不同内容类型的训练文本信息样本分别输入至初始质量评分模型进行训练。
其中,初始质量评分模型为未经过训练的模型。
S230、按照中文分词规则将训练文本信息样本进行分词,得到训练分词集合。
这里,训练分词集合中包括至少一个词,训练分词集合中的词可以是词性不同的词,可以是动词,也可以是名词。
S240、通过词频逆文档频率在训练分词集合中选取预定数量的关键词,得到关键词集合。
在一些实施例中,遍历训练分词集合中的每个词,通过词频逆文档频率,统计训练分词集合中每个词的加权词频以及词性,选取加权词频较高的预定数量的词作为关键词,预定数量是提前设定的,作为一个示例,预定数量可以为100个。
S250、确定训练分词集合中,关键词出现的次数与词的总数量之间的比值,得到关键词的加权词频。
S260、将加权词频进行归一化,得到关键词对应的权重。
S270、在确定关键词集合和关键词集合中每个关键词对应的权重的情况下,得到不同类型的质量评分模型。
在一些实施例中,将相同内容类型的训练文本信息样本输入至同一个初始质量评分模型,对应不同内容类型的训练文本信息样本,可以分别训练出不同类型的质量评分模型。
在一些实施例中,不同类型的质量评分模型对应不同内容类型的关键词集合,每个质量评分模型的关键词集合中每个关键词对应唯一固定的权重。
这样,通过多个不同内容类型的训练文本信息样本训练,按照中文分词规则将训练文本信息样本进行分词,得到训练分词集合,通过词频逆文档频率在训练分词集合中选取预定数量的关键词,得到关键词集合,确定训练分词集合中,关键词出现的次数与词的总数量之间的比值,得到关键词的加权词频,将加权词频进行归一化,得到关键词对应的权重,在确定关键词集合和关键词集合中每个关键词对应的权重的情况下,得到不同类型的质量评分模型,确定了不同类型的质量评分模型,不同类型的质量评分模型对应不同内容类型的关键词集合,根据文本信息的内容类型选择对应的质量评分模型确定文本信息中的目标关键词,输出的结果更准确。
基于此,在一些实施例中,上述S120具体可以包括:
按照中文分词规则将文本信息进行分词,得到文本信息的分词集合;
从分词集合中筛选出与关键词集合中的关键词一致的词作为目标关键词。
其中,文本信息的分词集合为需要评分的文本信息的分词集合。目标关键词为分词集合中与关键词集合中一致的词。
在一些实施例中,根据文本信息的内容类型调取相应的质量评分模型,将文本信息输入至质量评分模型,按照中文分词规则将文本信息进行分词,得到文本信息的分词集合,使用质量评分模型中的关键词集合对分词集合中的词进行筛选,选出与关键词集合中一致的词作为目标关键词,这里,目标关键词的数量可以为0个,也可以为1个,还可以为多个。
这样,只需要将两个集合中的词进行比较,通过关键词集合在分词集合中选取目标关键词,得到的结果更准确,进而使得目标评分更准确。
在一些实施例中,如图3所示,上述S120之前,还可以包括以下步骤。
S310、获取文档信息。
这里,文档信息为包括多种文本信息序号模式的文档信息。
作为一个示例,文本信息序号模式包括但不限于“第一章”、“第一条”、“一、”、“1.”、“1.1”、“1.1.1.1”、“(1)”、“(一)”。
S320、将文档信息输入至预先训练好的序号识别模型,得到文档信息中的序号。
在一些实施例中,通过预先训练好的序号识别模型识别文档信息中的序号,其中,序号可以为文本信息序号模式中的任意一种或多种,这里多种包括两种。
S330、按照序号层次结构对序号进行划分,构建序号结构树。
在一些实施例中,文档信息有固有的逻辑,进而序号有固有的序号层次结构,按照序号层次结构对序号进行划分,构建序号结构树,以用于拆分文档信息。
S340、根据文本信息序号模式,从序号结构树中抽取文本信息的序号。
在一些实施例中,从序号结构树中获取文本信息对象,根据文本信息序号模式从序号结构树中抽取文本信息的序号,得到文档信息中的多条文本信息。
S350、获取文本信息的序号对应的文本信息,得到文档信息中的多条文本信息。
在一些实施例中,文档信息本身存在逻辑结构,在得到文档信息中存在的所有序号之后,按照层次结构对序号进行了层级的划分,得到具有层次的序号结构树,基于序号结构树实现不同粒度的文本信息的序号的解析要求,得到文档信息中的多条文本信息。
作为一个示例,文档信息中包含“第一条”和“中文数字”的文本信息序号模式,则认为该序号模式对应文本信息。
在另一个示例中,一个文档信息中的序号包括“第一章”、“第一条”、“1.1”、“1.1.1”、“1.1.2”“1.2”、“第二条”、“2.1”、“2.2”、“2.3”、“第二章”、“第三条”、“3.1”、“第四条”、“4.1”、“4.1.1”、“4.1.2”、“4.2”、“4.3”,构建出的序号结构树自上而下共包含五层,其中设定根节点为“/”,则第一层“/”,第二层“第一章”、“第二章”,第三层“第一条”、“第二条”、“第三条”、“第四条”,第四层“1.1”、“1.2”、“2.1”、“2.2”、“2.3”、“3.1”、“4.1”、“4.2”、“4.3”,第五层“1.1.1”、“1.1.2”、“4.1.1”、“4.1.2”,跨层的节点依据对应关系通过边进行连接,根据文本信息序号模式,从序号结构树第三层中抽取文本信息。
这样,将文档信息中的序号识别出来,根据序号拆分成不同的层级,构建序号结构树,能够从序号结构树的不同层级中将文本信息抽取出来,获取文本信息。
基于此,在一些实施例中,该方法还可以包括:
在文档信息不包括文本信息序号模式的情况下,统计序号结构树中各层级的节点数目;
从节点数目最多的层级中抽取文本信息,得到文档信息中的多条文本信息。
这样,对于没有特定文本信息序号模式的文档信息,通过序号结构树也能够确定文档信息中的文本信息。
基于此,在一些实施例中,在上述S320之前,该方法还可以包括:
删除文档信息中除标点符号、序号字符和中文字符之外的其他符号。
在一些实施例中,对获取的文档信息通过句号、问号和叹号进行分句,同时过滤掉除了标点符号、序号和中文字符之外的其他符号。
在一些实施例中,将文档信息进行预处理之后输入至序号识别模型,作为一个示例,换行符和序号的组合会影响序号识别,则在将文档信息输入至序号识别模型之前将换行符替换为空格,最后输出结果的时候再还原成对应的符号。
这样,排除了其他特殊符号在序号识别过程中的干扰,提高序号识别的准确性。
基于此,在一些实施例中,在上述S320之前,该方法还可以包括:
获取标注序号的文档信息;
将标注序号的文档信息输入至序号识别模型中,通过序号识别模型得到预测标签的概率;
在预测标签的概率与真实标签的概率之间的误差在预设范围内的情况下,得到训练好的序号识别模型。
在一些实施例中,采用的监督学习方式,通过真实标签以及预测标签的概率的比对来计算序号识别模型的损失,通过优化算法调整序号识别模型的参数,使得预测标签的概率与真实标签的概率之间的误差在预设范围内,即序号识别模型达到较好的序号识别效果。
这样,得到训练好的序号识别模型对文档信息中的序号识别更准确,而且提高了泛化性能。
基于上述实施例提供的文本信息排序方法,相应地,本申请还提供了文本信息排序装置的具体实现方式。请参见以下实施例。
首先参见图4,本申请实施例提供的文本信息排序装置400包括:
获取模块410,用于获取文档信息,文档信息包括多条文本信息,文本信息包括文本信息的内容类型,以及文本信息被引用的引用次数;
确定模块420,用于将多条文本信息分别输入至文本信息的内容类型对应的质量评分模型,通过质量评分模型确定文本信息的目标关键词,目标关键词是与内容类型对应的关键词;
确定模块420,还用于针对每条文本信息,分别根据目标关键词和目标关键词对应的权重,确定文本信息的第一数值,第一数值用于表征文本信息的内容质量;
计算模块430,用于利用第一权重计算第一数值和引用次数的加权评分,得到文本信息的目标评分;
排序模块440,用于根据目标评分对多条文本信息进行排序,得到排序结果。
基于此,在一些实施例中,装置400还可以包括:
获取模块410,还用于在分别将多条文本信息输入至质量评分模型,通过质量评分模型确定文本信息的目标关键词之前,获取多个不同内容类型的训练文本信息样本,训练文本信息样本包括多个相同内容类型的训练文本信息;
训练模块,用于将不同内容类型的训练文本信息样本分别输入至初始质量评分模型进行训练;
分词模块,用于按照中文分词规则将训练文本信息样本进行分词,得到训练分词集合;
选取模块,用于通过词频逆文档频率在训练分词集合中选取预定数量的关键词,得到关键词集合;
确定模块420,还用于确定训练分词集合中,关键词出现的次数与词的总数量之间的比值,得到关键词的加权词频;
确定模块420,还用于将加权词频进行归一化,得到关键词对应的权重;
确定模块420,还用于在确定关键词集合和关键词集合中每个关键词对应的权重的情况下,得到不同类型的质量评分模型。
基于此,在一些实施例中,确定模块420可以包括:
分词单元,用于按照中文分词规则将文本信息进行分词,得到文本信息的分词集合;
筛选单元,用于从分词集合中筛选出与关键词集合中的关键词一致的词作为目标关键词。
基于此,在一些实施例中,获取模块410可以包括:
获取单元,用于获取文档信息;
训练单元,用于将文档信息输入至预先训练好的序号识别模型,得到文档信息中的序号;
构建单元,用于按照序号层次结构对序号进行划分,构建序号结构树;
抽取单元,用于根据文本信息序号模式,从序号结构树中抽取文本信息的序号;
获取单元,还用于获取文本信息的序号对应的文本信息,得到文档信息中的多条文本信息。
基于此,在一些实施例中,获取模块410还可以包括:
统计单元,用于在文档信息不包括文本信息序号模式的情况下,统计序号结构树中各层级的节点数目;
抽取单元,还用于从节点数目最多的层级中抽取文本信息,得到文档信息中的多条文本信息。
基于此,在一些实施例中,获取模块410还可以包括:
删除单元,用于在将文档信息输入至预先训练好的序号识别模型,得到文档信息中的序号之前,删除文档信息中除标点符号、序号字符和中文字符之外的其他符号。
基于此,在一些实施例中,获取模块410还可以包括:
获取单元,还用于在将文档信息输入至预先训练好的序号识别模型,得到文档信息中的序号之前,获取标注序号的文档信息;
训练单元,还用于将标注序号的文档信息输入至序号识别模型中,通过序号识别模型得到预测标签的概率;
确定单元,用于在预测标签的概率与真实标签的概率之间的误差在预设范围内的情况下,得到训练好的序号识别模型。
本申请实施例提供的文本信息排序装置的各个模块,可以实现图1、图2和图3提供文本信息排序方法的各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备。
图5示出了本申请实施例提供的电子设备的硬件结构示意图。
在电子设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。
存储器可包括只读存储器(Read Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种文本信息排序方法。
在一个示例中,电子设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(IndustryStandard Architecture,ISA)总线、无限带宽互连、低引脚数(Linear PredictiveCoding,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、***组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PeripheralComponent Interconnect-X,PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,SATA)总线、视频电子标准协会局部(VESA Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。该电子设备可以执行本发明实施例中的文本信息排序方法,从而实现图1、图2和图3描述的文本信息排序方法。
另外,结合上述实施例中的文本信息排序方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种文本信息排序方法。
本申请还提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行实现上述任意一种文本信息排序方法实施例的各个过程。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除只读存储器(Erasable ReadOnly Memory,EROM)、软盘、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或***。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种文本信息排序方法,其特征在于,包括:
获取文档信息,所述文档信息包括多条文本信息,所述文本信息包括所述文本信息的内容类型,以及文本信息被引用的引用次数;
将所述多条文本信息分别输入至所述文本信息的内容类型对应的质量评分模型,通过所述质量评分模型确定所述文本信息的目标关键词,所述目标关键词是与所述内容类型对应的关键词;
针对每条所述文本信息,分别根据所述目标关键词和所述目标关键词对应的权重,确定文本信息的第一数值,所述第一数值用于表征文本信息的内容质量;
利用第一权重计算所述第一数值和引用次数的加权评分,得到所述文本信息的目标评分;
根据所述目标评分对多条文本信息进行排序,得到排序结果。
2.根据权利要求1所述的文本信息排序方法,其特征在于,在所述分别将所述多条文本信息输入至质量评分模型,通过所述质量评分模型确定所述文本信息的目标关键词之前,所述方法还包括:
获取多个不同内容类型的训练文本信息样本,所述训练文本信息样本包括多个相同内容类型的训练文本信息;
将所述不同内容类型的训练文本信息样本分别输入至初始质量评分模型进行训练;
按照中文分词规则将所述训练文本信息样本进行分词,得到训练分词集合;
通过词频逆文档频率在所述训练分词集合中选取预定数量的关键词,得到关键词集合;
确定所述训练分词集合中,所述关键词出现的次数与词的总数量之间的比值,得到所述关键词的加权词频;
将所述加权词频进行归一化,得到所述关键词对应的权重;
在确定所述关键词集合和所述关键词集合中每个关键词对应的权重的情况下,得到不同类型的质量评分模型。
3.根据权利要求2所述的文本信息排序方法,其特征在于,所述通过所述质量评分模型确定所述文本信息的目标关键词,包括:
按照中文分词规则将所述文本信息进行分词,得到所述文本信息的分词集合;
从所述分词集合中筛选出与所述关键词集合中的关键词一致的词作为目标关键词。
4.根据权利要求1所述的文本信息排序方法,其特征在于,在将所述多条文本信息分别输入至所述文本信息的内容类型对应的质量评分模型之前,所述方法还包括:
获取所述文档信息;
将所述文档信息输入至预先训练好的序号识别模型,得到所述文档信息中的序号;
按照序号层次结构对所述序号进行划分,构建序号结构树;
根据文本信息序号模式,从所述序号结构树中抽取文本信息的序号;
获取所述文本信息的序号对应的文本信息,得到所述文档信息中的多条文本信息。
5.根据权利要求4所述的文本信息排序方法,其特征在于,还包括:
在所述文档信息不包括所述文本信息序号模式的情况下,统计所述序号结构树中各层级的节点数目;
从所述节点数目最多的层级中抽取文本信息,得到所述文档信息中的多条文本信息。
6.根据权利要求4所述的文本信息排序方法,其特征在于,在将所述文档信息输入至预先训练好的序号识别模型,得到所述文档信息中的序号之前,所述方法还包括:
删除所述文档信息中除标点符号、序号字符和中文字符之外的其他符号。
7.根据权利要求4所述的文本信息排序方法,其特征在于,在所述将所述文档信息输入至预先训练好的序号识别模型,得到所述文档信息中的序号之前,所述方法还包括:
获取标注序号的文档信息;
将所述标注序号的文档信息输入至序号识别模型中,通过所述序号识别模型得到预测标签的概率;
在预测标签的概率与真实标签的概率之间的误差在预设范围内的情况下,得到训练好的序号识别模型。
8.一种文本信息排序装置,其特征在于,所述装置包括:
获取模块,用于获取文档信息中的多条文本信息,所述文本信息包括所述文本信息的内容类型,以及文本信息被引用的引用次数;
确定模块,用于根据所述文本信息的内容类型分别将所述多条文本信息输入至对应类型质量评分模型,通过所述质量评分模型确定所述文本信息的目标关键词,所述目标关键词是与所述内容类型对应的目标关键词;
所述确定模块,还用于针对每条所述文本信息,分别根据所述目标关键词和所述目标关键词对应的权重,确定文本信息的第一数值,所述第一数值用于表征文本信息的内容质量;
计算模块,用于利用第一权重计算所述第一数值和引用次数的加权评分,得到所述文本信息的目标评分;
排序模块,用于根据所述目标评分对多条文本信息进行排序,得到排序结果。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的在文本信息排序方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的文本信息排序方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310154425.7A CN116306631A (zh) | 2023-02-20 | 2023-02-20 | 文本信息排序方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310154425.7A CN116306631A (zh) | 2023-02-20 | 2023-02-20 | 文本信息排序方法、装置、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116306631A true CN116306631A (zh) | 2023-06-23 |
Family
ID=86826710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310154425.7A Pending CN116306631A (zh) | 2023-02-20 | 2023-02-20 | 文本信息排序方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306631A (zh) |
-
2023
- 2023-02-20 CN CN202310154425.7A patent/CN116306631A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
KR101312770B1 (ko) | 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템 | |
CN111126396B (zh) | 图像识别方法、装置、计算机设备以及存储介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN111666761A (zh) | 细粒度情感分析模型训练方法及装置 | |
CN113312899B (zh) | 文本分类方法、装置和电子设备 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN113761925B (zh) | 基于噪声感知机制的命名实体识别方法、装置及设备 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和*** | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN112711944B (zh) | 一种分词方法、***、分词器生成方法及*** | |
CN116029290A (zh) | 文本匹配方法、装置、设备、介质及产品 | |
CN115392787A (zh) | 企业的风险评估方法、装置、设备、存储介质及程序产品 | |
CN116306631A (zh) | 文本信息排序方法、装置、电子设备及计算机存储介质 | |
CN115577109A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114117031A (zh) | 名单筛查方法、装置、设备及计算机存储介质 | |
CN114036283A (zh) | 一种文本匹配的方法、装置、设备和可读存储介质 | |
CN114863574A (zh) | 手写签名识别方法、装置、设备、介质及程序产品 | |
CN114492390A (zh) | 基于关键词识别的数据扩充方法、装置、设备及介质 | |
CN113887679A (zh) | 融合后验概率校准的模型训练方法、装置、设备及介质 | |
CN113868379A (zh) | 面向开放域问答的段落选择方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |