CN115659969A - 文档标注方法、装置、电子设备及存储介质 - Google Patents

文档标注方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115659969A
CN115659969A CN202211592980.XA CN202211592980A CN115659969A CN 115659969 A CN115659969 A CN 115659969A CN 202211592980 A CN202211592980 A CN 202211592980A CN 115659969 A CN115659969 A CN 115659969A
Authority
CN
China
Prior art keywords
document
labeled
keyword
label
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211592980.XA
Other languages
English (en)
Other versions
CN115659969B (zh
Inventor
郑玉玲
王凌云
王梓凝
刘兆蓬
宋丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengfang Financial Technology Co ltd
Original Assignee
Chengfang Financial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengfang Financial Technology Co ltd filed Critical Chengfang Financial Technology Co ltd
Priority to CN202211592980.XA priority Critical patent/CN115659969B/zh
Publication of CN115659969A publication Critical patent/CN115659969A/zh
Application granted granted Critical
Publication of CN115659969B publication Critical patent/CN115659969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文档标注技术领域,提供一种文档标注方法、装置、电子设备及存储介质,其中方法包括:获取待标注文档和标签列表;对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。本发明提供的方法、装置、电子设备及存储介质,结合各个关键词和标签列表中的各个标签之间的相似度和各个关键词在待标注文档中的词频,确定待标注文档的目标标签,保证了目标标签确定的可靠性和准确性,并且不受标注样本获取数量的限制,实现容易,且目标标签的可靠性强。

Description

文档标注方法、装置、电子设备及存储介质
技术领域
本发明涉及文档标注技术领域,尤其涉及一种文档标注方法、装置、电子设备及存储介质。
背景技术
文档自动标注旨在为给定文档打上一个或多个标签,便于后续对文档进行分类、搜索、摘要等处理。
现有技术中,传统的机器学习的文档标注方法和深度学习的文档标注方法,均为有监督学习方法,其模型的训练依赖于大量的标注数据。然而,在实际应用中,有些场景下只能获得一部分无标签文档以及标签列表,而另一些场景下,由于数据隐私等问题,仅仅能获得标签列表,而标注样本的缺失,直接影响了文档自动标注的可靠性。
发明内容
本发明提供一种文档标注方法、装置、电子设备及存储介质,用以解决现有技术中有监督学习的文档标注方法依赖于大量的标注数据进行训练的缺陷。
本发明提供一种文档标注方法,包括:
获取待标注文档和标签列表;
对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;
基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
根据本发明提供的一种文档标注方法,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签,包括:
基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分;
基于所述多个标签的标签得分,确定所述待标注文档的目标标签。
根据本发明提供的一种文档标注方法,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分,包括:
基于如下公式,确定所述待标注文档的多个标签的标签得分:
Figure 721092DEST_PATH_IMAGE001
其中,
Figure 130208DEST_PATH_IMAGE002
表示待标注文档的第
Figure 591276DEST_PATH_IMAGE003
个标签的标签得分,
Figure 477847DEST_PATH_IMAGE004
表示第
Figure 391576DEST_PATH_IMAGE005
个关键词,
Figure 869962DEST_PATH_IMAGE006
表示第
Figure 451116DEST_PATH_IMAGE007
个标签,
Figure 222500DEST_PATH_IMAGE008
表示关键词的总数,
Figure 889105DEST_PATH_IMAGE009
为第
Figure 905603DEST_PATH_IMAGE010
个关键词和第
Figure 341263DEST_PATH_IMAGE003
个标签的相似度,
Figure 286479DEST_PATH_IMAGE011
为第 个
Figure 237117DEST_PATH_IMAGE012
关键词在待标注文档中的词频,
Figure 57306DEST_PATH_IMAGE013
是对
Figure 347473DEST_PATH_IMAGE014
进行归一化后的词频。
根据本发明提供的一种文档标注方法,所述基于所述多个标签的标签得分,确定所述待标注文档的目标标签,包括:
基于所述多个标签的标签得分,以及阈值得分和/或所述待标注文档的预设标签数目,对所述多个标签进行筛选,并将筛选所得的标签确定为所述待标注文档的目标标签。
根据本发明提供的一种文档标注方法,所述对所述待标注文档进行关键词抽取,得到多个关键词,包括:
应用关键词抽取模型,对所述待标注文档进行关键词抽取,得到多个关键词;
所述关键词抽取模型是基于样本文本和所述样本文本对应的样本关键词训练得到的。
根据本发明提供的一种文档标注方法,所述样本文本和所述样本文本对应的样本关键词的获取步骤,包括:
获取所述标签列表中各个标签相关的论文文档,所述论文文档自身携带有论文关键词;
基于所述论文文档,确定所述样本文本,基于所述论文关键词,确定所述样本文本对应的样本关键词。
根据本发明提供的一种文档标注方法,所述基于所述论文文档,确定所述样本文本,包括:
基于所述论文文档中的标题和摘要,确定样本文本。
本发明还提供一种文档标注装置,包括:
获取单元,用于获取待标注文档和标签列表;
关键词抽取单元,用于对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;
确定标签单元,用于基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文档标注方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文档标注方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文档标注方法。
本发明提供的文档标注方法、装置、电子设备及存储介质,结合各个关键词和标签列表中的各个标签之间的相似度,以及各个关键词在待标注文档中的词频,确定待标注文档的目标标签,相似度与词频的结合保证了目标标签确定的可靠性和准确性,并且不受标注样本获取数量的限制,实现容易,且目标标签的可靠性强。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文档标注方法的流程示意图之一;
图2是本发明提供的文档标注方法中步骤130的流程示意图;
图3是本发明提供的样本文本和样本文本对应的样本关键词的获取步骤流程示意图;
图4是本发明提供的文档标注方法的流程示意图之二;
图5是本发明提供的文档标注装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,文档自动标注旨在为给定文档打上一个或多个标签,便于后续对文档进行分类、搜索、摘要等处理。在文档管理场景中,如人工智能、大数据、区块链等场景,通常已有标签库,当新文档入库时,需给新文档打上已有标签库内的标签。
常见的文档标注方法有文本分类方法,文本分类方法将文本标签作为一个多分类任务来解决。传统的文本分类方法首先利用BoW(Bag of Words)、TF-IDF(Term Frequency–Inverse Document Frequency)等方法获取文本特征,然后使用Naive Bayes(朴素贝叶斯算法)、SVM(Support Vector Machine,支持向量机)、Radom forest(随机森林)等机器学习算法来构建文本分类模型,自2019年Bert模型被提出以来,基于Bert(BidirectionalEncoder Representation from Transformers)模型的深度学习文本分类模型成为主流的文本分类方法。
在英文文本的标注场景下,提出了一种仅仅利用标签名而无需标签数据的一种文本分类方法,然而,该方法依赖于使用Bert模型来预测标签的同义词。为了获取有正确语义的同义词,其标签必须为不可分词的最小单位,如good、bad、commerce、economy这类常见单词。
然而,在中文文本的标注场景下,标签长度通常大于等于2,例如“人工智能”,然而“人工智能”在Bert模型中会分成4个token,因此,最终Bert模型很难给出正确语义的短语,导致该方法无法直接适用在中文文本的标注场景下。
针对上述问题,本发明提出一种文档标注方法,图1是本发明提供的文档标注方法的流程示意图之一,如图1所示,该方法包括:
步骤110,获取待标注文档和标签列表。
具体地,可以获取待标注文档和标签列表,此处的待标注文档即后续需要进行文档标注的文档,待标注文档可以是用户直接输入的文本形成的文档,也可以是将采集所得的音频进行语音转写后得到的文本形成的文档,还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像,并对图像进行OCR(Optical Character Recognition,光学字符识别)得到的文本形成的文档,本发明实施例对此不作具体限定。
此处的标签列表是指各个标签的集合,标签列表可以是预设的,也可以是在网页上爬取的,本发明实施例对此不作具体限定。
步骤120,对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频。
具体地,在获取到待标注文档后,可以对待标注文档进行关键词抽取,得到多个关键词。此处的关键词抽取可以使用关键词抽取模型,此处的关键词抽取模型可以是Bert(Bidirectional Encoder Representation from Transformers)模型,也可以是LSTM-CRF(Long Short Term Memory- Conditional Random Field algorithm,长短期记忆网络-条件随机场)算法,还可以是BERT-CRF算法等,本发明实施例对此不作具体限定。
此处的多个关键词反映了待标注文档中的重点,可以是“人工智能”、“区块链”,也可以是“大数据”、“自然语言处理”,还可以是“人工智能”、“大数据”、“自然语言处理”、“区块链”等,本发明实施例对此不作具体限定。
在得到关键词之后,可以统计各个关键词在待标注文档中的词频,此处的词频是指各个关键词在待标注文档中出现的次数,例如,各个关键词在待标注文档中的词频可以是[(“人工智能”,5),(“大数据”,2),(“自然语言处理”,1)]等。
步骤130,基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
具体地,在统计得到各个关键词在待标注文档中的词频后,可以基于各个关键词和标签列表中的各个标签之间的相似度,以及各个关键词在待标注文档中的词频,确定待标注文档的目标标签。此处的目标标签是指待标注文档的最终标签,目标标签可以是一个,也可以是多个,还可以为空,本发明实施例对此不作具体限定。
此处的各个关键词和标签列表中的各个标签之间的相似度可以采用余弦相似度、Pearson相关系数(Pearson Correlation Coefficient)等方法进行计算得到,并且在相似度计算之前可以使用word2vec的嵌入表示(Embedding)对各个关键词和标签列表中的各个标签的进行词编码,再基于词编码后的向量进行相似度的计算,本发明实施例对此不作具体限定。
此处的各个关键词和标签列表中的各个标签之间的相似度反映了各个关键词和标签列表中的各个标签的匹配程度。可以理解的是,各个关键词和标签列表中的各个标签之间的相似度越高,各个关键词和标签列表中的各个标签越匹配;各个关键词和标签列表中的各个标签之间的相似度越低,各个关键词和标签列表中的各个标签越不匹配。
考虑到各个关键词在待标注文档中的词频体现了各个关键词在待标注文档中出现的次数,而某个关键词在待标注文档中出现的次数可以体现该关键词在待标注文档中的重要程度。
例如,可以将各个关键词和标签列表中的各个标签之间的相似度,以及各个关键词在待标注文档中的词频都作为待标注文档的目标标签的评判标准,从而得到待标注文档的目标标签。
本发明实施例提供的方法,结合各个关键词和标签列表中的各个标签之间的相似度,以及各个关键词在待标注文档中的词频,确定待标注文档的目标标签,相似度与词频的结合保证了目标标签确定的可靠性和准确性,并且不受标注样本获取数量的限制,实现容易,且目标标签的可靠性强。
基于上述实施例,图2是本发明提供的文档标注方法中步骤130的流程示意图,如图2所示,步骤130包括:
步骤131,基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分;
步骤132,基于所述多个标签的标签得分,确定所述待标注文档的目标标签。
具体地,在得到各个关键词在待标注文档中的词频后,可以将各个关键词和标签列表中的各个标签之间的相似度,以及各个关键词在待标注文档中的词频进行加权,得到待标注文档的多个标签的标签得分,此处的标签得分反映了各个标签作为目标标签的得分,或者,反映了各个标签作为目标标签的概率,可以是0.5,也可以是0.8,还可以是0.7等,本发明实施例对此不作具体限定。
考虑到各个关键词在待标注文档中的词频体现了各个关键词在待标注文档中出现的次数,而某个关键词在待标注文档中出现的次数可以体现该关键词在待标注文档中的重要程度。可以理解的是,关键词在待标注文档中的词频越大,该关键词越能影响待标注文档与该关键词相似的标签的标签得分;关键词在待标注文档中的词频越小,该关键词越不影响待标注文档与该关键词相似的标签的标签得分,因此,可以将各个关键词在待标注文档中的词频作为待标注文档的多个标签的标签得分的评判依据。
在得到待标注文档的多个标签的标签得分后,可以基于多个标签的标签得分,确定待标注文档的目标标签。此处的目标标签是指待标注文档的最终标签。
例如,可以基于多个标签的标签得分,对多个标签进行筛选,并将多个标签的标签得分中得分较高的那些标签确定为待标注文档的目标标签。
本发明实施例提供的方法,基于多个标签的标签得分,确定待标注文档的目标标签,标签得分反映了各个标签作为目标标签的得分,或者,反映了各个标签作为目标标签的概率,由此保证了待标注文档的目标标签的可靠性和准确性。
基于上述实施例,步骤131包括:
基于如下公式,确定所述待标注文档的多个标签的标签得分:
Figure 726239DEST_PATH_IMAGE015
其中,
Figure 101857DEST_PATH_IMAGE016
表示待标注文档的第
Figure 460157DEST_PATH_IMAGE017
个标签的标签得分,
Figure 870410DEST_PATH_IMAGE018
表示第
Figure 885990DEST_PATH_IMAGE018
个关键词,
Figure 748903DEST_PATH_IMAGE003
表示第
Figure 176474DEST_PATH_IMAGE003
个标签,
Figure 441233DEST_PATH_IMAGE019
表示关键词的总数,
Figure 161802DEST_PATH_IMAGE020
为第
Figure 512012DEST_PATH_IMAGE012
个关键词和第
Figure 212115DEST_PATH_IMAGE021
个标签的相似度,
Figure 331380DEST_PATH_IMAGE022
为第
Figure 225780DEST_PATH_IMAGE023
个关键词在待标注文档中的词频,
Figure 63286DEST_PATH_IMAGE024
是对
Figure 567080DEST_PATH_IMAGE025
进行归一化后的词频。
基于上述实施例,步骤132包括:
基于所述多个标签的标签得分,以及阈值得分和/或所述待标注文档的预设标签数目,对所述多个标签进行筛选,并将筛选所得的标签确定为所述待标注文档的目标标签。
具体地,在得到多个标签的标签得分后,可以基于多个标签的标签得分,以及阈值得分,对多个标签进行筛选,并将筛选所得的标签确定为待标注文档的目标标签;也可以基于多个标签的标签得分,以及待标注文档的预设标签数目,对多个标签进行筛选,并将筛选所得的标签确定为待标注文档的目标标签;还可以基于多个标签的标签得分,以及阈值得分和/或待标注文档的预设标签数目,对多个标签进行筛选,并将筛选所得的标签确定为待标注文档的目标标签,本发明实施例对此不作具体限定。
此处的阈值得分是指阈值标签得分,可以是预先设置的,也可以根据实际情况进行设置。此处的待标注文档的预设标签数目是指待标注文档所需要的标签数目,可以是预先设置的,也可以根据实际情况进行设置,本发明实施例对此不作具体限定。
例如,阈值得分为0.5,待标注文档的预设标签数目为5,多个标签的标签得分有0.6、0.7、0.8,而标签得分0.6对应“人工智能”标签,标签得分0.7对应“支持向量机”,标签得分0.8对应“自然语言处理”,则基于多个标签的标签得分,以及阈值得分和/或待标注文档的预设标签数目,对多个标签进行筛选,可以将筛选所得的标签“人工智能”、“支持向量机”和“自然语言处理”,确定为待标注文档的目标标签。
此外,在基于多个标签的标签得分,以及阈值得分和/或待标注文档的预设标签数目,对多个标签进行筛选之前,可以对多个标签的标签得分进行排序,并基于排序后的多个标签的标签得分,对多个标签进行筛选。此处的对多个标签的标签得分进行排序可以将多个标签的标签得分从高到低进行排序,也可以将多个标签的标签得分从低到高进行排序,本发明实施例对此不作具体限定。
本发明实施例提供的方法,基于多个标签的标签得分,并结合阈值得分和/或待标注文档的预设标签数目的条件,对多个标签进行筛选,并将筛选所得的标签确定为待标注文档的目标标签,由此,保证了待标注文档的目标标签确定的准确性。
基于上述实施例,步骤120包括:
步骤121,应用关键词抽取模型,对所述待标注文档进行关键词抽取,得到多个关键词;
所述关键词抽取模型是基于样本文本和所述样本文本对应的样本关键词训练得到的。
具体地,为了能够抽取到待标注文档的关键词,需要在步骤121之前,通过如下步骤获取关键词抽取模型:
可以预先收集样本文本和样本文本对应的样本关键词,还可以构建初始关键词抽取模型,此处的初始关键词抽取模型即训练关键词抽取模型的初始模型。此处,初始关键词抽取模型可以包括Bert 模型和分类层,此处的分类层可以是softmax层,也可以是CRF(Conditional Random Field algorithm,条件随机场算法),本发明实施例对此不作具体限定。
在得到初始关键词抽取模型后,即可应用预先收集好的样本文本和样本文本对应的样本关键词,对初始关键词抽取模型进行训练:
可以将样本文本输入至初始关键词抽取模型中,由初始关键词抽取模型对样本文本进行关键词抽取,得到并输出样本文本的预测关键词。
在基于初始关键词抽取模型得到预测关键词后,即可将预测关键词与预先收集的样本文本对应的样本关键词进行比较,根据此两者之间的差异程度计算得到损失函数值,并基于损失函数值对初始关键词抽取模型进行参数迭代,将完成参数迭代后的初始关键词抽取模型记为关键词抽取模型。
可以理解的是,预测关键词与预先收集的样本文本对应的样本关键词的差异程度越大,损失函数值越大;预测关键词与预先收集的样本文本对应的样本关键词的差异程度越小,损失函数值越小。
即,在初始关键词抽取模型的训练过程中,学习到了对待标注文档进行关键词抽取,以抽取能够用于确定待标注文档的目标标签的关键词。
相关技术中,在应用样本文本和样本文本对应的样本关键词进行关键词抽取模型训练时,样本文本对应的样本关键词通常难以获取,针对上述问题,本发明实施例中样本文本是基于标签列表中各个标签相关的论文文档确定的,样本文本对应的样本关键词是论文文档中携带的论文关键词。
基于上述实施例,图3是本发明提供的样本文本和样本文本对应的样本关键词的获取步骤流程示意图,如图3所示,所述样本文本和所述样本文本对应的样本关键词的获取步骤,包括:
步骤310,获取所述标签列表中各个标签相关的论文文档,所述论文文档自身携带有论文关键词;
步骤320,基于所述论文文档,确定所述样本文本,基于所述论文关键词,确定所述样本文本对应的样本关键词。
具体地,可以获取标签列表中各个标签相关的论文文档,此处的论文文档自身携带有论文关键词,即论文关键词不需要进行人工标注,节约了大量的时间成本,提高了后续样本文本和样本文本对应的样本关键词的获取效率。
可以理解的是,获取到标签列表中各个标签后,就可以从开源数据集中匹配到与各个标签相关的论文文档,此处的开源数据集可以从各个论文文档的下载网站上爬取得到。
在获取到标签列表中各个标签相关的论文文档后,可以基于论文文档,确定样本文本。例如,可以直接将论文文档作为样本文本,又例如,可以将能代表论文文档中的核心思想的文本作为样本文本。
随即,可以基于论文关键词,确定样本文本对应的样本关键词。例如,可以将论文文档自身携带有的论文关键词,作为样本文本对应的样本关键词。
例如,样本文本和样本文本对应的样本关键词可以是[(样本文本1,[样本文本1对应的样本关键词1,...]),(样本文本2,[样本文本2对应的样本关键词1,...],...(样本文本N,[样本文本N对应的样本关键词1,...])]等。
本发明实施例提供的方法,样本文本是基于论文文档确定的,而论文文档自身携带有论文关键词,样本文本对应的样本关键词是基于论文关键词确定的,即样本文本对应的样本关键词不需要人工标注,节约了大量的时间成本。
相关技术中,在应用样本文本和样本文本对应的样本关键词进行关键词抽取模型训练时,样本文本通常使用整篇文档,增加了关键词抽取模型的训练成本,降低了关键词抽取模型的训练效率。
基于上述实施例,步骤320包括:
基于所述论文文档中的标题和摘要,确定样本文本。
具体地,在获取到标签列表中各个标签相关的论文文档后,可以基于论文文档中的标题和摘要,确定样本文本。例如,可以直接将论文文档中的标题和摘要作为样本文本。
本发明实施例提供的方法,基于论文文档中的标题和摘要,确定样本文本,相较于传统的基于整篇文档,确定样本文本,提高了关键词抽取模型训练的效率。
基于上述任一实施例,本发明提供一种文档标注方法,图4是本发明提供的文档标注方法的流程示意图之二,如图4所示,该方法包括:
步骤410,可以获取待标注文档和标签列表。
步骤420,可以应用关键词抽取模型,对待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在待标注文档中的词频。此处的关键词抽取模型是基于样本文本和样本文本对应的样本关键词训练得到的。
此处的样本文本和样本文本对应的样本关键词的获取步骤,包括:
可以获取标签列表中各个标签相关的论文文档,此处的论文文档自身携带有论文关键词;
可以基于论文文档中的标题和摘要,确定样本文本,基于论文关键词,确定样本文本对应的样本关键词。
步骤430,可以基于各个关键词和标签列表中的各个标签之间的相似度,以及各个关键词在待标注文档中的词频,确定待标注文档的多个标签的标签得分。
其中,可以基于如下公式,确定待标注文档的多个标签的标签得分:
Figure 540852DEST_PATH_IMAGE026
其中,
Figure 603224DEST_PATH_IMAGE027
表示待标注文档的第
Figure 928026DEST_PATH_IMAGE028
个标签的标签得分,
Figure 969931DEST_PATH_IMAGE029
表示第
Figure 267052DEST_PATH_IMAGE030
个关键词,
Figure 497395DEST_PATH_IMAGE031
表示第
Figure 43914DEST_PATH_IMAGE003
个标签,
Figure 155089DEST_PATH_IMAGE032
表示关键词的总数,
Figure 103454DEST_PATH_IMAGE033
为第
Figure 507628DEST_PATH_IMAGE018
个关键词和第
Figure 338181DEST_PATH_IMAGE017
个标签的相似度,
Figure 721889DEST_PATH_IMAGE034
为第
Figure 790339DEST_PATH_IMAGE035
个关键词在待标注文档中的词频,
Figure 368344DEST_PATH_IMAGE036
是对
Figure 889455DEST_PATH_IMAGE037
进行归一化后的词频。
步骤440,可以基于多个标签的标签得分,以及阈值得分和/或待标注文档的预设标签数目,对多个标签进行筛选,并将筛选所得的标签确定为待标注文档的目标标签。
下面对本发明提供的文档标注装置进行描述,下文描述的文档标注装置与上文描述的文档标注方法可相互对应参照。
基于上述任一实施例,本发明提供一种文档标注装置,图5是本发明提供的文档标注装置的结构示意图,如图5所示,该装置包括:
获取单元510,用于获取待标注文档和标签列表;
关键词抽取单元520,用于对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;
确定标签单元530,用于基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
本发明实施例提供的装置,结合各个关键词和标签列表中的各个标签之间的相似度,以及各个关键词在待标注文档中的词频,确定待标注文档的目标标签,相似度与词频的结合保证了目标标签确定的可靠性和准确性,并且不受标注样本获取数量的限制,实现容易,且目标标签的可靠性强。
基于上述任一实施例,确定标签单元具体包括:
确定标签得分单元,用于基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分;
确定目标标签单元,用于基于所述多个标签的标签得分,确定所述待标注文档的目标标签。
基于上述任一实施例,确定标签得分单元具体用于:
基于如下公式,确定所述待标注文档的多个标签的标签得分:
Figure 76854DEST_PATH_IMAGE038
其中,
Figure 999811DEST_PATH_IMAGE039
表示待标注文档的第
Figure 949050DEST_PATH_IMAGE003
个标签的标签得分,
Figure 957457DEST_PATH_IMAGE004
表示第
Figure 948547DEST_PATH_IMAGE010
个关键词,
Figure 726010DEST_PATH_IMAGE040
表示第
Figure 639959DEST_PATH_IMAGE041
个标签,
Figure 870083DEST_PATH_IMAGE042
表示关键词的总数,
Figure 664864DEST_PATH_IMAGE043
为第
Figure 296833DEST_PATH_IMAGE044
个关键词和第
Figure 384613DEST_PATH_IMAGE045
个标签的相似度,
Figure 367612DEST_PATH_IMAGE046
为第
Figure 700505DEST_PATH_IMAGE047
个关键词在待标注文档中的词频,
Figure 186981DEST_PATH_IMAGE048
是对
Figure 714170DEST_PATH_IMAGE049
进行归一化后的词频。
基于上述任一实施例,确定目标标签单元具体用于:
基于所述多个标签的标签得分,以及阈值得分和/或所述待标注文档的预设标签数目,对所述多个标签进行筛选,并将筛选所得的标签确定为所述待标注文档的目标标签。
基于上述任一实施例,关键词抽取单元具体包括:
应用关键词抽取模型,对所述待标注文档进行关键词抽取,得到多个关键词;
所述关键词抽取模型是基于样本文本和所述样本文本对应的样本关键词训练得到的。
基于上述任一实施例,所述样本文本和所述样本文本对应的样本关键词的获取步骤,包括:
获取文档单元,用于获取所述标签列表中各个标签相关的论文文档,所述论文文档自身携带有论文关键词;
确定文本和关键词单元,用于基于所述论文文档,确定所述样本文本,基于所述论文关键词,确定所述样本文本对应的样本关键词。
基于上述任一实施例,确定文本和关键词单元具体用于:
基于所述论文文档中的标题和摘要,确定样本文本。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行文档标注方法,该方法包括:获取待标注文档和标签列表;对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文档标注方法,该方法包括:获取待标注文档和标签列表;对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文档标注方法,该方法包括:获取待标注文档和标签列表;对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文档标注方法,其特征在于,包括:
获取待标注文档和标签列表;
对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;
基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
2.根据权利要求1所述的文档标注方法,其特征在于,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签,包括:
基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分;
基于所述多个标签的标签得分,确定所述待标注文档的目标标签。
3.根据权利要求2所述的文档标注方法,其特征在于,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分,包括:
基于如下公式,确定所述待标注文档的多个标签的标签得分:
Figure 888400DEST_PATH_IMAGE001
其中,
Figure 523518DEST_PATH_IMAGE002
表示待标注文档的第
Figure 536605DEST_PATH_IMAGE003
个标签的标签得分,
Figure 733231DEST_PATH_IMAGE004
表示第
Figure 395550DEST_PATH_IMAGE005
个关键词,
Figure 335824DEST_PATH_IMAGE006
表示 第
Figure 796892DEST_PATH_IMAGE007
个标签,
Figure 695578DEST_PATH_IMAGE008
表示关键词的总数,
Figure 373422DEST_PATH_IMAGE009
为第
Figure 55070DEST_PATH_IMAGE010
个关键词和第
Figure 370645DEST_PATH_IMAGE003
个标签的相似度,
Figure 909073DEST_PATH_IMAGE011
为第
Figure 805704DEST_PATH_IMAGE012
个关键词在待标注文档中的词频,
Figure 353360DEST_PATH_IMAGE013
是对
Figure 116917DEST_PATH_IMAGE014
进行归一化后的词频。
4.根据权利要求2所述的文档标注方法,其特征在于,所述基于所述多个标签的标签得分,确定所述待标注文档的目标标签,包括:
基于所述多个标签的标签得分,以及阈值得分和/或所述待标注文档的预设标签数目,对所述多个标签进行筛选,并将筛选所得的标签确定为所述待标注文档的目标标签。
5.根据权利要求1至4中任一项所述的文档标注方法,其特征在于,所述对所述待标注文档进行关键词抽取,得到多个关键词,包括:
应用关键词抽取模型,对所述待标注文档进行关键词抽取,得到多个关键词;
所述关键词抽取模型是基于样本文本和所述样本文本对应的样本关键词训练得到的。
6.根据权利要求5所述的文档标注方法,其特征在于,所述样本文本和所述样本文本对应的样本关键词的获取步骤,包括:
获取所述标签列表中各个标签相关的论文文档,所述论文文档自身携带有论文关键词;
基于所述论文文档,确定所述样本文本,基于所述论文关键词,确定所述样本文本对应的样本关键词。
7.根据权利要求6所述的文档标注方法,其特征在于,所述基于所述论文文档,确定所述样本文本,包括:
基于所述论文文档中的标题和摘要,确定样本文本。
8.一种文档标注装置,其特征在于,包括:
获取单元,用于获取待标注文档和标签列表;
关键词抽取单元,用于对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;
确定标签单元,用于基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文档标注方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文档标注方法。
CN202211592980.XA 2022-12-13 2022-12-13 文档标注方法、装置、电子设备及存储介质 Active CN115659969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211592980.XA CN115659969B (zh) 2022-12-13 2022-12-13 文档标注方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211592980.XA CN115659969B (zh) 2022-12-13 2022-12-13 文档标注方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115659969A true CN115659969A (zh) 2023-01-31
CN115659969B CN115659969B (zh) 2023-04-28

Family

ID=85017459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211592980.XA Active CN115659969B (zh) 2022-12-13 2022-12-13 文档标注方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115659969B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971780A (zh) * 2023-12-29 2024-05-03 青矩技术股份有限公司 文档存储方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235774A (zh) * 2013-04-27 2013-08-07 杭州电子科技大学 一种科技项目申请书特征词提取方法
CN110489649A (zh) * 2019-08-19 2019-11-22 北京创鑫旅程网络技术有限公司 标签关联内容的方法及装置
CN110717092A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 为文章匹配对象的方法、***、设备及存储介质
CN110781297A (zh) * 2019-09-18 2020-02-11 国家计算机网络与信息安全管理中心 基于层次判别树的多标签科研论文的分类方法
CN111967262A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 实体标签的确定方法和装置
US20220019741A1 (en) * 2020-07-16 2022-01-20 Optum Technology, Inc. An unsupervised approach to assignment of pre-defined labels to text documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235774A (zh) * 2013-04-27 2013-08-07 杭州电子科技大学 一种科技项目申请书特征词提取方法
CN110717092A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 为文章匹配对象的方法、***、设备及存储介质
CN110489649A (zh) * 2019-08-19 2019-11-22 北京创鑫旅程网络技术有限公司 标签关联内容的方法及装置
CN110781297A (zh) * 2019-09-18 2020-02-11 国家计算机网络与信息安全管理中心 基于层次判别树的多标签科研论文的分类方法
CN111967262A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 实体标签的确定方法和装置
US20220019741A1 (en) * 2020-07-16 2022-01-20 Optum Technology, Inc. An unsupervised approach to assignment of pre-defined labels to text documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971780A (zh) * 2023-12-29 2024-05-03 青矩技术股份有限公司 文档存储方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115659969B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN107437038B (zh) 一种网页篡改的检测方法及装置
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN108334489B (zh) 文本核心词识别方法和装置
CN109241277B (zh) 基于新闻关键词的文本向量加权的方法及***
CN111160019B (zh) 一种舆情监测的方法、装置及***
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN113722492A (zh) 一种意图识别方法及装置
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN115659969B (zh) 文档标注方法、装置、电子设备及存储介质
TWI681304B (zh) 自適應性調整關連搜尋詞的系統及其方法
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN113255319B (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN113011174B (zh) 一种基于文本分析的围标串标识别方法
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置
CN114021064A (zh) 网站分类方法、装置、设备及存储介质
CN113868431A (zh) 面向金融知识图谱的关系抽取方法、装置及存储介质
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant