CN115659969A

CN115659969A - 文档标注方法、装置、电子设备及存储介质

Info

Publication number: CN115659969A
Application number: CN202211592980.XA
Authority: CN
Inventors: 郑玉玲; 王凌云; 王梓凝; 刘兆蓬; 宋丹丹
Original assignee: Chengfang Financial Technology Co ltd
Current assignee: Chengfang Financial Technology Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-01-31
Anticipated expiration: 2042-12-13
Also published as: CN115659969B

Abstract

本发明涉及文档标注技术领域，提供一种文档标注方法、装置、电子设备及存储介质，其中方法包括：获取待标注文档和标签列表；对所述待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在所述待标注文档中的词频；基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签。本发明提供的方法、装置、电子设备及存储介质，结合各个关键词和标签列表中的各个标签之间的相似度和各个关键词在待标注文档中的词频，确定待标注文档的目标标签，保证了目标标签确定的可靠性和准确性，并且不受标注样本获取数量的限制，实现容易，且目标标签的可靠性强。

Description

文档标注方法、装置、电子设备及存储介质

技术领域

本发明涉及文档标注技术领域，尤其涉及一种文档标注方法、装置、电子设备及存储介质。

背景技术

文档自动标注旨在为给定文档打上一个或多个标签，便于后续对文档进行分类、搜索、摘要等处理。

现有技术中，传统的机器学习的文档标注方法和深度学习的文档标注方法，均为有监督学习方法，其模型的训练依赖于大量的标注数据。然而，在实际应用中，有些场景下只能获得一部分无标签文档以及标签列表，而另一些场景下，由于数据隐私等问题，仅仅能获得标签列表，而标注样本的缺失，直接影响了文档自动标注的可靠性。

发明内容

本发明提供一种文档标注方法、装置、电子设备及存储介质，用以解决现有技术中有监督学习的文档标注方法依赖于大量的标注数据进行训练的缺陷。

本发明提供一种文档标注方法，包括：

获取待标注文档和标签列表；

对所述待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在所述待标注文档中的词频；

基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签。

根据本发明提供的一种文档标注方法，所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签，包括：

基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的多个标签的标签得分；

基于所述多个标签的标签得分，确定所述待标注文档的目标标签。

根据本发明提供的一种文档标注方法，所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的多个标签的标签得分，包括：

基于如下公式，确定所述待标注文档的多个标签的标签得分：

其中，

表示待标注文档的第

个标签的标签得分，

表示第

个关键词，

表示第

个标签，

表示关键词的总数，

为第

个关键词和第

个标签的相似度，

为第个

关键词在待标注文档中的词频，

是对

进行归一化后的词频。

根据本发明提供的一种文档标注方法，所述基于所述多个标签的标签得分，确定所述待标注文档的目标标签，包括：

基于所述多个标签的标签得分，以及阈值得分和/或所述待标注文档的预设标签数目，对所述多个标签进行筛选，并将筛选所得的标签确定为所述待标注文档的目标标签。

根据本发明提供的一种文档标注方法，所述对所述待标注文档进行关键词抽取，得到多个关键词，包括：

应用关键词抽取模型，对所述待标注文档进行关键词抽取，得到多个关键词；

所述关键词抽取模型是基于样本文本和所述样本文本对应的样本关键词训练得到的。

根据本发明提供的一种文档标注方法，所述样本文本和所述样本文本对应的样本关键词的获取步骤，包括：

获取所述标签列表中各个标签相关的论文文档，所述论文文档自身携带有论文关键词；

基于所述论文文档，确定所述样本文本，基于所述论文关键词，确定所述样本文本对应的样本关键词。

根据本发明提供的一种文档标注方法，所述基于所述论文文档，确定所述样本文本，包括：

基于所述论文文档中的标题和摘要，确定样本文本。

本发明还提供一种文档标注装置，包括：

获取单元，用于获取待标注文档和标签列表；

关键词抽取单元，用于对所述待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在所述待标注文档中的词频；

确定标签单元，用于基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文档标注方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文档标注方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文档标注方法。

本发明提供的文档标注方法、装置、电子设备及存储介质，结合各个关键词和标签列表中的各个标签之间的相似度，以及各个关键词在待标注文档中的词频，确定待标注文档的目标标签，相似度与词频的结合保证了目标标签确定的可靠性和准确性，并且不受标注样本获取数量的限制，实现容易，且目标标签的可靠性强。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文档标注方法的流程示意图之一；

图2是本发明提供的文档标注方法中步骤130的流程示意图；

图3是本发明提供的样本文本和样本文本对应的样本关键词的获取步骤流程示意图；

图4是本发明提供的文档标注方法的流程示意图之二；

图5是本发明提供的文档标注装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，文档自动标注旨在为给定文档打上一个或多个标签，便于后续对文档进行分类、搜索、摘要等处理。在文档管理场景中，如人工智能、大数据、区块链等场景，通常已有标签库，当新文档入库时，需给新文档打上已有标签库内的标签。

常见的文档标注方法有文本分类方法，文本分类方法将文本标签作为一个多分类任务来解决。传统的文本分类方法首先利用BoW（Bag of Words）、TF-IDF（Term Frequency–Inverse Document Frequency）等方法获取文本特征，然后使用Naive Bayes（朴素贝叶斯算法）、SVM（Support Vector Machine，支持向量机）、Radom forest（随机森林）等机器学习算法来构建文本分类模型，自2019年Bert模型被提出以来，基于Bert（BidirectionalEncoder Representation from Transformers）模型的深度学习文本分类模型成为主流的文本分类方法。

在英文文本的标注场景下，提出了一种仅仅利用标签名而无需标签数据的一种文本分类方法，然而，该方法依赖于使用Bert模型来预测标签的同义词。为了获取有正确语义的同义词，其标签必须为不可分词的最小单位，如good、bad、commerce、economy这类常见单词。

然而，在中文文本的标注场景下，标签长度通常大于等于2，例如“人工智能”，然而“人工智能”在Bert模型中会分成4个token，因此，最终Bert模型很难给出正确语义的短语，导致该方法无法直接适用在中文文本的标注场景下。

针对上述问题，本发明提出一种文档标注方法，图1是本发明提供的文档标注方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取待标注文档和标签列表。

具体地，可以获取待标注文档和标签列表，此处的待标注文档即后续需要进行文档标注的文档，待标注文档可以是用户直接输入的文本形成的文档，也可以是将采集所得的音频进行语音转写后得到的文本形成的文档，还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像，并对图像进行OCR（Optical Character Recognition，光学字符识别）得到的文本形成的文档，本发明实施例对此不作具体限定。

此处的标签列表是指各个标签的集合，标签列表可以是预设的，也可以是在网页上爬取的，本发明实施例对此不作具体限定。

步骤120，对所述待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在所述待标注文档中的词频。

具体地，在获取到待标注文档后，可以对待标注文档进行关键词抽取，得到多个关键词。此处的关键词抽取可以使用关键词抽取模型，此处的关键词抽取模型可以是Bert（Bidirectional Encoder Representation from Transformers）模型，也可以是LSTM-CRF（Long Short Term Memory- Conditional Random Field algorithm，长短期记忆网络-条件随机场）算法，还可以是BERT-CRF算法等，本发明实施例对此不作具体限定。

此处的多个关键词反映了待标注文档中的重点，可以是“人工智能”、“区块链”，也可以是“大数据”、“自然语言处理”，还可以是“人工智能”、“大数据”、“自然语言处理”、“区块链”等，本发明实施例对此不作具体限定。

在得到关键词之后，可以统计各个关键词在待标注文档中的词频，此处的词频是指各个关键词在待标注文档中出现的次数，例如，各个关键词在待标注文档中的词频可以是[(“人工智能”，5)，(“大数据”，2)，（“自然语言处理”，1）]等。

步骤130，基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签。

具体地，在统计得到各个关键词在待标注文档中的词频后，可以基于各个关键词和标签列表中的各个标签之间的相似度，以及各个关键词在待标注文档中的词频，确定待标注文档的目标标签。此处的目标标签是指待标注文档的最终标签，目标标签可以是一个，也可以是多个，还可以为空，本发明实施例对此不作具体限定。

此处的各个关键词和标签列表中的各个标签之间的相似度可以采用余弦相似度、Pearson相关系数（Pearson Correlation Coefficient）等方法进行计算得到，并且在相似度计算之前可以使用word2vec的嵌入表示（Embedding)对各个关键词和标签列表中的各个标签的进行词编码，再基于词编码后的向量进行相似度的计算，本发明实施例对此不作具体限定。

此处的各个关键词和标签列表中的各个标签之间的相似度反映了各个关键词和标签列表中的各个标签的匹配程度。可以理解的是，各个关键词和标签列表中的各个标签之间的相似度越高，各个关键词和标签列表中的各个标签越匹配；各个关键词和标签列表中的各个标签之间的相似度越低，各个关键词和标签列表中的各个标签越不匹配。

考虑到各个关键词在待标注文档中的词频体现了各个关键词在待标注文档中出现的次数，而某个关键词在待标注文档中出现的次数可以体现该关键词在待标注文档中的重要程度。

例如，可以将各个关键词和标签列表中的各个标签之间的相似度，以及各个关键词在待标注文档中的词频都作为待标注文档的目标标签的评判标准，从而得到待标注文档的目标标签。

本发明实施例提供的方法，结合各个关键词和标签列表中的各个标签之间的相似度，以及各个关键词在待标注文档中的词频，确定待标注文档的目标标签，相似度与词频的结合保证了目标标签确定的可靠性和准确性，并且不受标注样本获取数量的限制，实现容易，且目标标签的可靠性强。

基于上述实施例，图2是本发明提供的文档标注方法中步骤130的流程示意图，如图2所示，步骤130包括：

步骤131，基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的多个标签的标签得分；

步骤132，基于所述多个标签的标签得分，确定所述待标注文档的目标标签。

具体地，在得到各个关键词在待标注文档中的词频后，可以将各个关键词和标签列表中的各个标签之间的相似度，以及各个关键词在待标注文档中的词频进行加权，得到待标注文档的多个标签的标签得分，此处的标签得分反映了各个标签作为目标标签的得分，或者，反映了各个标签作为目标标签的概率，可以是0.5，也可以是0.8，还可以是0.7等，本发明实施例对此不作具体限定。

考虑到各个关键词在待标注文档中的词频体现了各个关键词在待标注文档中出现的次数，而某个关键词在待标注文档中出现的次数可以体现该关键词在待标注文档中的重要程度。可以理解的是，关键词在待标注文档中的词频越大，该关键词越能影响待标注文档与该关键词相似的标签的标签得分；关键词在待标注文档中的词频越小，该关键词越不影响待标注文档与该关键词相似的标签的标签得分，因此，可以将各个关键词在待标注文档中的词频作为待标注文档的多个标签的标签得分的评判依据。

在得到待标注文档的多个标签的标签得分后，可以基于多个标签的标签得分，确定待标注文档的目标标签。此处的目标标签是指待标注文档的最终标签。

例如，可以基于多个标签的标签得分，对多个标签进行筛选，并将多个标签的标签得分中得分较高的那些标签确定为待标注文档的目标标签。

本发明实施例提供的方法，基于多个标签的标签得分，确定待标注文档的目标标签，标签得分反映了各个标签作为目标标签的得分，或者，反映了各个标签作为目标标签的概率，由此保证了待标注文档的目标标签的可靠性和准确性。

基于上述实施例，步骤131包括：

其中，

表示待标注文档的第

个标签的标签得分，

表示第

个关键词，

表示第

个标签，

表示关键词的总数，

为第

个关键词和第

个标签的相似度，

为第

个关键词在待标注文档中的词频，

是对

进行归一化后的词频。

基于上述实施例，步骤132包括：

具体地，在得到多个标签的标签得分后，可以基于多个标签的标签得分，以及阈值得分，对多个标签进行筛选，并将筛选所得的标签确定为待标注文档的目标标签；也可以基于多个标签的标签得分，以及待标注文档的预设标签数目，对多个标签进行筛选，并将筛选所得的标签确定为待标注文档的目标标签；还可以基于多个标签的标签得分，以及阈值得分和/或待标注文档的预设标签数目，对多个标签进行筛选，并将筛选所得的标签确定为待标注文档的目标标签，本发明实施例对此不作具体限定。

此处的阈值得分是指阈值标签得分，可以是预先设置的，也可以根据实际情况进行设置。此处的待标注文档的预设标签数目是指待标注文档所需要的标签数目，可以是预先设置的，也可以根据实际情况进行设置，本发明实施例对此不作具体限定。

例如，阈值得分为0.5，待标注文档的预设标签数目为5，多个标签的标签得分有0.6、0.7、0.8，而标签得分0.6对应“人工智能”标签，标签得分0.7对应“支持向量机”，标签得分0.8对应“自然语言处理”，则基于多个标签的标签得分，以及阈值得分和/或待标注文档的预设标签数目，对多个标签进行筛选，可以将筛选所得的标签“人工智能”、“支持向量机”和“自然语言处理”，确定为待标注文档的目标标签。

此外，在基于多个标签的标签得分，以及阈值得分和/或待标注文档的预设标签数目，对多个标签进行筛选之前，可以对多个标签的标签得分进行排序，并基于排序后的多个标签的标签得分，对多个标签进行筛选。此处的对多个标签的标签得分进行排序可以将多个标签的标签得分从高到低进行排序，也可以将多个标签的标签得分从低到高进行排序，本发明实施例对此不作具体限定。

本发明实施例提供的方法，基于多个标签的标签得分，并结合阈值得分和/或待标注文档的预设标签数目的条件，对多个标签进行筛选，并将筛选所得的标签确定为待标注文档的目标标签，由此，保证了待标注文档的目标标签确定的准确性。

基于上述实施例，步骤120包括：

步骤121，应用关键词抽取模型，对所述待标注文档进行关键词抽取，得到多个关键词；

具体地，为了能够抽取到待标注文档的关键词，需要在步骤121之前，通过如下步骤获取关键词抽取模型：

可以预先收集样本文本和样本文本对应的样本关键词，还可以构建初始关键词抽取模型，此处的初始关键词抽取模型即训练关键词抽取模型的初始模型。此处，初始关键词抽取模型可以包括Bert 模型和分类层，此处的分类层可以是softmax层，也可以是CRF（Conditional Random Field algorithm，条件随机场算法），本发明实施例对此不作具体限定。

在得到初始关键词抽取模型后，即可应用预先收集好的样本文本和样本文本对应的样本关键词，对初始关键词抽取模型进行训练：

可以将样本文本输入至初始关键词抽取模型中，由初始关键词抽取模型对样本文本进行关键词抽取，得到并输出样本文本的预测关键词。

在基于初始关键词抽取模型得到预测关键词后，即可将预测关键词与预先收集的样本文本对应的样本关键词进行比较，根据此两者之间的差异程度计算得到损失函数值，并基于损失函数值对初始关键词抽取模型进行参数迭代，将完成参数迭代后的初始关键词抽取模型记为关键词抽取模型。

可以理解的是，预测关键词与预先收集的样本文本对应的样本关键词的差异程度越大，损失函数值越大；预测关键词与预先收集的样本文本对应的样本关键词的差异程度越小，损失函数值越小。

即，在初始关键词抽取模型的训练过程中，学习到了对待标注文档进行关键词抽取，以抽取能够用于确定待标注文档的目标标签的关键词。

相关技术中，在应用样本文本和样本文本对应的样本关键词进行关键词抽取模型训练时，样本文本对应的样本关键词通常难以获取，针对上述问题，本发明实施例中样本文本是基于标签列表中各个标签相关的论文文档确定的，样本文本对应的样本关键词是论文文档中携带的论文关键词。

基于上述实施例，图3是本发明提供的样本文本和样本文本对应的样本关键词的获取步骤流程示意图，如图3所示，所述样本文本和所述样本文本对应的样本关键词的获取步骤，包括：

步骤310，获取所述标签列表中各个标签相关的论文文档，所述论文文档自身携带有论文关键词；

步骤320，基于所述论文文档，确定所述样本文本，基于所述论文关键词，确定所述样本文本对应的样本关键词。

具体地，可以获取标签列表中各个标签相关的论文文档，此处的论文文档自身携带有论文关键词，即论文关键词不需要进行人工标注，节约了大量的时间成本，提高了后续样本文本和样本文本对应的样本关键词的获取效率。

可以理解的是，获取到标签列表中各个标签后，就可以从开源数据集中匹配到与各个标签相关的论文文档，此处的开源数据集可以从各个论文文档的下载网站上爬取得到。

在获取到标签列表中各个标签相关的论文文档后，可以基于论文文档，确定样本文本。例如，可以直接将论文文档作为样本文本，又例如，可以将能代表论文文档中的核心思想的文本作为样本文本。

随即，可以基于论文关键词，确定样本文本对应的样本关键词。例如，可以将论文文档自身携带有的论文关键词，作为样本文本对应的样本关键词。

例如，样本文本和样本文本对应的样本关键词可以是[（样本文本1，[样本文本1对应的样本关键词1，...]），（样本文本2，[样本文本2对应的样本关键词1，...]，...(样本文本N，[样本文本N对应的样本关键词1，...])]等。

本发明实施例提供的方法，样本文本是基于论文文档确定的，而论文文档自身携带有论文关键词，样本文本对应的样本关键词是基于论文关键词确定的，即样本文本对应的样本关键词不需要人工标注，节约了大量的时间成本。

相关技术中，在应用样本文本和样本文本对应的样本关键词进行关键词抽取模型训练时，样本文本通常使用整篇文档，增加了关键词抽取模型的训练成本，降低了关键词抽取模型的训练效率。

基于上述实施例，步骤320包括：

基于所述论文文档中的标题和摘要，确定样本文本。

具体地，在获取到标签列表中各个标签相关的论文文档后，可以基于论文文档中的标题和摘要，确定样本文本。例如，可以直接将论文文档中的标题和摘要作为样本文本。

本发明实施例提供的方法，基于论文文档中的标题和摘要，确定样本文本，相较于传统的基于整篇文档，确定样本文本，提高了关键词抽取模型训练的效率。

基于上述任一实施例，本发明提供一种文档标注方法，图4是本发明提供的文档标注方法的流程示意图之二，如图4所示，该方法包括：

步骤410，可以获取待标注文档和标签列表。

步骤420，可以应用关键词抽取模型，对待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在待标注文档中的词频。此处的关键词抽取模型是基于样本文本和样本文本对应的样本关键词训练得到的。

此处的样本文本和样本文本对应的样本关键词的获取步骤，包括：

可以获取标签列表中各个标签相关的论文文档，此处的论文文档自身携带有论文关键词；

可以基于论文文档中的标题和摘要，确定样本文本，基于论文关键词，确定样本文本对应的样本关键词。

步骤430，可以基于各个关键词和标签列表中的各个标签之间的相似度，以及各个关键词在待标注文档中的词频，确定待标注文档的多个标签的标签得分。

其中，可以基于如下公式，确定待标注文档的多个标签的标签得分：

其中，

表示待标注文档的第

个标签的标签得分，

表示第

个关键词，

表示第

个标签，

表示关键词的总数，

为第

个关键词和第

个标签的相似度，

为第

个关键词在待标注文档中的词频，

是对

进行归一化后的词频。

步骤440，可以基于多个标签的标签得分，以及阈值得分和/或待标注文档的预设标签数目，对多个标签进行筛选，并将筛选所得的标签确定为待标注文档的目标标签。

下面对本发明提供的文档标注装置进行描述，下文描述的文档标注装置与上文描述的文档标注方法可相互对应参照。

基于上述任一实施例，本发明提供一种文档标注装置，图5是本发明提供的文档标注装置的结构示意图，如图5所示，该装置包括：

获取单元510，用于获取待标注文档和标签列表；

关键词抽取单元520，用于对所述待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在所述待标注文档中的词频；

确定标签单元530，用于基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签。

本发明实施例提供的装置，结合各个关键词和标签列表中的各个标签之间的相似度，以及各个关键词在待标注文档中的词频，确定待标注文档的目标标签，相似度与词频的结合保证了目标标签确定的可靠性和准确性，并且不受标注样本获取数量的限制，实现容易，且目标标签的可靠性强。

基于上述任一实施例，确定标签单元具体包括：

确定标签得分单元，用于基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的多个标签的标签得分；

确定目标标签单元，用于基于所述多个标签的标签得分，确定所述待标注文档的目标标签。

基于上述任一实施例，确定标签得分单元具体用于：

其中，

表示待标注文档的第

个标签的标签得分，

表示第

个关键词，

表示第

个标签，

表示关键词的总数，

为第

个关键词和第

个标签的相似度，

为第

个关键词在待标注文档中的词频，

是对

进行归一化后的词频。

基于上述任一实施例，确定目标标签单元具体用于：

基于上述任一实施例，关键词抽取单元具体包括：

基于上述任一实施例，所述样本文本和所述样本文本对应的样本关键词的获取步骤，包括：

获取文档单元，用于获取所述标签列表中各个标签相关的论文文档，所述论文文档自身携带有论文关键词；

确定文本和关键词单元，用于基于所述论文文档，确定所述样本文本，基于所述论文关键词，确定所述样本文本对应的样本关键词。

基于上述任一实施例，确定文本和关键词单元具体用于：

基于所述论文文档中的标题和摘要，确定样本文本。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器（processor）610、通信接口（Communications Interface）620、存储器（memory）630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行文档标注方法，该方法包括：获取待标注文档和标签列表；对所述待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在所述待标注文档中的词频；基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文档标注方法，该方法包括：获取待标注文档和标签列表；对所述待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在所述待标注文档中的词频；基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文档标注方法，该方法包括：获取待标注文档和标签列表；对所述待标注文档进行关键词抽取，得到多个关键词，并统计各个关键词在所述待标注文档中的词频；基于所述各个关键词和所述标签列表中的各个标签之间的相似度，以及所述各个关键词在所述待标注文档中的词频，确定所述待标注文档的目标标签。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。