CN115640376A - 文本标注方法、装置、电子设备和计算机可读存储介质 - Google Patents

文本标注方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN115640376A
CN115640376A CN202211098267.XA CN202211098267A CN115640376A CN 115640376 A CN115640376 A CN 115640376A CN 202211098267 A CN202211098267 A CN 202211098267A CN 115640376 A CN115640376 A CN 115640376A
Authority
CN
China
Prior art keywords
text
subject
label
labeled
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211098267.XA
Other languages
English (en)
Inventor
贾蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202211098267.XA priority Critical patent/CN115640376A/zh
Publication of CN115640376A publication Critical patent/CN115640376A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本标注方法、装置、电子设备和计算机可读存储介质,涉及自然语言处理技术领域。其中,文本标注方法,包括:将待标注文本在标签数据库中匹配得到多个候选标签;从所述待标注文本中抽取多个主题词,计算各个所述主题词的主题词权重值;将各个所述主题词映射到与自身相似度最高的所述候选标签,将各个所述主题词的主题词权重值作为映射的所述候选标签的标签权重值;根据所述标签权重值从所述多个候选标签中抽取实体标签,使用所述实体标签标注所述待标注文本。与现有技术相比,本发明实施例所提供的文本标注方法、装置、电子设备和计算机可读存储介质具有提升文本标注过程中产生的标签的准确率的优点。

Description

文本标注方法、装置、电子设备和计算机可读存储介质
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种文本标注方法、装置、电子设备和计算机可读存储介质。
背景技术
随着信息科学技术的发展,网络信息空间与社会经济生活的融合程度逐渐加深,网络安全威胁的影响范围也日益广泛,定制化的网络攻击造成的后果也更加严重。而与此同时,全球网络空间频繁遭受到愈加复杂、隐蔽的攻击。例如,近年来高级持续性威胁、定向攻击在世界范围内的攻击行动次数和范围均呈增长态势,给网络空间带来极大威胁。面对渐趋复杂严峻的网络安全态势,网络威胁情报因其在网络攻击威胁发现、事件响应处置以及主动防御中起到重要作用,而成为网络安全领域研究的热点。
网络威胁情报是一种基于证据的知识,包括场景、机制、指标、含义和可操作的建议。随着海量的网络威胁情报数据不断出现,如何高效地处理网络威胁情报面临极大的挑战。为了更便于互联网用户从海量的网络威胁情报数据中获取对自己有效的网络威胁,就需要对网络威胁情报数据的网络威胁情报信息进行抽取和标注。
然而,传统的文本标注方法对网络威胁情报进行标注时产生的标签的准确率较低,为了提高标签的准确率,需要进行人工干涉,导致成本的大幅度升高。
发明内容
本发明的目的在于提供一种文本标注方法、装置、电子设备和计算机可读存储介质,以提升文本标注过程中产生的标签的准确率。
第一方面,本发明提供一种文本标注方法,包括:将待标注文本在标签数据库中匹配得到多个候选标签;从所述待标注文本中抽取多个主题词,计算各个所述主题词的主题词权重值;将各个所述主题词映射到与自身相似度最高的所述候选标签,将各个所述主题词的主题词权重值作为映射的所述候选标签的标签权重值;根据所述标签权重值从所述多个候选标签中抽取实体标签,使用所述实体标签标注所述待标注文本。
第二方面,本发明提供一种文本标注装置,包括:标签匹配模块,所述标签匹配模块用于将待标注文本在标签数据库中匹配得到多个候选标签;主题词抽取模块,所述主题词抽取模块用于从所述待标注文本中抽取多个主题词,计算各个所述主题词的主题词权重值;映射模块,所述映射模块用于将各个所述主题词映射到与自身相似度最高的所述候选标签,所述映射模块还用于将各个所述主题词的主题词权重值作为映射的所述候选标签的标签权重值;标注模块,所述标注模块用于根据所述标签权重值从所述多个候选标签中抽取实体标签,使用所述实体标签标注所述待标注文本。
第三方面,本发明提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述的文本标注方法。
第四方面,本发明提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行实现如前述的文本标注方法。
与现有技术相比,本发明提供的文本标注方法、装置、电子设备和计算机可读存储介质中,从待标注文本中抽取多个主题词,并计算各个主题词的主题词权重值,各个主题词的主题词权重值可以表征各个主题词与待标注文本的主要内容的语义接近程度,将各个主题词映射到与自身相似度最高的候选标签,将各个主题词的主题词权重值作为映射的候选标签的标签权重值,标签权重值同样可以表征各个候选标签与待标注文本的主要内容的语义接近程度,根据标签权重值从多个候选标签中抽取实体标签,可以对从标签数据库中匹配得到的候选标签进行筛选,筛选得到的实体标签与待标注文本的主要内容的语义接近程度较高,从而提升文本标注过程中产生的标签的准确率。
在可选的实施方式中,所述从所述待标注文本中抽取多个主题词,包括:使用分词模型对所述待标注文本进行分词,得到多个候选词;对所述多个候选词进行词汇处理,得到多个目标候选词,所述词汇处理包括:去重、停用词删除、无用词删除、大小写转换、错别字纠正中的一种或多种;从所述多个目标候选词中获取所述多个主题词。使用去重、停用词删除、无用词删除、大小写转换、错别字纠正中的一种或多种方法对候选词进行处理得到多个目标候选词,然后从多个目标候选词中获取多个主题词,可以减少主题词中的无用信息,提升主题词的质量的同时,减少后续计算各个主题词的主题词权重值时的计算量。
在可选的实施方式中,所述从所述多个目标候选词中获取所述多个主题词,包括:将所述多个目标候选词输入训练完成的主题词提取模型,获取所述主题词提取模型输出的所述主题词。使用训练完成的主题词提取模型直接从多个目标候选词中获取主题词,可以简化主题词的获取流程。
在可选的实施方式中,所述计算各个所述主题词的主题词权重值,包括:获取所述主题词提取模型输出的、与各个所述主题词一一对应的所述主题词权重值。使用主题词提取模型直接输出与各个主题词一一对应的主题词权重值,可以简化主题词权重值的计算过程,便于获取主题词权重值;此外,主题词提取模型同时输出主题词和与各个主题词一一对应的主题词权重值,可以保证主题词与主题词权重值的一一对应关系,避免主题词权重值计算过程中发生与主题词不对应的情况发生。
在可选的实施方式中,所述主题词提取模型为LDA模型、LSA模型、pLSA模型中的任意一种。
在可选的实施方式中,所述使用所述实体标签标注所述待标注文本前,所述方法还包括:将所述多个主题词与所述待标注文本拼接形成中间文本;将所述中间文本输入训练完成的语言模型,将所述语言模型的输出结果作为所述待标注文本的语义标签;所述使用所述实体标签标注所述待标注文本,包括:使用所述实体标签和所述语义标签共同标注所述待标注文本。将主题词与待标注文本拼接形成中间文本,将中间文本输入训练完成的语言模型,将语言模型的输出结果作为待标注文本的语义标签,可以新增标签数据库中并不存在的新的语义标签,使用实体标签和语义标签共同标注待标注文本,可以增加对待标注文本进行标注的标签的准确性。
在可选的实施方式中,所述语言模型为mT5模型、T5模型、T5-PEGASUS模型中的任意一种。
在可选的实施方式中,所述将各个所述主题词映射到与自身相似度最高的所述候选标签前,所述方法还包括:根据所述主题词权重值对所述多个主题词进行筛选,去除部分所述主题词。根据主题词权重值对多个主题词进行筛选,去除部分主题词,可以减少后续计算主题词与候选标签相似度和将主题词映射到候选标签时的计算量。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的文本标注方法的流程示意图;
图2为本发明实施例一提供的文本标注方法中抽取主题词的流程示意图;
图3为本发明实施例二提供的文本标注方法的流程示意图;
图4为本发明实施例三提供的文本标注方法的流程示意图;
图5为本发明实施例四提供的文本标注装置的结构示意图;
图6为本发明实施例五提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本发明实施例一提供了一种文本标注方法,具体步骤如图1所示,包括以下步骤:
步骤S101:将待标注文本在标签数据库中匹配得到多个候选标签。
具体的,标签数据库为众多标签集合形成的一个数据库,其中的标签可以为直接从互联网等平台获取,也可以是本步骤在执行前自行添加的,亦可以是部分从互联网等平台获取、部分自行添加,具体可以根据实际需要进行灵活的设置。下面,将对本实施方式的一种具体的应用场景下标签数据库的构建过程进行举例说明。
例如,在网络威胁情报信息的标注这一应用场景下,可以预先从网络社交媒体(如微博、博客等)、供应商公告、黑客论坛等网站获取带标签的网络威胁情报数据。然后对获取到的网络威胁情报数据的标签进行筛选,去除或者修改错误标签。对剩余的标签进行集中存储,形成标签数据库。可以理解的是,前述仅为本发明在网络威胁情报信息这一种具体的实施实例下的举例说明,并不构成限定,在本发明的其它应用场景下,例如对于企业文章、图书馆文章等应用场景下,也可以是直接使用已经构建完成的标签数据库、或者使用类似的方法自行构建,具体可以根据实际需要进行灵活的设置。
进一步的,在本步骤中,在从网络平台、企业文章访问***、图书馆图书管理***等来源获取到待标注文本后,将待标注文本与标签数据库中的标签进行匹配,得到多个候选标签。
步骤S102:从待标注文本中抽取多个主题词,计算各个主题词的主题词权重值。
具体的,主题词为待标注文本中已经存在的词语或者短语,主题词与待标注文本的主要内容之间存在一定的联系。而与主题词对应的主题词权重值即可以表征各个主题词与待标注文本的主要内容之间的联系的紧密程度,即将主题词与待标注文本之间的语义接近程度等联系关系的紧密程度进行量化的表示。例如,主题词可以是待标注文本中出现次数较多的词语或短语,则此时主题词权重值可以是各个主题词的具体出现次数。
进一步的,在本实施例中,从待标注文本中抽取多个主题词的步骤如图2所示,包括以下步骤:
步骤S201:使用分词模型对待标注文本进行分词,得到多个候选词。
具体的,在本步骤中,可以使用HanLP(Han Language Processing,汉语言处理包)对待标注文本进行分词,分词后得到多个候选词。可以理解的是,前述使用HanLP对待标注文本进行分词仅为本实施例中的一种具体的举例说明,并不构成限定,在本发明的其它实施例中,也可以是使用CRF(Conditional Random Field,自然语言处理)等不同的分词模型对待标注文本进行分词,具体可以根据实际需要进行灵活的使用,只需保证对待标注文本完成分词操作即可。
步骤S202:对多个候选词进行词汇处理,得到多个目标候选词。
具体的,在本步骤中,词汇处理包括:去重、停用词删除、无用词删除、大小写转换、错别字纠正中的一种或多种。可以理解的是,前述去重、停用词删除、无用词删除、大小写转换、错别字纠正仅为本实施例中的具体的举例说明,在本发明的其它实施例中,还可以是其它词汇处理方式,例如词性标注及去除、词形还原等,具体可以根据实际需要进行灵活的使用。
步骤S203:从多个目标候选词中获取多个主题词。
具体的,在本步骤中,可以使用训练完成的主题词提取模型从多个目标候选词中获取多个主题词。即将多个目标候选词输入训练完成的主题词提取模型,将主题词提取模型的输出结果作为主题词。其中,在本实施例中,主题词提取模型为LDA(Latent DirichletAllocation,隐含狄利克雷分布)模型。可以理解的是,主题词提取模型为LDA模型仅为本实施例中的一种具体的举例说明,并不构成限定,在本发明的其它实施例中,主题词提取模型还可以是例如LSA(Latent Semantic Analysis,潜在语义分析)模型、pLSA(probabilityLatent Semantic Analysis,概率潜在语义分析)模型等不同的数学模型,具体可以根据实际需要进行灵活的选用。
在本发明的不同实施例中,可以是直接获取其他人已经训练完成的主题词提取模型进行使用,也可以是在执行本步骤前自行进行模型训练后进行使用,具体可以根据实际需要进行灵活的选用。在本发明的一种实施例中,例如网络威胁情报信息的标注这一应用场景下,可以使用已知的网络威胁情报数据与其对应的主题词对LDA模型进行模型训练,LDA模型训练完成后,即可完成待标注的网络威胁情报信息的主题词的抽取。
进一步的,在本步骤中,当使用训练完成的主题词提取模型从多个目标候选词中获取多个主题词时,可以直接获取主题词提取模型输出的、与各个主题词一一对应的主题词权重值。例如,当使用LDA模型作为主题词提取模型时,LDA模型可以根据主题分布进行主题聚类或文本分类。这里需要了解的一个事实是,一篇待标注文本可以包含多个主题,对应多个主题词,所以会有主题分布这个概率。可以认为待标注文本中的每个词都由其中的一个主题词生成,即先以一定的概率选取某个主题,然后再以一定的概率选取该主题下的某个词,不断重复这两步,直到完成整个文档。LDA模型作用即为分析给定的待标注文本都有什么主题,各个主题对应哪些主题词,每个主题词出现的概率大小是多少。即LDA模型可以同时输出主题词和主题词对应的概率大小,而主题词对应的概率大小即可以作为与主题词对应主题词权重值。
可以理解的是,前述直接获取主题词提取模型输出的、与各个主题词一一对应的主题词权重值仅为本实施例中的一种具体的获取各个主题词的主题词权重值的一种具体的方法的举例说明,并不构成限定,在本发明的其它实施例中,也可以是其它方法,例如当主题词为待标注文本中出现次数较多的词语或短语,则此时主题词权重值可以是直接统计各个主题词的具体出现次数。具体的主题词权重值的计算方法可以根据实际需要进行灵活的使用。
步骤S103:将各个主题词映射到与自身相似度最高的候选标签,将各个主题词的主题词权重值作为映射的候选标签的标签权重值。
具体的,在本步骤中,首先计算各个主题词与各个候选标签之间的相似度,例如计算各个主题词与各个候选标签之间的词向量相似度、或者是计算各个主题词与各个候选标签之间的相关熵相似度等等不同方法计算各个主题词与各个候选标签之间的相似度。然后将各个主题词映射到与自身相似度最高的候选标签,即对于任意一个主题词,计算得到此主题词与各个候选标签之间的相似度后,将此主题词映射到与其相似度最大的候选标签上,将此主题词的主题词权重值作为映射的候选标签的标签权重值。
进一步的,在本实施例中,当存在多个主题词映射到同一个候选标签时,可以将多个主题词中主题词权重值的最大值作为此候选标签的标签权重值。可以理解的是,前述将多个主题词中主题词权重值的最大值作为此候选标签的标签权重值仅为本实施例中的一种具体的举例说明,并不构成限定,在本发明的其它实施例中,也可以是将此多个主题词的主题词权重值的最小值、或者是平均值等作为此候选标签的标签权重值,具体可以根据实际需要进行灵活的选用。
步骤S104:根据标签权重值从多个候选标签中抽取实体标签。
具体的,在本步骤中,根据标签权重值的大小获取标签权重值大于预设阈值的候选标签作为实体标签,其中预设阈值为预先根据实际需要设置的标签权重值的门限值。可以理解的是,前述获取标签权重值大于预设阈值的候选标签作为实体标签仅为本实施例中的一种具体的抽取实体标签的方法的举例说明,在本发明的其它实施例中,还可以是根据实际需要采取的其它方法,例如将标签权重值按照从大到小的顺序进行排序,抽取排名靠前的预设数量的候选标签作为实体标签,其中,预设数量为预先根据实际需要设置的实体标签的数量。
步骤S105:使用实体标签标注待标注文本。
与现有技术相比,本发明实施例一所提供的文本标注方法中,从待标注文本中抽取多个主题词,并计算各个主题词的主题词权重值,各个主题词的主题词权重值可以表征各个主题词与待标注文本的主要内容的语义接近程度,将各个主题词映射到与自身相似度最高的候选标签,将各个主题词的主题词权重值作为映射的候选标签的标签权重值,标签权重值同样可以表征各个候选标签与待标注文本的主要内容的语义接近程度,根据标签权重值从多个候选标签中抽取实体标签,可以对从标签数据库中匹配得到的候选标签进行筛选,筛选得到的实体标签与待标注文本的主要内容的语义接近程度较高,从而提升文本标注过程中产生的标签的准确率。
本发明实施例二提供了一种文本标注方法,具体步骤如图3所示,包括以下步骤:
步骤S301:将待标注文本在标签数据库中匹配得到多个候选标签。
步骤S302:从待标注文本中抽取多个主题词,计算各个主题词的主题词权重值。
步骤S303:将各个主题词映射到与自身相似度最高的候选标签,将各个主题词的主题词权重值作为映射的候选标签的标签权重值。
步骤S304:根据标签权重值从多个候选标签中抽取实体标签。
可以理解的是,本实施例二中的步骤S301至步骤S304与实施例一中的步骤S101至步骤S104大致相同,具体可以参照前述实施例的具体说明,在此不再赘述。
步骤S305:将多个主题词与待标注文本拼接形成中间文本。
具体的,在本步骤中,将多个主题词与待标注文本全部拼接在一起,形成中间文本。
步骤S306:将中间文本输入训练完成的语言模型,将语言模型的输出结果作为待标注文本的语义标签。
具体的,在本步骤中,可以使用训练完成的语言模型获取语义标签。即将中间文本输入训练完成的语言模型,将语言模型的输出结果作为待标注文本的语义标签。其中,在本实施例中,语言模型为mT5模型(T5(Text-to-Text Transfer Transformer)模型的一种变种模型)。可以理解的是,主题词提取模型为mT5模型仅为本实施例中的一种具体的举例说明,并不构成限定,在本发明的其它实施例中,主题词提取模型还可以是例如T5(Text-to-Text Transfer Transformer)模型、T5-PEGASUS模型(T5模型的中文变种模型)等不同的数学模型,具体可以根据实际需要进行灵活的选用。
进一步的,在本发明的不同实施例中,可以是直接使用其他人已经训练完成的语言模型获取语义标签,也可以是在执行本步骤前自行进行模型训练后进行使用,具体可以根据实际需要进行灵活的选用。在本发明的一种实施例中,例如网络威胁情报信息的标注这一应用场景下,可以使用前述实施例一的步骤S203中训练主题词提取模型时获取的主题词、训练用网络威胁情报数据、以及训练用网络威胁情报数据对应的标签进行语言模型的训练,具体为将前述实施例一的步骤S203中训练主题词提取模型时获取的主题词与训练用网络威胁情报数据进行拼接形成训练用中间文本,使用训练用中间文本和训练用网络威胁情报数据对应的标签对语言模型进行训练。
步骤S307:使用实体标签和语义标签共同标注待标注文本。
与现有技术相比,由于本实施例二中同样包含实施例一中的全部技术步骤,因此同样具备实施例一的技术效果;此外,在本发明实施例二中,将主题词与待标注文本拼接形成中间文本,将中间文本输入训练完成的语言模型,将语言模型的输出结果作为待标注文本的语义标签,可以新增标签数据库中并不存在的新的语义标签,使用实体标签和语义标签共同标注待标注文本,可以增加对待标注文本进行标注的标签的准确性。
本发明实施例三提供了一种文本标注方法,具体步骤如图4所示,包括以下步骤:
步骤S401:将待标注文本在标签数据库中匹配得到多个候选标签。
步骤S402:从待标注文本中抽取多个主题词,计算各个主题词的主题词权重值。
步骤S403:根据主题词权重值对多个主题词进行筛选,去除部分主题词。
具体的,在本步骤中,可以根据主题词权重值的大小保留主题词权重值大于预设权重值的主题词,而去除主题词权重值小于或等于预设权重值的主题词,其中预设权重值为预先根据实际需要设置的主题词权重值的门限值。可以理解的是,前述保留主题词权重值大于预设权重值的主题词,而去除主题词权重值小于或等于预设权重值的主题词仅为本实施例中的一种具体的抽取实体标签的方法的举例说明,在本发明的其它实施例中,还可以是根据实际需要采取的其它方法,例如将主题词权重值按照从大到小的顺序进行排序,保留排名靠前的预设主题词数量的主题词而去除排名靠后的主题词,其中,预设主题词数量为预先根据实际需要设置的主题词的数量。
步骤S404:将各个主题词映射到与自身相似度最高的候选标签,将各个主题词的主题词权重值作为映射的候选标签的标签权重值。
步骤S405:根据标签权重值从多个候选标签中抽取实体标签。
步骤S406:使用实体标签标注待标注文本。
可以理解的是,本实施例三中的步骤S401至步骤S402、以及步骤S404至步骤S406与实施例一中的步骤S101至步骤S105大致相同,具体可以参照前述实施例的具体说明,在此不再赘述。
与现有技术相比,由于本实施例三中同样包含实施例一中的全部技术步骤,因此同样具备实施例一的技术效果;此外,在本发明实施例三中,根据主题词权重值对多个主题词进行筛选,去除部分主题词,可以减少后续计算主题词与候选标签相似度和将主题词映射到候选标签时的计算量。
本发明实施例四涉及一种文本标注装置,具体结构如图5所示,包括:标签匹配模块501,标签匹配模块501用于将待标注文本在标签数据库中匹配得到多个候选标签;主题词抽取模块502,主题词抽取模块502用于从待标注文本中抽取多个主题词,计算各个主题词的主题词权重值;映射模块503,映射模块用于将各个主题词映射到与自身相似度最高的候选标签,映射模块503还用于将各个主题词的主题词权重值作为映射的候选标签的标签权重值;标注模块504,标注模块504用于根据标签权重值从多个候选标签中抽取实体标签,使用实体标签标注待标注文本。
与现有技术相比,本发明实施例四所提供的文本标注装置中,设置主题词抽取模块502从待标注文本中抽取多个主题词,并计算各个主题词的主题词权重值,各个主题词的主题词权重值可以表征各个主题词与待标注文本的主要内容的语义接近程度,设置映射模块503将各个主题词映射到与自身相似度最高的候选标签,并将各个主题词的主题词权重值作为映射的候选标签的标签权重值,标签权重值同样可以表征各个候选标签与待标注文本的主要内容的语义接近程度,标注模块504根据标签权重值从多个候选标签中抽取实体标签,可以对从标签数据库中匹配得到的候选标签进行筛选,筛选得到的实体标签与待标注文本的主要内容的语义接近程度较高,从而提升文本标注过程中产生的标签的准确率。
本发明实施例五涉及一种电子设备,如图6所示,包括:至少一个处理器601;以及,与至少一个处理器601通信连接的存储器602;其中,存储器602存储有可被至少一个处理器601执行的指令,指令被至少一个处理器601执行,以使至少一个处理器601能够执行上述各实施例中的文本标注方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明实施例六涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种文本标注方法,其特征在于,包括:
将待标注文本在标签数据库中匹配得到多个候选标签;
从所述待标注文本中抽取多个主题词,计算各个所述主题词的主题词权重值;
将各个所述主题词映射到与自身相似度最高的所述候选标签,将各个所述主题词的主题词权重值作为映射的所述候选标签的标签权重值;
根据所述标签权重值从所述多个候选标签中抽取实体标签,使用所述实体标签标注所述待标注文本。
2.根据权利要求1所述的文本标注方法,其特征在于,所述从所述待标注文本中抽取多个主题词,包括:
使用分词模型对所述待标注文本进行分词,得到多个候选词;
对所述多个候选词进行词汇处理,得到多个目标候选词,所述词汇处理包括:去重、停用词删除、无用词删除、大小写转换、错别字纠正中的一种或多种;
从所述多个目标候选词中获取所述多个主题词。
3.根据权利要求2所述的文本标注方法,其特征在于,所述从所述多个目标候选词中获取所述多个主题词,包括:
将所述多个目标候选词输入训练完成的主题词提取模型,获取所述主题词提取模型输出的所述主题词。
4.根据权利要求3所述的文本标注方法,其特征在于,所述计算各个所述主题词的主题词权重值,包括:
获取所述主题词提取模型输出的、与各个所述主题词一一对应的所述主题词权重值。
5.根据权利要求3所述的文本标注方法,其特征在于,所述主题词提取模型为LDA模型、LSA模型、pLSA模型中的任意一种。
6.根据权利要求1所述的文本标注方法,其特征在于,所述使用所述实体标签标注所述待标注文本前,所述方法还包括:
将所述多个主题词与所述待标注文本拼接形成中间文本;
将所述中间文本输入训练完成的语言模型,将所述语言模型的输出结果作为所述待标注文本的语义标签;
所述使用所述实体标签标注所述待标注文本,包括:
使用所述实体标签和所述语义标签共同标注所述待标注文本。
7.根据权利要求6所述的文本标注方法,其特征在于,所述语言模型为mT5模型、T5模型、T5-PEGASUS模型中的任意一种。
8.根据权利要求1所述的文本标注方法,其特征在于,所述将各个所述主题词映射到与自身相似度最高的所述候选标签前,所述方法还包括:
根据所述主题词权重值对所述多个主题词进行筛选,去除部分所述主题词。
9.一种文本标注装置,其特征在于,包括:
标签匹配模块,所述标签匹配模块用于将待标注文本在标签数据库中匹配得到多个候选标签;
主题词抽取模块,所述主题词抽取模块用于从所述待标注文本中抽取多个主题词,计算各个所述主题词的主题词权重值;
映射模块,所述映射模块用于将各个所述主题词映射到与自身相似度最高的所述候选标签,所述映射模块还用于将各个所述主题词的主题词权重值作为映射的所述候选标签的标签权重值;
标注模块,所述标注模块用于根据所述标签权重值从所述多个候选标签中抽取实体标签,使用所述实体标签标注所述待标注文本。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任意一项所述的文本标注方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行实现权利要求1至8中任意一项所述的文本标注方法。
CN202211098267.XA 2022-09-08 2022-09-08 文本标注方法、装置、电子设备和计算机可读存储介质 Pending CN115640376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211098267.XA CN115640376A (zh) 2022-09-08 2022-09-08 文本标注方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211098267.XA CN115640376A (zh) 2022-09-08 2022-09-08 文本标注方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115640376A true CN115640376A (zh) 2023-01-24

Family

ID=84941409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211098267.XA Pending CN115640376A (zh) 2022-09-08 2022-09-08 文本标注方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115640376A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702775A (zh) * 2023-08-07 2023-09-05 深圳市智慧城市科技发展集团有限公司 文本处理方法、文本处理装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702775A (zh) * 2023-08-07 2023-09-05 深圳市智慧城市科技发展集团有限公司 文本处理方法、文本处理装置及计算机可读存储介质
CN116702775B (zh) * 2023-08-07 2023-11-03 深圳市智慧城市科技发展集团有限公司 文本处理方法、文本处理装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN110298035B (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN111222305A (zh) 一种信息结构化方法和装置
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
US9418058B2 (en) Processing method for social media issue and server device supporting the same
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN115862040A (zh) 文本纠错方法、装置、计算机设备及可读存储介质
CN115640376A (zh) 文本标注方法、装置、电子设备和计算机可读存储介质
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
WO2022072237A1 (en) Lifecycle management for customized natural language processing
CN110489740B (zh) 语义解析方法及相关产品
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及***
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN115858776A (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
CN115455416A (zh) 一种恶意代码检测方法、装置、电子设备及存储介质
CN115017898A (zh) 敏感文本的识别方法、装置、电子设备及存储介质
CN114398903A (zh) 意图识别方法、装置、电子设备及存储介质
CN111625579B (zh) 一种信息处理方法、装置及***
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN113342932A (zh) 目标词向量的确定方法、装置、存储介质和电子装置
CN115033701B (zh) 文本向量生成模型训练方法、文本分类方法及相关装置
US11868737B2 (en) Method and server for processing text sequence for machine processing task

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination