CN110674319A - 标签确定方法、装置、计算机设备及存储介质 - Google Patents
标签确定方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110674319A CN110674319A CN201910754719.7A CN201910754719A CN110674319A CN 110674319 A CN110674319 A CN 110674319A CN 201910754719 A CN201910754719 A CN 201910754719A CN 110674319 A CN110674319 A CN 110674319A
- Authority
- CN
- China
- Prior art keywords
- label
- word
- text
- analyzed
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 111
- 239000013598 vector Substances 0.000 claims abstract description 109
- 238000012163 sequencing technique Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种标签确定方法、装置、计算机设备及存储介质,用于提高对待分析文本贴进行贴标签时的准确率。方法部分包括:获取标签信息以及待分析文本,标签信息包含目标标签,目标标签为与待分析文本的业务类型相关的标签;根据预设词向量矩阵获取目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;根据候选标签生成标签词典,标签词典包含候选标签;根据标签词典与待分析文本生成待分析文本对应的标签词词频矩阵;根据标签词词频矩阵确定每个标签词的词频;根据每个标签词的词频对每个标签词进行排序;将排在预设前N位标签词作为待分析文本的标签。
Description
技术领域
本发明涉及文本标签处理领域,尤其涉及一种标签确定方法、装置、计算机设备及存储介质。
背景技术
为了便于对文章等文本管理,例如对文章的分类、检索等,通常会对文中贴上有助于文章的分类和检索的标签,传统上,会对文章内容进行分析,以提取出文章的标签,主要根据词频关键词来获取,但文章中词频越高的关键词跟文章主题不一定有必然联系,词频高的词和文章需要的标签也不是一定的关联。词频高可能是这个词比较常用,从而导致提取出的词作为该文章的标签准确率不高。
发明内容
本发明实施例提供一种标签确定方法、装置、计算机设备及存储介质,用于提高对待分析文本贴标签的准确率。。
一种标签确定方法,包括:
获取标签信息以及待分析文本,所述标签信息包含目标标签,所述目标标签为与待分析文本的业务类型相关的标签;
根据预设词向量矩阵获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;
根据所述候选标签生成标签词典,所述标签词典包含所述候选标签;
根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵;
根据所述标签词词频矩阵确定每个标签词的词频;
根据所述每个标签词的词频对所述每个标签词进行排序;
将排在预设前N位标签词作为所述待分析文本的标签。
一种标签确定装置,包括:
第一获取模块,用于获取标签信息,所述标签信息包含目标标签;
第二获取模块,用于根据预设词向量矩阵获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;
第一生成模块,用于根据所述候选标签生成标签词典,所述标签词典包含所述候选标签;
第二生成模块,用于根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵;
第一确定模块,用于根据所述标签词词频矩阵确定每个标签词的词频;
排序模块,用于根据所述每个标签词的词频对所述每个标签词进行排序;
第二确定模块,用于将排在预设前N位标签词作为所述待分析文本的标签。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述标签确定方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述标签确定方法的步骤。
上述标签确定方法、装置、计算机设备及存储介质所实现的方案中,主要是利用先是获取与待分析文本相关的业务类型相关的目标标签,再基于该目标标签选取出一些系列候选标签,并依据候选标签在待分析文本中出现的词频,确定出最终的标签词作为待分析文本的标签,可以使得确定出的与待分析文本内容关联的标签,提高对待分析文本贴标签时的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中标签确定方法的一应用示意图;
图2是本发明一实施例中标签确定方法的一流程示意图;
图3是本发明一实施例中标签确定方法的另一流程示意图;
图4是本发明一实施例中标签确定方法的另一流程示意图;
图5是本发明一实施例中标签确定方法的另一流程示意图;
图6是本发明一实施例中标签确定方法的另一流程示意图;
图7是本发明一实施例中标签确定方法的另一流程示意图;
图8是本发明一实施例中标签确定装置的一结构示意图;
图9是本发明一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的标签确定方法,可应用在如图1的应用环境中,其中,获取标签信息以及待分析文本,所述标签信息包含目标标签,所述目标标签为与待分析文本业务类型相关的标签;根据所述目标标签从预设词向量矩阵中获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;根据所述候选标签生成标签词典,所述标签词典包含所述候选标签;根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵;根据所述标签词词频矩阵确定每个标签词的词频;根据所述每个标签词的词频对所述每个标签词进行排序;将排在预设前N位标签词作为所述待分析文本的标签。可见,本发明主要是利用先是获取与待分析文本相关的业务类型相关的目标标签,再基于该目标标签选取出一些系列候选标签,并依据候选标签在待分析文本中出现的词频,确定出最终的标签词作为待分析文本的标签,可以使得确定出的与待分析文本内容关联的标签,提高对待分析文本贴标签的准确率。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面对本发明进行详细的描述:
在一实施例中,如图2所示,提供一种标签确定方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取标签信息以及待分析文本,所述标签信息包含目标标签,所述目标标签为与待分析文本的业务类型相关的标签。
为了便于对文章等文本进行分类、检索等管理,会对文本贴标签,该标签为与该文本内容相关的词组。例如,以保险领域为例,保险领域中的文章可划分为不同业务类型的文章,例如车险业务类型、健康险业务类型、意外险业务类型等文章。在本发明实施例中,将需要确定出标签的文本称为待分析文本,在需要对待分析文本确定标签时,获取该待分析文本并且获取包含目标标签的标签信息,所述目标标签为与待分析文本的业务类型相关的标签。示例性的,若待分析文本为涉及到车险业务类型的文章,通常用与车,或保单相关的词组作为该车险业务类型的文章的标签,也即上述目标标签。
S20:根据预设词向量矩阵获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵。
在获取了待分析文本以及包含目标标签的标签信息之后,根据预设词向量矩阵中获取所述目标标签对应的一个或多个候选标签,目标标签对应的候选标签指的是与目标标签相关的标签。其中,预设词向量矩阵为根据预设语料库获取到的词向量矩阵。需要说明的是,预设语料库可以是从网络收取得到的语料库,例如可以是利用爬虫算法从网上搜取得到。预设词向量是对预设语料库进行训练所得到的词向量矩阵。
S30:根据所述候选标签生成标签词典,所述标签词典包含所述候选标签。
在根据所述目标标签从预设词向量矩阵中获取所述目标标签对应的候选标签之后,根据所述候选标签生成标签词典,所述标签词典包含所述候选标签。需要说明的是,通常情况下,根据所述目标标签从预设词向量矩阵中获取所述目标标签对应的候选标签,通常为多个候选标签,在本发明实施例中,根据所述候选标签生成标签词典,也就是,将各个候选标签进行组合得到上述标签词典。
S40:根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵。
在得到包含获选标签的标签词典后,根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵。在该步骤中,先会将标签词典中的各个候选标签与待分析文本进行匹配,以选择出与待分析文本匹配的每个标签词的匹配情况,并利用选出的与待分析文本匹配的标签词建立标签词词频矩阵,该标签词词频矩阵中的包含每个标签词在待分析文本中的词频。
S50:根据所述标签词词频矩阵确定每个标签词的词频。
根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵之后,根据所述标签词词频矩阵确定每个标签词的词频。
S60:根据所述每个标签词的词频对所述每个标签词进行排序。
在根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵之后,根据所述每个标签词的词频对所述每个标签词进行排序。
S70:将排在预设前N位标签词作为所述待分析文本的标签。
可见,本发明主要是利用先是获取与待分析文本相关的业务类型相关的目标标签,再基于该目标标签选取出一些系列候选标签,并依据候选标签在待分析文本中出现的词频,确定出最终的标签词作为待分析文本的标签,可以使得确定出的与待分析文本内容关联的标签,从而提高对待分析文本所贴标签的准确率。需要说明的是,上述N为预设值,可以根据实际情况进行配置,例如,可以将根据所述每个标签词的词频对所述每个标签词进行排序后,排在前2位,或前3位,甚至前1位的标签词作为待分析文本的标签,这里不走具体限定。通常而言,排序越靠前,与待分析文本的关联性越强,因此,本实施例中选择排在前面的标签词作为待分析文本的标签,以确定出的与待分析文本内容关联的标签,提高所确定的标签的准确性。
在一实施例中,如图3所示,步骤S10中获取标签信息具体包括如下步骤:
S11:获取包含不同主题类型的文本的所述文本数据集。
具体地,可以利用关键词从网上搜集包含不同主体类型的文本,并由上述文本作为上述文本数据集。其中,上述不同主体类型指的是,网上已贴标签类型的文本,例如从提供车险相关咨询的网站中收取车险相关的文章等,从而获取到不同主体类型的文本的文本数据集。
S12:根据TF-IDF算法与所述文本数据集构建逆文本矩阵排序词典。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。用以评估一个词组对于文本数据集中的其中一份文本的重要程度。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse DocumentFrequency)。词频是一词组在文本出现的次数除以该文本的总词组数。假如文本数据集中,某个文本的总词组数是100个,而词组“车险”出现了3次,那么“词组”一词在该文本中的词频就是3/100=0.03。IDF指的是:测定有文本数据集中出现过“车险”一词的文本数量,然后处于文本数据集中所有文本的文本总数量,再将得到的商取对数作为IDF值,用于表达“车险”一词的重要性。
在本发明实施例中,可利用获取的文本数据集以及TF-IDF算法构建上述逆文本矩阵排序词典。这样,可以得到一批能反应这些文本主题类型或业务类型的词组,具体可以依据逆文本频率指数判断哪些是能反映文本主体类型或业务类型的词组。
S13:获取用户选择信息,所述用户选择信息为所述用户从所述逆文本矩阵排序词典选取标签的选择信息。
S14:根据所述逆文本矩阵排序词典以及用户选择信息确定目标标签,以获取到所述标签信息。
用户选择信息为用户依据上述逆文本矩阵排序词典作出的选择信息,用于根据逆文本矩阵排序词典,选择逆文本频率指数高的词组作为目标标签。例如,待分析文本为车险相关的文章为例,可从逆文本矩阵排序词典中中,选取主题类型为车险的文本中,逆文本频率指数高的词组作为上述目标标签。
在根据TF-IDF算法与所述文本数据集构建所述逆文本矩阵排序词典之后,根据所述逆文本矩阵排序词典以及用户选择信息确定目标标签,以获取到所述标签信息。通过本发明实施例,可以得到一批能反应这些文本主题类型或业务类型词组,再通过服务器所获取的用户选择信息确定用户所选择的和业务类型相关的词作为目标标签词,能避免直接将待分析文本中词频较高的词组作为标签词的情况,提高为确定待分析文本的标签时的准确性以及关联性。例如以业务类型为车险为例,可选择与车险相关的词组,比如车险保单相关的词组。
需要说明的是,除了上述获取标签信息外,还可以是直接接受用户输入的包含目标标签的标签信息。本发明实施例不做限定。
在一实施例中,如图4所示,所述根据所述目标标签从预设词向量矩阵中获取所述目标标签对应的候选标签之前,该标签确定方法还包括如下步骤:
S80:获取所述预设语料库。
S90:通过word2vec模型建立所述预设语料库对应的词向量矩阵,以获取到所述预设词向量矩阵。
word2vec,是为一群用来产生词向量的相关模型。上述相关模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式本发明实施例中,预设语料库可以是从网络收取得到的语料库,例如可以是利用爬虫算法从网上搜索得到。预设词向量是对预设语料库进行训练所得到的词向量矩阵。并利用word2vec模型对预设语料库进行训练,以,以获取到所述预设词向量矩阵。训练完成之后,词向量矩阵可用来映射每个词组到一个向量,可用来表示词组对词组之间的关系。
在一实施例中,如图5所示,步骤S20中,即所述根据预设词向量矩阵获取所述目标标签对应的候选标签,具体包括如下步骤:
S21:将所述目标标签进行词向量化处理以得到目标标签向量。
在根据标签信息获取目标标签后,对目标标签进行词向量化处理,需要说明的是,为了使得后续计算相似度的可靠性,在对目标标签进行词向量化处理时,采样与根据预设语料库训练出预设词向量矩阵中时的词向量转化方式,使得目标标签向量的向量形式与预设词向量矩阵中的词向量的表达形式一样。
S22:计算所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度。
在将所述目标标签进行词向量化处理以得到目标标签向量之后,计算所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度,具体地,在本发明实施例,可采样预设文本相似度计算方式进行计算,例如,余弦距离、欧式距离等,具体这里不做限定。
S23:确定所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度中,所述相似度大于或等于预设阈值的所有目标词向量。
S24:将所述所有目标词向量对应的各个词组作为所述候选标签。
在计算所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度之后,确定出所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度中,所述相似度大于或等于预设阈值的所有目标词向量。例如,可以预设阈值为:0.8或0.9,然后确定出相似度大于或等于预设阈值的所有目标词向量,将目标词向量对应的各个词组在本发明实施中称为候选标签。通过上述方式,可选取到与目标标签比较关联的词组作为候选标签。需要说明的是,上述预设阈值为示例性说明,在实际应用中,可进一步设置,以获取到与目标标签相关为目的进行设置,具体这里不做限定。
需要说明的是,在一些实施例中,可直接根据目标标签从预设语料库中匹配出相似度满足预设阈值的候选标签,具体这里不做限定。
在一实施例中,如图6所示,步骤S40中,也即根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵,具体包括如下步骤:
S41:采用预设分词算法对所述待分析文本进行分词,得到所述待分析文本对应的分词。
在获取到待分析文本之后,可利用预设分词算法对所述待分析文本进行分词,以获取所述待分析文本对应的分词。具体地,可采用基于n元语法的分词算法、正向最大匹配分词算法、逆向最大匹配分词算法等分词算法,对待分析文本进行分词,以获取所述待分析文本对应的分词。具体本发明实施例不做限定。
S42:将所述分词与所述标签词典中的各个所述候选标签进行匹配,以匹配出与所述分词相匹配的候选标签。
S43:确定所述相匹配的候选标签在所述待分析文本出现的次数。
S44:根据所述相匹配的候选标签在所述待分析文本出现的次数,确定所述相匹配的候选标签在所述待分析文本出现的频率。
S45:根据所述相匹配的候选标签在所述待分析文本出现的频率生成所述待分析文本对应的标签词词频矩阵。
对于步骤S42-S44,可以理解,在采用预设分词算法对所述待分析文本进行分词,以获取所述待分析文本对应的分词之后,将所述分词与所述标签词典中的各个所述候选标签进行匹配,以匹配出与所述分词相匹配的候选标签,并且确定相匹配的候选标签在在所述待分析文本出现的次数,最后根据所述相匹配的候选标签在所述待分析文本出现的次数,生成所述待分析文本对应的标签词词频矩阵。具体地,在知道了候选标签在所述待分析文本出现的次数之后,利用所述待分析文本的分词总数,即可知道各个所述候选标签在所述待分析文本出现的频率,依据个所述候选标签在所述待分析文本出现的频率即可对应生成所述待分析文本对应的标签词词频矩阵。
在一实施例中,如图7所示,步骤S60中,也即所述每个标签词预设有标签权重,所述根据所述每个标签词的词频对所述每个标签词进行排序,具体包括如下步骤:
S61:根据所述每个标签词的词频以及标签权重,对应确定所述每个标签词的标签分值。
S62:根据所述每个标签词的标签分值的大小对所述每个标签词进行排序。
在该实施例中,在得到标签词典后,可以预先设置标签词典中每个标签词的权重,例如,其中,上述权重的设置可以根据实际应用情况配置,比如车险相关的标签,可以把权重设高一些,文档同时出现车险相关的标签和其他非车险相关的标签时,可以更偏向于大上车险相关的标签。就是设置一个固定值,用词频计算待分析文本的每个标签词得分的时进行加权,在对每个标签词进行排序时,先根据所述每个标签词的词频以及标签权重,对应确定所述每个标签词的标签分值,根据所述每个标签词的标签分值的大小对所述每个标签词进行排序。使得分更高,得到越高,说明也是用户想要的,也即是更能反映待分析文本的标签词。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种标签确定装置,该标签确定装置与上述实施例中标签确定方法一一对应。如图8所示,该标签确定装置10包括第一获取模块101、第二获取模块102、第一生成模块103、第二生成模块104、第一确定模块105、排序模块106以及第二确定模块107。各功能模块详细说明如下:
第一获取模块101,用于获取标签信息,所述标签信息包含目标标签;
第二获取模块102,用于根据预设词向量矩阵获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;
第一生成模块103,用于根据所述候选标签生成标签词典,所述标签词典包含所述候选标签;
第二生成模块104,用于根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵;
第一确定模块105,用于根据所述标签词词频矩阵确定每个标签词的词频;
排序模块106,用于根据所述每个标签词的词频对所述每个标签词进行排序;
第二确定模块107,用于将排在预设前N位标签词作为所述待分析文本的标签。
在一实施例中,所述第二获取模块,具体用于:
将所述目标标签进行词向量化处理以得到目标标签向量;
计算所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度;
确定所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度中,所述相似度大于或等于预设阈值的所有目标词向量;
在一实施例中,所述第二生成模块具体用于:
采用预设分词算法对所述待分析文本进行分词,得到所述待分析文本对应的分词;
将所述分词与所述标签词典中的各个所述候选标签进行匹配,以匹配出与所述分词相匹配的候选标签;
确定所述相匹配的候选标签在所述待分析文本出现的次数;
根据所述相匹配的候选标签在所述待分析文本出现的次数,确定所述相匹配的候选标签在所述待分析文本出现的频率;
根据所述相匹配的候选标签在所述待分析文本出现的频率生成所述待分析文本对应的标签词词频矩阵。
在一实施例中,所述第一获取模块具体用于:获取包含不同主题类型的文本的所述文本数据集;
根据TF-IDF算法与所述文本数据集构建所述逆文本矩阵排序词典;
获取用户选择信息,所述用户选择信息为所述用户从所述逆文本矩阵排序词典选取标签的选择信息;
根据所述逆文本矩阵排序词典以及用户选择信息确定目标标签,以获取到所述标签信息。
在一实施例中,所述标签确定装置还包括建立模块以及第三获取模块,
所述第三获取模块,用于所述根据所述目标标签从预设词向量矩阵中获取所述目标标签对应的候选标签之前,获取所述预设语料库;
所述建立模块,用于通过word2vec模型建立所述预设语料库对应的词向量矩阵,以获取到所述预设词向量矩阵。
在一实施例中,所述排序模块具体用于:
根据所述每个标签词的词频以及标签权重,对应确定所述每个标签词的标签分值;
根据所述每个标签词的标签分值的大小对所述每个标签词进行排序。
关于标签确定装置的具体限定可以参见上文中对于标签确定方法的限定,在此不再赘述。上述标签确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述标签信息等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标签确定方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取标签信息以及待分析文本,所述标签信息包含目标标签,所述目标标签为与待分析文本的业务类型相关的标签;
根据预设词向量矩阵获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;
根据所述候选标签生成标签词典,所述标签词典包含所述候选标签;
根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵;
根据所述标签词词频矩阵确定每个标签词的词频;
根据所述每个标签词的词频对所述每个标签词进行排序;
将排在预设前N位标签词作为所述待分析文本的标签。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取标签信息以及待分析文本,所述标签信息包含目标标签,所述目标标签为与待分析文本的业务类型相关的标签;
根据预设词向量矩阵获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;
根据所述候选标签生成标签词典,所述标签词典包含所述候选标签;
根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵;
根据所述标签词词频矩阵确定每个标签词的词频;
根据所述每个标签词的词频对所述每个标签词进行排序;
将排在预设前N位标签词作为所述待分析文本的标签。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种标签确定方法,其特征在于,包括:
获取标签信息以及待分析文本,所述标签信息包含目标标签,所述目标标签为与待分析文本的业务类型相关的标签;
根据预设词向量矩阵获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;
根据所述候选标签生成标签词典,所述标签词典包含所述候选标签;
根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵;
根据所述标签词词频矩阵确定每个标签词的词频;
根据所述每个标签词的词频对所述每个标签词进行排序;
将排在预设前N位标签词作为所述待分析文本的标签。
2.如权利要求1所述的标签确定方法,其特征在于,所述根据所述目标标签从预设词向量矩阵中获取所述目标标签对应的候选标签,包括:
将所述目标标签进行词向量化处理以得到目标标签向量;
计算所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度;
确定所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度中,所述相似度大于或等于预设阈值的所有目标词向量;
将所述所有目标词向量对应的各个词组作为所述候选标签。
3.如权利要求1或2所述的标签确定方法,其特征在于,所述根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵,包括:
采用预设分词算法对所述待分析文本进行分词,得到所述待分析文本对应的分词;
将所述分词与所述标签词典中的各个所述候选标签进行匹配,以匹配出与所述分词相匹配的候选标签;
确定所述相匹配的候选标签在所述待分析文本出现的次数;
根据所述相匹配的候选标签在所述待分析文本出现的次数,确定所述相匹配的候选标签在所述待分析文本出现的频率;
根据所述相匹配的候选标签在所述待分析文本出现的频率生成所述待分析文本对应的标签词词频矩阵。
4.如权利要求1或2所述的标签确定方法,其特征在于,所述获取所述标签信息,包括:
获取包含不同主题类型的文本的所述文本数据集;
根据TF-IDF算法与所述文本数据集构建逆文本矩阵排序词典;
获取用户选择信息,所述用户选择信息为所述用户从所述逆文本矩阵排序词典选取标签的选择信息;
根据所述逆文本矩阵排序词典以及用户选择信息确定目标标签,以获取到所述标签信息。
5.如权利要求1或2所述的标签确定方法,其特征在于,所述根据所述目标标签从预设词向量矩阵中获取所述目标标签对应的候选标签之前,所述方法还包括:
通过以下步骤获取所述预设词向量矩阵:
获取所述预设语料库;
通过word2vec模型建立所述预设语料库对应的词向量矩阵,得到所述预设词向量矩阵。
6.如权利要求1或2所述的标签确定方法,其特征在于,所述每个标签词预设有标签权重,所述根据所述每个标签词的词频对所述每个标签词进行排序,包括:
根据所述每个标签词的词频以及标签权重,对应确定所述每个标签词的标签分值;
根据所述每个标签词的标签分值的大小对所述每个标签词进行排序。
7.一种标签确定装置,其特征在于,包括:
第一获取模块,用于获取标签信息,所述标签信息包含目标标签;
第二获取模块,用于根据预设词向量矩阵获取所述目标标签对应的候选标签,预设词向量矩阵为根据预设语料库获取到的词向量矩阵;
第一生成模块,用于根据所述候选标签生成标签词典,所述标签词典包含所述候选标签;
第二生成模块,用于根据所述标签词典与待分析文本生成所述待分析文本对应的标签词词频矩阵;
第一确定模块,用于根据所述标签词词频矩阵确定每个标签词的词频;
排序模块,用于根据所述每个标签词的词频对所述每个标签词进行排序;
第二确定模块,用于将排在预设前N位标签词作为所述待分析文本的标签。
8.如权利要求7所述的标签确定装置,其特征在于,所述第二获取模块,具体用于:
将所述目标标签进行词向量化处理以得到目标标签向量;
计算所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度;
确定所述目标标签向量与所述预设词向量矩阵中每个词向量之间的相似度中,所述相似度大于或等于预设阈值的所有目标词向量;
将所述所有目标词向量对应的各个词组作为所述候选标签。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述标签确定方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述标签确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910754719.7A CN110674319B (zh) | 2019-08-15 | 2019-08-15 | 标签确定方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910754719.7A CN110674319B (zh) | 2019-08-15 | 2019-08-15 | 标签确定方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674319A true CN110674319A (zh) | 2020-01-10 |
CN110674319B CN110674319B (zh) | 2024-06-25 |
Family
ID=69075370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910754719.7A Active CN110674319B (zh) | 2019-08-15 | 2019-08-15 | 标签确定方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674319B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563361A (zh) * | 2020-04-01 | 2020-08-21 | 北京小米松果电子有限公司 | 文本标签的提取方法及装置、存储介质 |
CN111599349A (zh) * | 2020-04-01 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种训练语言模型的方法及*** |
CN112148881A (zh) * | 2020-10-22 | 2020-12-29 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN112287076A (zh) * | 2020-12-25 | 2021-01-29 | 南京云问网络技术有限公司 | 一种基于用户聊天记录的标签挖掘方法及设备 |
CN112328833A (zh) * | 2020-11-09 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 标签处理方法、装置及计算机可读存储介质 |
CN112434158A (zh) * | 2020-11-13 | 2021-03-02 | 北京创业光荣信息科技有限责任公司 | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 |
CN112800226A (zh) * | 2021-01-29 | 2021-05-14 | 上海明略人工智能(集团)有限公司 | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、***、计算机可读存储介质 |
CN113177109A (zh) * | 2021-05-27 | 2021-07-27 | 中国平安人寿保险股份有限公司 | 文本的弱标注方法、装置、设备以及存储介质 |
CN113297382A (zh) * | 2021-06-21 | 2021-08-24 | 西南大学 | 仪器设备功能标签化处理方法 |
CN113504865A (zh) * | 2021-07-26 | 2021-10-15 | 平安信托有限责任公司 | 工单标签添加方法、装置、设备及存储介质 |
CN113609850A (zh) * | 2021-07-02 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 分词处理方法、装置、电子设备及存储介质 |
CN113948087A (zh) * | 2021-09-13 | 2022-01-18 | 北京数美时代科技有限公司 | 一种语音标签判定方法、***、存储介质及电子设备 |
CN114338586A (zh) * | 2021-12-21 | 2022-04-12 | 中国农业银行股份有限公司 | 一种消息推送方法、装置、电子设备及存储介质 |
CN114357990A (zh) * | 2022-03-18 | 2022-04-15 | 北京创新乐知网络技术有限公司 | 文本数据标注方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611052A (zh) * | 2016-12-26 | 2017-05-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
WO2019076191A1 (zh) * | 2017-10-20 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN109710916A (zh) * | 2018-11-02 | 2019-05-03 | 武汉斗鱼网络科技有限公司 | 一种标签提取方法、装置、电子设备及存储介质 |
CN109918662A (zh) * | 2019-03-04 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种电子资源的标签确定方法、装置和可读介质 |
-
2019
- 2019-08-15 CN CN201910754719.7A patent/CN110674319B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611052A (zh) * | 2016-12-26 | 2017-05-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
WO2019076191A1 (zh) * | 2017-10-20 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN109710916A (zh) * | 2018-11-02 | 2019-05-03 | 武汉斗鱼网络科技有限公司 | 一种标签提取方法、装置、电子设备及存储介质 |
CN109918662A (zh) * | 2019-03-04 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种电子资源的标签确定方法、装置和可读介质 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563361A (zh) * | 2020-04-01 | 2020-08-21 | 北京小米松果电子有限公司 | 文本标签的提取方法及装置、存储介质 |
CN111599349A (zh) * | 2020-04-01 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种训练语言模型的方法及*** |
CN111563361B (zh) * | 2020-04-01 | 2024-05-14 | 北京小米松果电子有限公司 | 文本标签的提取方法及装置、存储介质 |
CN112148881A (zh) * | 2020-10-22 | 2020-12-29 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN112148881B (zh) * | 2020-10-22 | 2023-09-22 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN112328833B (zh) * | 2020-11-09 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 标签处理方法、装置及计算机可读存储介质 |
CN112328833A (zh) * | 2020-11-09 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 标签处理方法、装置及计算机可读存储介质 |
CN112434158A (zh) * | 2020-11-13 | 2021-03-02 | 北京创业光荣信息科技有限责任公司 | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 |
CN112434158B (zh) * | 2020-11-13 | 2024-05-28 | 海创汇科技创业发展股份有限公司 | 一种企业标签的获取方法、获取装置、存储介质和计算机设备 |
CN112287076B (zh) * | 2020-12-25 | 2021-04-02 | 南京云问网络技术有限公司 | 一种基于用户聊天记录的标签挖掘方法及设备 |
CN112287076A (zh) * | 2020-12-25 | 2021-01-29 | 南京云问网络技术有限公司 | 一种基于用户聊天记录的标签挖掘方法及设备 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、***、计算机可读存储介质 |
CN112800226A (zh) * | 2021-01-29 | 2021-05-14 | 上海明略人工智能(集团)有限公司 | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 |
CN113177109A (zh) * | 2021-05-27 | 2021-07-27 | 中国平安人寿保险股份有限公司 | 文本的弱标注方法、装置、设备以及存储介质 |
CN113297382A (zh) * | 2021-06-21 | 2021-08-24 | 西南大学 | 仪器设备功能标签化处理方法 |
CN113609850A (zh) * | 2021-07-02 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 分词处理方法、装置、电子设备及存储介质 |
CN113609850B (zh) * | 2021-07-02 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 分词处理方法、装置、电子设备及存储介质 |
CN113504865A (zh) * | 2021-07-26 | 2021-10-15 | 平安信托有限责任公司 | 工单标签添加方法、装置、设备及存储介质 |
CN113948087A (zh) * | 2021-09-13 | 2022-01-18 | 北京数美时代科技有限公司 | 一种语音标签判定方法、***、存储介质及电子设备 |
CN114338586A (zh) * | 2021-12-21 | 2022-04-12 | 中国农业银行股份有限公司 | 一种消息推送方法、装置、电子设备及存储介质 |
CN114338586B (zh) * | 2021-12-21 | 2024-05-28 | 中国农业银行股份有限公司 | 一种消息推送方法、装置、电子设备及存储介质 |
CN114357990A (zh) * | 2022-03-18 | 2022-04-15 | 北京创新乐知网络技术有限公司 | 文本数据标注方法、装置、电子设备和存储介质 |
CN114357990B (zh) * | 2022-03-18 | 2022-05-31 | 北京创新乐知网络技术有限公司 | 文本数据标注方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110674319B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674319B (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN109992646B (zh) | 文本标签的提取方法和装置 | |
CN110457431B (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
CN108427707B (zh) | 人机问答方法、装置、计算机设备和存储介质 | |
CN109800307B (zh) | 产品评价的分析方法、装置、计算机设备及存储介质 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN109063108B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN110377558A (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN111859916B (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN108959550B (zh) | 用户关注点挖掘方法、装置、设备及计算机可读介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN111191028A (zh) | 样本标注方法、装置、计算机设备和存储介质 | |
CN113536735A (zh) | 一种基于关键词的文本标记方法、***和存储介质 | |
CN110555165B (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
CN113157897A (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN112800226A (zh) | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 | |
CN112307190A (zh) | 医学文献排序方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |