CN114201953A - 一种关键词提取、模型训练方法、装置、设备及存储介质 - Google Patents
一种关键词提取、模型训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114201953A CN114201953A CN202111509488.7A CN202111509488A CN114201953A CN 114201953 A CN114201953 A CN 114201953A CN 202111509488 A CN202111509488 A CN 202111509488A CN 114201953 A CN114201953 A CN 114201953A
- Authority
- CN
- China
- Prior art keywords
- text
- target text
- features
- keyword
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种关键词提取、模型训练方法、装置、设备及存储介质,涉及数据处理技术领域,尤其涉及内容分发技术领域、自然语言处理技术领域。上述关键词提取方案为:获得待处理的目标文本;提取目标文本的文本特征;对目标文本的文本特征进行全局特征提取,得到目标文本的全局特征,其中,目标文本的全局特征用于表征目标文本整体所表达的语义;对目标文本的文本特征进行局部特征提取,得到目标文本的局部特征,其中,目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义;基于目标文本的全局特征以及局部特征,提取目标文本的关键词。应用本公开实施例提供的方案提取关键词时,能够提高所提取的关键词的准确度。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及内容分发技术领域、自然语言处理技术领域。
背景技术
文本的关键词是指与文本所表达语义相关联的词语,文本的关键词能够帮助人们快速了解文本的大意内容。在信息检索、文本聚类等方面文本的关键词具有重要的作用。
发明内容
本公开提供了一种关键词提取、模型训练方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种关键词提取方法,包括:
获得待处理的目标文本;
提取所述目标文本的文本特征;
对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,其中,所述目标文本的全局特征用于表征所述目标文本整体所表达的语义;
对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,其中,所述目标文本的局部特征用于表征所述目标文本中每一字符所在上下文所表达的语义;
基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词。
根据本公开的另一方面,提供了一种模型训练方法,包括:
获得样本文本以及样本文本的真实关键词;
将所述样本文本输入预设的神经网络模型,得到所述样本文本的预测关键词,其中,所述预测关键词为:基于所述样本文本的全局特征以及局部特征预测得到的关键词,所述样本文本的全局特征为:对所述样本文本的文本特征进行全局特征提取得到的特征,所述样本文本的局部特征为:对所述样本文本的文本特征进行局部特征提取得到的特征;
基于所述预测关键词与所述真实关键词之间的差异,调整所述神经网络模型的模型参数。
根据本公开的另一方面,提供了一种关键词提取装置,包括:
文本获得模块,用于获得待处理的目标文本;
特征提取模块,用于提取所述目标文本的文本特征;
全局特征提取模块,用于对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,其中,所述目标文本的全局特征用于表征所述目标文本整体所表达的语义;
局部特征提取模块,用于对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,其中,所述目标文本的局部特征用于表征所述目标文本中每一字符所在上下文所表达的语义;
关键词提取模块,用于基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词。
根据本公开的另一方面,提供了一种模型训练装置,包括:
信息获得模块,用于获得样本文本以及样本文本的真实关键词;
关键词确定模块,用于将所述样本文本输入预设的神经网络模型,得到所述样本文本的预测关键词,其中,所述预测关键词为:基于所述样本文本的全局特征以及局部特征预测得到的关键词,所述样本文本的全局特征为:对所述样本文本的文本特征进行全局特征提取得到的特征,所述样本文本的局部特征为:对所述样本文本的文本特征进行局部特征提取得到的特征;
模型参数调整模块,用于基于所述预测关键词与所述真实关键词之间的差异,调整所述神经网络模型的模型参数。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述关键词提取方法或模型训练方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述关键词提取方法或模型训练方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述关键词提取方法或模型训练方法。
应用本公开实施例提供的方案,能够提高所提取的关键词的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的第一种关键词提取方法的流程示意图;
图2为本公开实施例提供的第二种关键词提取方法的流程示意图;
图3为本公开实施例提供的第三种关键词提取方法的流程示意图;
图4a为本公开实施例提供的第四种关键词提取方法的流程示意图;
图4b为本公开实施例提供的一种编码器的结构示意图;
图5a为本公开实施例提供的第五种关键词提取方法的流程示意图;
图5b为本公开实施例提供的第一种关键词提取模型的结构示意图;
图6a为本公开实施例提供的第六种关键词提取方法的流程示意图;
图6b为本公开实施例提供的第二种关键词提取模型的结构示意图;
图7为本公开实施例提供的一种关键词识别方法的流程框图;
图8为本公开实施例提供的第一种模型训练方法的流程示意图;
图9为本公开实施例提供的第二种模型训练方法的流程示意图;
图10为本公开实施例提供的第一种关键词提取装置的结构示意图;
图11为本公开实施例提供的第二种关键词提取装置的结构示意图;
图12为本公开实施例提供的第三种关键词提取装置的结构示意图;
图13为本公开实施例提供的第一种模型训练装置的结构示意图;
图14为本公开实施例提供的第二种模型训练装置的结构示意图;
图15是用来实现本公开实施例的关键词提取方法或模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
首先,对本公开实施例的应用场景以及执行主体进行说明。
本公开实施例的应用场景为:需要提取文本的关键词的场景。具体的,可以是提取长文本的关键词的应用场景,也可以是提取短文本的关键词的应用场景。
目前的关键词提取一般是基于词频排序或者文本聚类的方式实现,该方式缺乏语义信息且对文本数量有较大依赖,在标题、短句等短文本形式下应用有较大限制。
目前存在的关键词提取方案有:
(1)基于无监督方法的关键词提取。无监督方法是目前关键词提取最主要的方法,是指采用无监督训练方法训练得到关键词提取模型,训练得到的关键词提取模型在提取关键词时,通常将任务转化为排序问题。
(2)基于有监督方法的关键词提取。有监督方法是指采用有监督训练方法训练得到关键词提取模型,训练得到的关键词提取模型通常将关键词提取看做分类问题,使用候选词语的特征及标注信息进行分类器训练。
在方案(1)中,一般基于图或主体聚类实现关键词的提取,前者将候选词作为节点、词的向后共性关系作为边,通过计算共现边权重得分进行递归排序,从而获取权重较大的词语作为最终的关键词;后者则是首先进行文本主体聚类,基于主题重要度对候选词进行打分排序。两者实现上简单易行,但严重依赖前期分词模型,且严重依赖文本词频,对短文本应用效果较差。
方案(2)中,基于有监督方法的关键词提取依赖于人工标注的后验信息,实现相对于方案(1)较复杂,且成本更高。该方案目前可以采用基于神经网络或Transformer(编码器)等预训练方法进行端到端的联合建模的序列标注任务实现,避免分词等多个步骤带来的误差传播。该方案虽然较方案(1)有较大提升,但关键词的重要度严重依赖于标注数据、且偏向于识别权重更大的词语忽略权重较小的词语。而次重要的词语实际在应用中也有较大的需求,此外,现有的关键词也缺乏属性信息。因此,本公开实施例,提供了一种关键词提取方案,可以针对短文本进行细粒度关键词提取,该方法可以实现对文本全局及局部信息建模、并融合多任务训练实现关键词属性、重要等级及重要度提取。
本公开实施例的执行主体为:具备关键词提取功能的电子设备,上述电子设备可以为服务器、终端设备等。
以下对本公开实施例提供的关键词提取方法进行具体说明。
参见图1,图1为本公开实施例提供的第一种关键词提取方法的流程示意图,上述方法包括以下步骤S101-S105。
步骤S101:获得待处理的目标文本。
上述目标文本是指电子设备能够识别的文本。该目标文本是通过使用例如中文、英文、日文等自然语言编写原始文本,对原始文本进行转换后得到转换文本,对转换文本进行处理后得到的。
所谓对原始文本进行转换是指:在预设字典中设置字符与位置标识之间的对应关系,根据该对应关系确定原始文本中每一字符所对应的位置标识,将原始文本中每一字符替换为所对应的位置标识,即得到转换文本。上述位置标识可以是位置序列号、位置名称等。
所谓对转换文本进行处理可以包括:去除转换文本中的标点符号、对转换文本的文本长度进行处理等,从而得到目标文本。
具体的,在去除转换文本的标点符号后,若转换文本的文本长度小于预设长度,则通过补0方式填充该去除标点符号的转换文本,使得填充后的文本的长度为预设长度,将填充后的文本确定为目标文本;在去除转换文本的标点符号后,若转换文本的文本长度大于预设长度,则截取该去除标点符号的转换文本中前预设长度的文本,将所截取出的文本确定为目标文本;当去除转换文本的标点符号后,若转换文本的文本长度等于预设长度时,不对上述转换文本的文本长度进行处理。上述预设长度可以是工作人员预先设定的,例如:上述预设长度可以为128、256等。
本公开的一个实施例中,上述目标文本可以是短文本。所以,本公开实施例提供的方案能够针对短文本进行关键词提取。
步骤S102:提取目标文本的文本特征。
文本特征用于表征上述目标文本的特征。文本特征中可以包含目标文本的语义特征、每一字符的语义特征等。
一种实施方式中,可以采用文本特征提取算法,对目标文本进行文本特征提取,得到目标文本的文本特征。
上述文本特征提取算法包括:Word2Vec(词向量)、Doc2Vec(句向量)等。
提取文本特征的其他实施方式可以参见后续图4a、图5a对应的实施例,在此不进行详述。
步骤S103:对目标文本的文本特征进行全局特征提取,得到目标文本的全局特征。
上述目标文本的全局特征用于表征目标文本整体所表达的语义。
目标文本是由多条句子进行组合形成的文本,目标文本整体是指目标文本所包括的多条句子组合构成的整体文本。
例如:假设,目标文本为“关键词提取一般指从文本数据中提取文本表达中最相关的词语,是知识抽取的关键步骤。关键词提取在信息检索、文本摘要即聚类等方面有重要的应用”,这一目标文本中包括两条句子,这两条句子组合得到的整体文本表示目标文本整体。
基于上述分析,目标文本的全局特征是从目标文本的整体文本角度,表征目标文本所表达的语义。
一种实施方式中,可以采用全局特征提取算法,对目标文本的文本特征进行全局特征提取,得到目标文本的全局特征。上述全局特征提取算法可以是:IG(InformationGain,信息增益)、CE(Cross Entropy,期望交叉熵)、WET(the Weight of Evidence forTex,文本证据权)等。
对文本特征进行全局特征提取的其他实施方式可以参见后续图4a、5a对应的实施例,在此不进行详述。
步骤S104:对目标文本的文本特征进行局部特征提取,得到目标文本的局部特征。
上述目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义。每一字符所在上下文是目标文本中的局部文本,所以,目标文本的局部特征能够反映目标文本中局部文本的语义特征。
一种实施方式中,可以采用局部特征提取算法,对目标文本的文本特征进行局部特征提取,得到目标文本的局部特征。上述局部特征提取算法可以是:MI(MutualInformation,互信息)、χ2估计等。
对文本特征进行局部特征提取的其他实施方式可以参见后续图4a、图5a对应的实施例,在此不进行详述。
具体的,上述步骤S103-S104可以是并行执行的步骤,也可以是按照预设顺序执行的步骤,本发明实施例对此不进行限定。
步骤S105:基于目标文本的全局特征以及局部特征,提取目标文本的关键词。
由于全局特征反映目标文本整体所表达的语义,加强了目标文本的整体语义信息,但是弱化了目标文本的局部语义信息,又由于局部特征反映目标文本中每一字符所在上下文所表达的语义,每一字符所在上下文是目标文本中的局部信息,所以局部特征能够较好地反映目标文本中的局部语义信息。这样,基于目标文本的全局特征以及局部特征提取关键词时,能够克服全局特征所弱化目标文本的局部语义信息的问题,基于更加丰富、全面的语义信息提取目标文本的关键词。
并且,在上述目标文本为短文本的情况下,采用本公开实施例的方案时,由于是基于目标文本的全局特征以及局部特征提取目标文本的关键词,上述全局特征以及局部特征能够丰富、全面地反映目标文本的语义信息,在提取短文本的关键词时,充分地考虑了目标文本的语义信息。相较于现有技术中依赖于各个词语出现的频率提取目标文本的关键词,能够有效提高所提取的关键词的准确度。所以,本公开实施例提供的方案能够在提取短文本的关键词的应用场景下较为准确地提取短文本的关键词。
一种实施方式中,在提取目标文本的关键词时,可以对目标文本的全局特征以及局部特征进行特征融合,得到第一融合特征;基于第一融合特征,提取目标文本的关键词。
具体的,在进行特征融合时,可以将目标文本的全局特征以及局部特征进行拼接,将拼接得到的特征作为第一融合特征。
在提取目标文本的关键词时,可以采用关键词识别算法,对第一融合特征进行关键词识别,得到目标文本的关键词。上述关键词识别算法可以是CRF(Conditional RandomField,条件随机场)、HMM(Hiden Markov Mode,隐马尔可夫模型)。
由于第一融合特征是目标文本的全局特征与局部特征融合得到的特征,第一融合特征能够较完整的包含目标文本的全局特征以及局部特征,所以,在基于第一融合特征进行关键词提取时,能够较好参考目标文本的全局特征以及局部特征。
提取目标文本的关键词的其他方式可以参见后续图5a对应的实施例,在此不进行详述。
在得到目标文本的关键词时,由于在一些特定场景下还需要获知关键词的词类型,基于此,本公开的一个实施例中,可以基于目标文本的全局特征以及局部特征,从各预设词语类型中确定目标文本的关键词的词语类型。
上述预设词语类型可以为:人名、地点或组织活动等。
上述预设词语类型也可以进一步进行细粒度划分,例如:针对人名,预设词语类型可以划分为特定指代的人名、泛指的人名、模糊指代的人名等。
一种实施方式中,可以采用序列标注任务,基于目标文本的全局特征以及局部特征,确定目标文本的关键词的词语类型。
由于在确定关键词的词语类型考虑了目标文本的全局特征以及局部特征,上述目标文本的全局特征以及局部特征能够充分得反映目标文本中各词语的词语类型信息,因此,基于上述全局特征以及局部特征,能够得到较为准确的关键词的词语类型。
并且,本公开实施例提供的方案中,由于基于目标文本的全局特征以及局部特征,能够较为准确地确定关键词的词语类型,然而,相较于现有技术中参考词语出现的频率提取关键词,词语出现的频率难以反映词语的词语类型信息,所以现有技术中心基于词语出现的频率提取关键词时难以得到关键词的词语类型信息。
由以上可见,本公开实施例提供的方案中,基于目标文本的全局特征以及局部特征,提取目标文本的关键词,由于目标文本的全局特征表征目标文本整体所表达的语义,目标文本的局部特征表征目标文本中每一字符所在上下文所表达的语义,所以,在提取目标文本的关键词时,既考虑目标文本整体所表达的语义、又考虑了目标文本中每一字符所在上下文所表达的语义,又由于目标文本整体所表达的语义以及目标文本中每一字符所在上下文所表达的语义能够充分、全面地表征目标文本的语义信息,因此,采用本公开实施例提供的方案,是基于目标文本全面、丰富的语义信息提取目标文本的关键词,从而提高了所提取的关键词的准确度。
在上述目标文本为短文本的情况下,由于在提取目标文本的关键词参考了目标文本的全局特征以及局部特征,也就是本公开实施例提供的方案在充分参考目标文本的语义信息的基础上,得到目标文本的关键词。相较于现有技术中依赖于各个词语出现的频率提取关键词,显著提高了所提取的关键词的准确度。因此,本公开实施例提供的方案能够在提取短文本的关键词的应用场景下准确地提取短文本的关键词。
在获得多个关键词的情况下,每个关键词之间的重要程度是存在差异的,为了能够获知各关键词的重要程度,基于此,本公开的一个实施例中,参见图2,图2为本公开实施例提供的第二种关键词提取方法的流程示意图,上述方法包括以下步骤S201-S206。
步骤S201:获得待处理的目标文本。
步骤S202:提取目标文本的文本特征。
步骤S203:对目标文本的文本特征进行全局特征提取,得到目标文本的全局特征。
上述目标文本的全局特征用于表征目标文本整体所表达的语义。
步骤S204:对目标文本的文本特征进行局部特征提取,得到目标文本的局部特征。
上述目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义。
步骤S205:基于目标文本的全局特征以及局部特征,提取目标文本的关键词。
上述步骤S201-S205分别与图1所示实施例中步骤S101-S105相同,在此不进行赘述。
步骤S206:基于目标文本的局部特征,预测关键词的第一重要度。
上述第一重要度反映关键词的重要程度。当第一重要度越高,表示该关键词相较于其他关键词的重要程度越高;当第一重要度越低,表示该关键词相较于其他关键词的重要程度越低。
一种实施方式中,可以采用重要度预测算法,基于目标文本的局部特征,确定关键词的第一重要度。上述重要度预测算法可以包括:WOE(Weight of Evidence,证据权重)、IV(Information Value,信息价值)等。
预测第一重要度的其他实施方式可以参见图3对应的实施例,在此不进行详述。
由以上可见,在预测关键词的第一重要度时,是基于目标文本的局部特征预测得到的,由于目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义,所以,预测得到的第一重要度与目标文本中每一字符所在上下文所表达的语义相关,所以第一重要度考虑了目标文本的局部语义信息。又由于目标文本中每一词语的重要度与目标文本的局部语义信息相关。因此,基于目标文本的局部特征,能够提高所预测的关键词的第一重要度的准确度。
在上述图2所示实施例的步骤S206中,除了采用重要度预测算法预测关键词的第一重要度,可以采用图3所示实施例中步骤S306-S309实现。
参见图3,图3为本公开实施例提供的第三种关键词提取方法的流程示意图,上述方法包括以下步骤S301-S309。
步骤S301:获得待处理的目标文本。
步骤S302:提取目标文本的文本特征。
步骤S303:对目标文本的文本特征进行全局特征提取,得到目标文本的全局特征。
上述目标文本的全局特征用于表征目标文本整体所表达的语义。
步骤S304:对目标文本的文本特征进行局部特征提取,得到目标文本的局部特征。
上述目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义。
步骤S305:基于目标文本的全局特征以及局部特征,提取目标文本的关键词。
上述步骤S301-S305分别与图1所示实施例中步骤S101-S105相同,在此不进行赘述。
步骤S306:基于目标文本的局部特征,预测关键词的重要度等级为每一预设重要度等级的可能度。
预设重要度等级可以由工作人员根据经验设定,例如:预设重要度等级可以包括:非常重要、一般重要、不太重要等。
上述可能度表征关键词的重要度等级为每一预设重要度等级的可能性。例如:当关键词的重要度等级为“非常重要等级”的可能性较高时,关键词对应的可能度较高,表示关键词的重要度等级很有可能是“非常重要”等级。
预测关键词对应的可能度的实施方式,可以参见后续实施例,在此不进行详述。
步骤S307:基于关键词对应的可能度,从各预设重要等级中确定关键词的目标重要度等级。
具体的,可以采用以下两种方式确定目标重要度等级。
一种实施方式中,可以确定可能度最大的预设重要度等级,作为关键词的目标重要度等级。
另一种实施方式中,可以计算关键词对应的可能度的平均值,将可能度最接近于上述平均值的预设重要度等级确定为关键词的目标重要度等级。
由于从各预设重要度等级中确定关键词的目标重要度等级,所以,不同关键词的目标重要度等级可能是不同的,例如:某个关键词的重要度等级高于另一个关键词的重要度等级,所以,在本公开实施例提供的方案中,能够得到各种不同重要度等级的关键词。又由于针对相对不太重要的关键词来说,其在实际应用中也具有较大的需求,因此,通过确定不同关键词的重要度等级,能够在后续应用所提取的关键词时,能够基于关键词的重要度等级实现相对应的业务。
步骤S308:基于关键词对应的可能度,计算关键词在目标重要度等级下的第二重要度。
上述第二重要度反映关键词在目标重要度等级下的重要程度。当出现不同关键词的重要度等级相同时,可以基于关键词的第二重要度,有效确定各关键词之间的重要程度。
具体的,可以按照每一预设重要度等级对应的权重,对关键词的重要度等级为每一预设重要度等级的可能度进行加权求和,将得到的和值确定为第二重要度。
例如:可以按照以下公式计算第二重要度:
score=(C[1,2]*a+C[1,1]*b)÷(a+b)
其中,score表示计算得到的第二重要度,C[1,2]、C[1,1]分别表示关键词的重要度等级为每一预设重要度等级的可能度,a、b分别表示每一预设重要度等级对应的权重。
步骤S309:基于关键词的目标重要度等级与第二重要度,确定关键词的第一重要度。
由于关键词的目标重要度等级表示关键词的重要度等级,关键词的第二重要度反映关键词在目标重要度等级下的重要程度,基于关键词的重要度等级以及在目标重要度等级下的重要程度,能够准确地反映关键词的重要程度。因此,可以基于关键词的目标重要度等级与第二重要度,确定关键词的第一重要度。
一种实施方式中,预先确定了每一预设重要度等级对应的等级序号,确定关键词的目标重要度等级对应的等级序号,将确定得到的等级序号作为第一重要度的整数部分;并对第二重要度进行归一化处理,将归一化处理后的得到的数据作为第一重要度的小数部分,从而将上述整数部分和小数部分进行整合,得到第一重要度。
例如:关键词的目标重要度等级为“一般重要等级”,“一般重要等级”对应的等级序号为1,作为第一重要度的整数部分;关键词的第二重要度归一化处理后得到的结果为0.067,作为第一重要度的小数部分,将上述整数部分与小数部分进行整合,得到1.067,作为第一重要度。
由以上可见,基于关键词的目标重要度等级与第二重要度,确定关键词的第一重要度,其中,关键词的目标重要度等级表示关键词的重要度等级,关键词的第二重要度反映关键词在目标重要度等级下的重要程度,由于基于关键词的重要度等级以及在目标重要度等级下的重要程度,能够准确地反映关键词的重要程度,所以,提高了所确定的第一重要度的准确度。
并且,由于是基于基于关键词的目标重要度等级与第二重要度,确定关键词的第一重要度,对于同一重要度等级的不同关键词来说,能够进一步基于关键词的第二重要度,准确地确定上述各关键词的重要程度。
在上述图3所示实施例的步骤S306中预测关键词对应的可能度时,可以按照以下步骤A1-A3实现。
步骤A1:基于目标文本的局部特征,预测目标文本中每一字符的重要度等级为每一预设重要度等级的可能度。
上述可能度反映目标文本中每一字符的重要度等级为每一预设重要度等级的可能性。
目标文本的局部特征中包含了反映目标文本中每一字符的重要度信息,基于此,可以基于目标文本的局部特征中所包含的每一字符的重要度信息,预测每一字符的重要度等级为每一预设重要度等级的可能度。
步骤A2:从目标文本中每一字符对应的可能度中确定关键词中每一字符对应的可能度。
一种实施方式中,在上述步骤A1预测得到目标文本中每一字符对应的可能度时,可以确定目标文本中每一字符在目标文本所在位置的位置标识与可能度之间的对应关系,基于此,在确定关键词中每一字符对应的可能度时,可以基于上述对应关系,确定关键词中每一字符在目标文本所在位置的位置标识对应的可能度,作为关键词中每一字符对应的可能度。
例如:目标文本中每一字符在目标文本所在位置的位置标识与可能度之间的对应关系如下表1所示。
表1
位置标识 | 非常重要 | 一般重要 | 不太重要 |
0 | 0.6 | 0.8 | 0.1 |
1 | 0.7 | 0.8 | 0.2 |
2 | 0.7 | 0.9 | 0.2 |
3 | 0.8 | 0.7 | 0.3 |
4 | 0.3 | 0.4 | 0.8 |
5 | 0.5 | 0.6 | 0.9 |
以表1中第一行数据进行说明,位置标识为0表示该字符为目标文本中的第一个字符,0.6表示该字符的重要度等级为“非常重要”等级的可能度,0.8表示该字符的重要度等级为“一般重要”等级的可能度,0.1表示该字符的重要度等级为“不太重要”等级的可能度。
关键词中每一字符在目标文本中所在位置的位置标识分别为2、3,所以,基于上述表1可以确定关键词中第一个字符对应的可能度为(0.7、0.9、0.2),关键词中第二个字符对应的可能度为(0.8、0.7、0.3)。
步骤A3:针对每一预设重要度等级,对关键词中每一字符的重要度等级为该预设重要度等级的可能度进行统计分析,将统计分析结果确定为关键词的重要度等级为每一预设重要度等级的可能度。
由于关键词中包含多个字符,关键词对应的可能度与每一字符对应的可能度相关,因此,需要基于每一字符对应的可能度确定关键词对应的可能度。
上述统计分析的方式可以包括:计算平均值、取中值、计算和值等。
以计算和值为例,沿用步骤A2所示的例子,针对“非常重要等级”,计算0.7与0.8之和,作为关键词的重要度等级为“非常重要等级”的可能度,即1.5;针对“一般重要等级”,计算0.9与0.7之和,作为关键词的重要度等级为“一般重要等级”的可能度,即1.6;针对“不太重要等级”,计算0.2与0.3之和,作为关键词的重要度等级为“不太重要等级”的可能度,即0.5。
由以上可见,由于关键词中包含多个字符,关键词对应的可能度与每一字符对应的可能度相关,因此,针对每一预设重要度等级,对关键词中每一字符的重要度等级为该预设重要度等级的可能度进行统计分析,统计分析得到的结果能够准确地反映关键词的重要度等级为该预设重要度等级的可能度,从而可以得到较为准确的关键词的重要度等级为每一预设重要度等级的可能度。
在前述图1所示实施例的步骤S102中,除了采用预设的文本特征提取算法提取目标文本的文本特征之外,还可以按照下述图4a所示实施例中步骤S402实现。
参见图4a,图4a为本公开实施例提供的第四种关键词提取方法的流程示意图,上述方法包括以下步骤S401-S406。
步骤S401:获得待处理的目标文本。
上述步骤S401与前述图1所示实施例中步骤S101相同,在此不进行赘述。
步骤S402:基于目标文本中每一字符的上下文信息,采用多层编码方式对每一字符进行编码,得到预设数量层特征向量,作为目标文本的文本特征。
一种实施方式中,可以将目标文本输入上述具有多层网络层的编码器,上述编码器基于目标文本中每一字符的上下文信息,对每一字符进行编码,得到预设数量层特征向量。
以图4b为例,图4b示出了一种编码器结构示意图。编码器中包括N层网络层,每一层网络层的输入信息为该网络层的前一网络层的输出信息,网络层对输入信息进行字符编码,得到编码结果。多层网络层得到的编码结果称为预设数量层特征向量。
上述编码器可以是BERT(Bidirectional Encoder Representation fromTransformers,双向编码器)、ALBERT(A Lite BERT,精简双向编码器)等。
基于上述步骤S402,图1所示实施例中S103可以按照以下步骤S403实现。
步骤S403:提取预设数量层特征向量中最后一层的特征向量,确定为目标文本的全局特征。
上述目标文本的全局特征用于表征目标文本整体所表达的语义。
在多层特征向量中,最后一层的特征向量用于表征文本的全局特征,因此,可以将预设数量层特征向量中最后一层的特征向量,确定为目标文本的全局特征。
例如:在上述图4b所示的编码器结构图中,第N层网络层输出的第N层特征向量为最后一层的特征向量,将上述最后一层网络层输出的特征向量确定为目标文本的全局向量。
基于上述步骤S402,图1所示实施例中S104可以按照以下步骤S404-S405实现。
步骤S404:提取预设数量层特征向量中除最后一层的特征向量之外的特征向量,将提取得到的特征向量进行特征融合,得到第二融合特征。
在多层特征向量中,除最后一层的特征向量之外的特征向量能够表征文本的局部特征,因此,可以基于除最后一层的特征向量之外的特征向量,确定目标文本的局部特征。
一种实施方式中,可以提取上述除最后一层的特征向量之外的特征向量,并将提取得到的特征向量进行特征拼接,得到第二融合特征,由于上述第二融合特征中包括多层文本特征,文本特征又可以反映目标文本的语义信息,所以,可以将上述第二融合特征称为层次化语义特征。
例如:在上述图4b所示的编码器结构图中,第1层、第2层、……、第N-1层网络层输出的特征向量为:除最后一层的特征向量之外的特征向量,将将第1层、第2层、……、第N-1层网络层输出的特征向量进行拼接,得到层次化语义特征。
步骤S405:对第二融合特征进行局部特征提取,得到目标文本的局部特征。
上述目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义。
一种实施方式中,可以采用卷积神经网络对第二融合特征进行局部特征提取。卷积神经网络具有局部感知的特点,能够对第二融合特征进行局部特征的提取,并且卷积神经网络能够实现参数共享,减少了参数的数量,降低了提取特征的复杂度。
步骤S406:基于目标文本的全局特征以及局部特征,提取目标文本的关键词。
上述步骤S406与前述图1所示实施例中步骤S105相同,在此不进行赘述。
由以上可见,由于是基于目标文本中每一字符的上下文信息,得到目标文本的文本特征,每一字符的上下文信息能够准确地反映每一字符的语义信息,又由于目标文本的语义信息与每一字符的语义信息相关,所以,所得到的目标文本的文本特征能够准确地反映目标文本的语义信息。
并且,在多层特征向量中,最后一层的特征向量能够准确地表征文本的全局特征,除最后一层的特征向量之外的特征向量能够准确地表征文本的局部特征,所以,将最后一层的特征向量,确定为目标文本的全局特征,能够得到较为准确的全局特征,并基于除最后一层的特征向量之外的特征向量确定目标文本的局部特征,能够得到较为准确的局部特征。
在前述图1所示步骤S102、S103、S104以及S105中,可以采用预先训练的关键词提取模型中各网络层实现。基于此,本公开的一个实施例中,参见图5a,图5a为本公开实施例提供的第五种关键词提取方法的流程示意图,上述方法包括以下步骤S501-S505。
步骤S501:获得待处理的目标文本。
上述步骤S501与前述图1所示实施例中步骤S101相同,在此不进行详述。
步骤S502:将目标文本输入预先训练的关键词提取模型中文本特征提取层,得到目标文本的文本特征。
上述文本特征提取层用于提取文本的文本特征。
目标文本在输入上述文本特征提取层后,文本特征提取层可以基于目标文本中每一字符的上下文信息进行字符编码,得到目标文本的文本特征。
步骤S503:将目标文本的文本特征输入关键词提取模型中全局特征提取层,得到目标文本的全局特征。
上述目标文本的全局特征用于表征目标文本整体所表达的语义。
全局特征提取层,用于对文本特征进行全局特征提取。
目标文本的文本特征输入上述全局特征提取层后,全局特征提取层可以对目标文本的文本特征进行全局特征提取,得到目标文本的全局特征。
步骤S504:将目标文本的文本特征输入关键词提取模型中局部特征提取层,得到目标文本的局部特征。
上述目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义。
局部特征提取层,用于对文本特征进行局部特征提取。
目标文本的文本特征输入上述局部特征提取层后,局部特征提取层可以对目标文本的文本特征进行局部特征提取,得到目标文本的局部特征。
步骤S505:将目标文本的全局特征以及局部特征输入关键词提取模型中关键词提取层,得到目标文本的关键词。
关键词提取层,用于基于文本的全局特征以及局部特征进行关键词提取。
目标文本的全局特征以及局部特征输入上述关键词提取层后,关键词提取层可以基于目标文本的全局特征以及局部特征,提取目标文本的关键词。
由以上可见,由于预先训练的关键词提取模型是基于大量的样本文本训练得到的,关键词提取模型学习到基于样本文本识别关键词的能力,所以,基于上述关键词提取模型中各个网络层提取目标文本的关键词时,能够提高所提取的关键词的准确度。
以下为图5b所示的关键词提取模型的结构示意图为例,对上述关键词提取过程进行说明。
图5b所示的关键词提取模型中包括:文本特征提取层、全局特征提取层、局部特征提取层、关键词提取层。
目标文本首先输入图5b所示关键词提取模型中文本特征提取层,文本特征提取层对目标文本进行文本特征提取,将提取得到的文本特征输入全局特征提取层以及局部特征提取层;
全局特征提取层对文本特征进行全局特征提取,得到目标文本的全局特征,并将全局特征输入关键词提取层;
局部特征提取层用于对文本特征进行局部特征提取,得到目标文本的局部特征,并将局部特征输入关键词提取层;
关键词提取层对目标文本的全局特征以及局部特征进行关键词提取,输出提取得到的关键词,作为目标文本的关键词。
与上述图2所示实施例相对应的,在获得多个关键词的情况下,每个关键词之间的重要程度是存在差异的,为了能够获知各关键词的重要程度,本公开的一个实施例中,参见图6a,图6a为本公开实施例提供的第六种关键词提取方法的流程示意图,上述方法包括以下步骤S601-S606。
步骤S601:获得待处理的目标文本。
步骤S602:将目标文本输入预先训练的关键词提取模型中文本特征提取层,得到目标文本的文本特征。
步骤S603:将目标文本的文本特征输入关键词提取模型中全局特征提取层,得到目标文本的全局特征。
上述目标文本的全局特征用于表征目标文本整体所表达的语义。
步骤S604:将目标文本的文本特征输入关键词提取模型中局部特征提取层,得到目标文本的局部特征。
上述目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义。
步骤S605:将目标文本的全局特征以及局部特征输入关键词提取模型中关键词提取层,得到目标文本的关键词。
上述步骤S601-S605与上述步骤S501-S505相同,在此不进行详述。
步骤S606:将目标文本的局部特征输入关键词提取模型中重要度确定层,得到关键词的第一重要度。
上述重要度确定层用于基于文本的局部特征预测文本的关键词的重要度。
当目标文本的局部特征输入重要度确定层后,重要度确定层用于基于目标文本的局部特征预测关键词的第一重要度。
由以上可见,由于关键词提取模型中还包含重要度确定层,重要度确定层用于基于文本的局部特征预测文本的关键词重要度,所以将目标文本的局部特征输入关键词提取模型后,可以得到较为准确地关键词的第一重要度。
以下为图6b所示的关键词提取模型的结构示意图为例,对上述关键词提取过程进行说明。
图6b所示的关键词提取模型中包括:文本特征提取层、全局特征提取层、局部特征提取层、关键词提取层、重要度确定层。
目标文本首先输入图6b所述关键词提取模型的文本特征提取层,文本特征提取层对目标文本进行文本特征提取,将提取得到的文本特征输入全局特征提取层以及局部特征提取层;
全局特征提取层对文本特征进行全局特征提取,得到目标文本的全局特征,并将全局特征输入关键词提取层;
局部特征提取层对文本特征进行局部特征提取,得到目标文本的局部特征,并将局部特征分别输入关键词提取层以及重要度确定层;
关键词提取层对目标文本的全局特征以及局部特征进行关键词提取,输出提取得到的关键词,作为目标文本的关键词;
重要度确定层基于目标文本的局部特征确定关键词的重要度。
以下结合图7,对上述关键词识别的过程进行具体说明。
图7为本公开实施例提供的一种关键词识别方法的流程框图。图7包括以下步骤S701-S712。
S701:获得待处理的原始文本;
S702:将原始文本进行转换,得到原始文本中每一字符对应的token_id。
上述token_id表示原始文本中每一字符在预设的字典库中所在位置的位置标识。
S703:判断转换后的文本的长度是否小于128,若为是,执行S704,若为否,执行S705。
S704:通过补0方式对上述转换后的文本进行文本填充,得到128长度的文本,作为目标文本。
S705:截取转换后的文本中前128个字符,作为目标文本。
S706:基于目标文本中每一字符的上下文信息,对每一字符进行编码,得到预设数量层特征向量。
S707:提取预设数量层特征向量中最后一层特征向量,作为目标文本的全局特征。
S708:提取预设数量层特征向量中除最后一层特征向量之外的特征向量,对提取得到的特征向量进行特征拼接。
S709:对拼接得到的特征进行局部特征提取,得到目标文本的局部特征。
S710:将目标文本的全局特征以及局部特征进行特征拼接。
S711:对S710拼接得到的特征进行关键词识别以及关键词的词类型识别,得到目标文本的关键词以及关键词的词类型。
S712:基于目标文本的局部特征,确定关键词的重要度等级,并确定关键词在重要度等级下的重要度,将重要度等级以及重要度等级下的重要度确定为关键词的最终重要度。
参见图8,图8为本公开实施例提供的第一种模型训练方法的流程示意图,上述方法包括以下步骤S801-S803。
步骤S801:获得样本文本以及样本文本的真实关键词。
步骤S802:将样本文本输入预设的神经网络模型,得到样本文本的预测关键词。
上述预测关键词为:基于样本文本的全局特征以及局部特征预测得到的关键词。
上述样本文本的全局特征为:对样本文本的文本特征进行全局特征提取得到的特征。
上述样本文本的局部特征为:对样本文本的文本特征进行局部特征提取得到的特征。
步骤S803:基于预测关键词与真实关键词之间的差异,调整神经网络模型的模型参数。
在调整神经网络模型的模型参数时,可以计算预测关键词与真实关键词之间的差异,基于计算得到的差异确定神经网络模型的损失值,基于上述损失值调整神经网络模型的模型参数。
由以上可见,由于是基于预测关键词与真实关键词之间的差异,调整神经网络模型的模型参数,预测关键词与真实关键词之间的差异反映神经网络模型提取关键词的能力,因此,基于预测关键词与真实关键词之间的差异,能够有效提高神经网络模型提取关键词的能力。
参见图9,图9为本公开实施例提供的第二种模型训练方法的流程示意图,上述方法包括以下步骤S901-S904。
步骤S901:获得样本文本以及样本文本的真实关键词。
步骤S902:获得样本文本的真实关键词的真实重要度。
步骤S903:将样本文本输入预设的神经网络模型,得到样本的预测关键词以及预测关键词的预测重要度。
上述预测关键词为:基于样本文本的全局特征以及局部特征预测得到的关键词。
上述样本文本的全局特征为:对样本文本的文本特征进行全局特征提取得到的特征。
上述样本文本的局部特征为:对样本文本的文本特征进行局部特征提取得到的特征。
上述预测重要度为:基于样本文本的局部特征进行重要度预测得到的重要度。
步骤S904:基于预测关键词与真实关键词之间的差异、同一关键词的预测重要度与真实重要度之间的差异,调整神经网络模型的模型参数。
一种实施方式中,可以基于预测关键词与真实关键词之间的差异,计算神经网络模型的第一损失值,并基于同一关键词的预测重要度与真实重要度之间的差异,计算神经网络模型的第二损失值,基于第一损失值和第二损失值,调整神经网络模型的模型参数。
具体的,可以按照第一损失值对应的权重以及第二损失值对应的权重,对第一损失值与第二损失值进行加权求和,基于加权求和得到的和值对神经网络模型的模型参数进行调整。
由于是基于预测关键词与真实关键词之间的差异、同一关键词的预测重要度与真实重要度之间的差异,调整神经网络模型的模型参数,预测关键词与真实关键词之间的差异反映神经网络模型提取关键词的能力、同意关键词的预测重要度与真实重要度之间的差异反映神经网络模型预测关键词的重要度的能力,因此,基于上述两种差异,能够有效提高神经网络模型提取关键词的能力以及预测关键词的重要度的能力。
与上述关键词提取方法相对应的,本公开实施例还提供了关键词提取装置。
参见图10,图10为本公开实施例提供的第一种关键词提取装置的结构示意图,上述装置包括以下模块1001-1005。
文本获得模块1001,用于获得待处理的目标文本;
特征提取模块1002,用于提取所述目标文本的文本特征;
全局特征提取模块1003,用于对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,其中,所述目标文本的全局特征用于表征所述目标文本整体所表达的语义;
局部特征提取模块1004,用于对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,其中,所述目标文本的局部特征用于表征所述目标文本中每一字符所在上下文所表达的语义;
关键词提取模块1005,用于基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词。
由以上可见,本公开实施例提供的方案中,基于目标文本的全局特征以及局部特征,提取目标文本的关键词,由于目标文本的全局特征表征目标文本整体所表达的语义,目标文本的局部特征表征目标文本中每一字符所在上下文所表达的语义,所以,在提取目标文本的关键词时,既考虑目标文本整体所表达的语义、又考虑了目标文本中每一字符所在上下文所表达的语义,又由于目标文本整体所表达的语义以及目标文本中每一字符所在上下文所表达的语义能够充分、全面地表征目标文本的语义信息,因此,采用本公开实施例提供的方案,是基于目标文本全面、丰富的语义信息提取目标文本的关键词,从而提高了所提取的关键词的准确度。
参见图11,图11为本公开实施例提供的第二种关键词提取装置的结构示意图,上述装置包括以下模块1101-1106。
文本获得模块1101,用于获得待处理的目标文本;
特征提取模块1102,用于提取所述目标文本的文本特征;
全局特征提取模块1103,用于对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,其中,所述目标文本的全局特征用于表征所述目标文本整体所表达的语义;
局部特征提取模块1104,用于对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,其中,所述目标文本的局部特征用于表征所述目标文本中每一字符所在上下文所表达的语义;
关键词提取模块1105,用于基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词;
重要度预测模块1106,用于基于所述目标文本的局部特征,预测所述关键词的第一重要度。
由以上可见,在预测关键词的第一重要度时,是基于目标文本的局部特征预测得到的,由于目标文本的局部特征用于表征目标文本中每一字符所在上下文所表达的语义,所以,预测得到的第一重要度与目标文本中每一字符所在上下文所表达的语义相关,所以第一重要度考虑了目标文本的局部语义信息。又由于目标文本中每一词语的重要度与目标文本的局部语义信息相关。因此,基于目标文本的局部特征,能够提高所预测的关键词的第一重要度的准确度。
参见图12,图12为本公开实施例提供的第三种关键词提取装置的结构示意图,上述装置包括以下模块1201-1209。
文本获得模块1201,用于获得待处理的目标文本;
特征提取模块1202,用于提取所述目标文本的文本特征;
全局特征提取模块1203,用于对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,其中,所述目标文本的全局特征用于表征所述目标文本整体所表达的语义;
局部特征提取模块1204,用于对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,其中,所述目标文本的局部特征用于表征所述目标文本中每一字符所在上下文所表达的语义;
关键词提取模块1205,用于基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词;
可能度预测子模块1206,用于基于所述目标文本的局部特征,预测所述关键词的重要度等级为每一预设重要度等级的可能度;
重要度等级确定子模块1207,用于基于所述关键词对应的可能度,从各预设重要等级中确定所述关键词的目标重要度等级;
重要度计算子模块1208,用于基于所述关键词对应的可能度,计算所述关键词在所述目标重要度等级下的第二重要度;
重要度确定子模块1209,用于基于所述关键词的目标重要度等级与第二重要度,确定所述关键词的第一重要度。
由以上可见,基于关键词的目标重要度等级与第二重要度,确定关键词的第一重要度,其中,关键词的目标重要度等级表示关键词的重要度等级,关键词的第二重要度反映关键词在目标重要度等级下的重要程度,由于基于关键词的重要度等级以及在目标重要度等级下的重要程度,能够准确地反映关键词的重要程度,所以,提高了所确定的第一重要度的准确度.
本公开的一个实施例中,上述可能度预测子模块1206,包括:
可能度预测单元,用于基于所述目标文本的局部特征,预测所述目标文本中每一字符的重要度等级为每一预设重要度等级的可能度;
第一可能度确定单元,用于从所述目标文本中每一字符对应的可能度中确定所述关键词中每一字符对应的可能度;
第二可能度确定单元,用于针对每一预设重要度等级,对所述关键词中每一字符的重要度等级为该预设重要度等级的可能度进行统计分析,将统计分析结果确定为关键词的重要度等级为每一预设重要度等级的可能度。
由以上可见,由于关键词中包含多个字符,关键词对应的可能度与每一字符对应的可能度相关,因此,针对每一预设重要度等级,对关键词中每一字符的重要度等级为该预设重要度等级的可能度进行统计分析,统计分析得到的结果能够准确地反映关键词的重要度等级为该预设重要度等级的可能度,从而可以得到较为准确的关键词的重要度等级为每一预设重要度等级的可能度。
本公开的一个实施例中,上述关键词提取模块,具体用于对所述目标文本的全局特征以及局部特征进行特征融合,得到第一融合特征;基于所述第一融合特征,提取所述目标文本的关键词。
由于第一融合特征是目标文本的全局特征与局部特征融合得到的特征,第一融合特征能够较完整的包含目标文本的全局特征以及局部特征,所以,在基于第一融合特征进行关键词提取时,能够较好参考目标文本的全局特征以及局部特征
本公开的一个实施例中,上述装置还包括:
词语类型确定模块,用于基于所述目标文本的全局特征以及局部特征,从各预设词语类型中确定所述目标文本的关键词的词语类型。
由于在确定关键词的词语类型考虑了目标文本的全局特征以及局部特征,上述目标文本的全局特征以及局部特征能够充分得反映目标文本中各词语的词语类型信息,因此,基于上述全局特征以及局部特征,能够得到较为准确的关键词的词语类型。
本公开的一个实施例中,上述文本特征提取模块,具体用于基于所述目标文本中每一字符的上下文信息,采用多层编码方式对每一字符进行编码,得到预设数量层特征向量,作为所述目标文本的文本特征;
所述全局特征提取模块,具体用于提取所述预设数量层特征向量中最后一层的特征向量,确定为所述目标文本的全局特征;
所述局部特征提取模块,具体用于提取所述预设数量层特征向量中除最后一层的特征向量之外的特征向量,将提取得到的特征向量进行特征融合,得到第二融合特征;对所述第二融合特征进行局部特征提取,得到所述目标文本的局部特征。
由以上可见,由于是基于目标文本中每一字符的上下文信息,得到目标文本的文本特征,每一字符的上下文信息能够准确地反映每一字符的语义信息,又由于目标文本的语义信息与每一字符的语义信息相关,所以,所得到的目标文本的文本特征能够准确地反映目标文本的语义信息。
并且,在多层特征向量中,最后一层的特征向量能够准确地表征文本的全局特征,除最后一层的特征向量之外的特征向量能够准确地表征文本的局部特征,所以,将最后一层的特征向量,确定为目标文本的全局特征,能够得到较为准确的全局特征,并基于除最后一层的特征向量之外的特征向量确定目标文本的局部特征,能够得到较为准确的局部特征。
本公开的一个实施例中,上述文本特征提取模块,具体用于将所述目标文本输入预先训练的关键词提取模型中文本特征提取层,得到所述目标文本的文本特征;
所述全局特征提取模块,具体用于将所述目标文本的文本特征输入所述关键词提取模型中全局特征提取层,得到所述目标文本的全局特征;
所述局部特征提取模块,具体用于将所述目标文本的文本特征输入所述关键词提取模型中局部特征提取层,得到所述目标文本的局部特征;
所述关键词提取模块,具体用于将所述目标文本的全局特征以及局部特征输入所述关键词提取模型中关键词提取层,得到所述目标文本的关键词。
由以上可见,由于预先训练的关键词提取模型是基于大量的样本文本训练得到的,关键词提取模型学习到基于样本文本识别关键词的能力,所以,基于上述关键词提取模型中各个网络层提取目标文本的关键词时,能够提高所提取的关键词的准确度。
本公开的一个实施例中,上述装置还包括:
重要度确定模块,用于将所述目标文本的局部特征输入所述关键词提取模型中重要度确定层,得到所述关键词的第一重要度。
由以上可见,由于关键词提取模型中还包含重要度确定层,重要度确定层用于基于文本的局部特征预测文本的关键词重要度,所以将目标文本的局部特征输入关键词提取模型后,可以得到较为准确地关键词的第一重要度。
与上述模型训练方法相对应,本公开实施例还提供了一种模型训练装置。参见图13,图13为本公开实施例提供的第一种模型训练装置的结构示意图,上述装置包括以下模块1301-1303。
信息获得模块1301,用于获得样本文本以及样本文本的真实关键词;
关键词确定模块1302,用于将所述样本文本输入预设的神经网络模型,得到所述样本文本的预测关键词,其中,所述预测关键词为:基于所述样本文本的全局特征以及局部特征预测得到的关键词,所述样本文本的全局特征为:对所述样本文本的文本特征进行全局特征提取得到的特征,所述样本文本的局部特征为:对所述样本文本的文本特征进行局部特征提取得到的特征;
模型参数调整模块1303,用于基于所述预测关键词与所述真实关键词之间的差异,调整所述神经网络模型的模型参数。
由以上可见,由于是基于预测关键词与真实关键词之间的差异,调整神经网络模型的模型参数,预测关键词与真实关键词之间的差异反映神经网络模型提取关键词的能力,因此,基于预测关键词与真实关键词之间的差异,能够有效提高神经网络模型提取关键词的能力。
参见图14,图14为本公开实施例提供的第二种模型训练装置的结构示意图,上述装置包括以下模块1401-1404。
信息获得模块1401,用于获得样本文本以及样本文本的真实关键词;
重要度获得模块1402,用于在所述信息获得模块中获得样本文本以及样本文本的真实关键词之后,获得所述样本文本的真实关键词的真实重要度;
关键词确定模块1403,具体用于将所述样本文本输入预设的神经网络模型,得到所述样本的预测关键词以及预测关键词的预测重要度,其中,所述预测关键词为:基于所述样本文本的全局特征以及局部特征预测得到的关键词,所述样本文本的全局特征为:对所述样本文本的文本特征进行全局特征提取得到的特征,所述样本文本的局部特征为:对所述样本文本的文本特征进行局部特征提取得到的特征,所述预测重要度为:基于所述样本文本的局部特征进行重要度预测得到的重要度;
模型参数调整模块1404,具体用于基于所述预测关键词与所述真实关键词之间的差异、同一关键词的预测重要度与真实重要度之间的差异,调整所述神经网络模型的模型参数。
由于是基于预测关键词与真实关键词之间的差异、同一关键词的预测重要度与真实重要度之间的差异,调整神经网络模型的模型参数,预测关键词与真实关键词之间的差异反映神经网络模型提取关键词的能力、同意关键词的预测重要度与真实重要度之间的差异反映神经网络模型预测关键词的重要度的能力,因此,基于上述两种差异,能够有效提高神经网络模型提取关键词的能力以及预测关键词的重要度的能力。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
本公开实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述关键词提取方法或模型训练方法。
本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述关键词提取方法或模型训练方法。
本公开实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现执行上述关键词提取方法或模型训练方法。
图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图15所示,设备1500包括计算单元1501,其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序,来执行各种适当的动作和处理。在RAM 1503中,还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。
设备1500中的多个部件连接至I/O接口1505,包括:输入单元1506,例如键盘、鼠标等;输出单元1507,例如各种类型的显示器、扬声器等;存储单元1508,例如磁盘、光盘等;以及通信单元1509,例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理,例如关键词提取方法或模型训练方法。例如,在一些实施例中,关键词提取方法或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时,可以执行上文描述的关键词提取方法或模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行关键词提取方法或模型训练方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (20)
1.一种关键词提取方法,包括:
获得待处理的目标文本;
提取所述目标文本的文本特征;
对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,其中,所述目标文本的全局特征用于表征所述目标文本整体所表达的语义;
对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,其中,所述目标文本的局部特征用于表征所述目标文本中每一字符所在上下文所表达的语义;
基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词。
2.根据权利要求1所述的方法,还包括:
基于所述目标文本的局部特征,预测所述关键词的第一重要度。
3.根据权利要求2所述的方法,其中,所述基于所述目标文本的局部特征,预测所述关键词的第一重要度,包括:
基于所述目标文本的局部特征,预测所述关键词的重要度等级为每一预设重要度等级的可能度;
基于所述关键词对应的可能度,从各预设重要等级中确定所述关键词的目标重要度等级;
基于所述关键词对应的可能度,计算所述关键词在所述目标重要度等级下的第二重要度;
基于所述关键词的目标重要度等级与第二重要度,确定所述关键词的第一重要度。
4.根据权利要求3所述的方法,其中,所述基于所述目标文本的局部特征,预测所述关键词的重要度等级为每一预设重要度等级的可能度,包括:
基于所述目标文本的局部特征,预测所述目标文本中每一字符的重要度等级为每一预设重要度等级的可能度;
从所述目标文本中每一字符对应的可能度中确定所述关键词中每一字符对应的可能度;
针对每一预设重要度等级,对所述关键词中每一字符的重要度等级为该预设重要度等级的可能度进行统计分析,将统计分析结果确定为关键词的重要度等级为每一预设重要度等级的可能度。
5.根据权利要求1-4中任一项所述的方法,其中,所述基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词,包括:
对所述目标文本的全局特征以及局部特征进行特征融合,得到第一融合特征;
基于所述第一融合特征,提取所述目标文本的关键词。
6.根据权利要求1-4中任一项所述的方法,还包括:
基于所述目标文本的全局特征以及局部特征,从各预设词语类型中确定所述目标文本的关键词的词语类型。
7.根据权利要求1-4中任一项所述的方法,其中,
所述提取所述目标文本的文本特征,包括:
基于所述目标文本中每一字符的上下文信息,采用多层编码方式对每一字符进行编码,得到预设数量层特征向量,作为所述目标文本的文本特征;
所述对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,包括:
提取所述预设数量层特征向量中最后一层的特征向量,确定为所述目标文本的全局特征;
所述对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,包括:
提取所述预设数量层特征向量中除最后一层的特征向量之外的特征向量,将提取得到的特征向量进行特征融合,得到第二融合特征;
对所述第二融合特征进行局部特征提取,得到所述目标文本的局部特征。
8.根据权利要求1-4中任一项所述的方法,其中,
所述提取所述目标文本的文本特征,包括:
将所述目标文本输入预先训练的关键词提取模型中文本特征提取层,得到所述目标文本的文本特征;
所述对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,包括:
将所述目标文本的文本特征输入所述关键词提取模型中全局特征提取层,得到所述目标文本的全局特征;
所述对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,包括:
将所述目标文本的文本特征输入所述关键词提取模型中局部特征提取层,得到所述目标文本的局部特征;
所述基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词,包括:
将所述目标文本的全局特征以及局部特征输入所述关键词提取模型中关键词提取层,得到所述目标文本的关键词。
9.根据权利要求8所述的方法,还包括:
将所述目标文本的局部特征输入所述关键词提取模型中重要度确定层,得到所述关键词的第一重要度。
10.一种模型训练方法,包括:
获得样本文本以及样本文本的真实关键词;
将所述样本文本输入预设的神经网络模型,得到所述样本文本的预测关键词,其中,所述预测关键词为:基于所述样本文本的全局特征以及局部特征预测得到的关键词,所述样本文本的全局特征为:对所述样本文本的文本特征进行全局特征提取得到的特征,所述样本文本的局部特征为:对所述样本文本的文本特征进行局部特征提取得到的特征;
基于所述预测关键词与所述真实关键词之间的差异,调整所述神经网络模型的模型参数。
11.根据权利要求10所述的方法,
在所述获得样本文本以及样本文本的真实关键词之后,还包括:
获得所述样本文本的真实关键词的真实重要度;
所述将所述样本文本输入预设的神经网络模型,得到所述样本文本的预测关键词,包括:
将所述样本文本输入预设的神经网络模型,得到所述样本的预测关键词以及预测关键词的预测重要度,其中,所述预测重要度为:基于所述样本文本的局部特征进行重要度预测得到的重要度;
所述基于所述预测关键词与所述真实关键词之间的差异,调整所述神经网络模型的模型参数,包括:
基于所述预测关键词与所述真实关键词之间的差异、同一关键词的预测重要度与真实重要度之间的差异,调整所述神经网络模型的模型参数。
12.一种关键词提取装置,包括:
文本获得模块,用于获得待处理的目标文本;
特征提取模块,用于提取所述目标文本的文本特征;
全局特征提取模块,用于对所述目标文本的文本特征进行全局特征提取,得到所述目标文本的全局特征,其中,所述目标文本的全局特征用于表征所述目标文本整体所表达的语义;
局部特征提取模块,用于对所述目标文本的文本特征进行局部特征提取,得到所述目标文本的局部特征,其中,所述目标文本的局部特征用于表征所述目标文本中每一字符所在上下文所表达的语义;
关键词提取模块,用于基于所述目标文本的全局特征以及局部特征,提取所述目标文本的关键词。
13.根据权利要求12所述的装置,还包括:
重要度预测模块,用于基于所述目标文本的局部特征,预测所述关键词的第一重要度。
14.根据权利要求13所述的装置,其中,所述重要度预测模块,包括:
可能度预测子模块,用于基于所述目标文本的局部特征,预测所述关键词的重要度等级为每一预设重要度等级的可能度;
重要度等级确定子模块,用于基于所述关键词对应的可能度,从各预设重要等级中确定所述关键词的目标重要度等级;
重要度计算子模块,用于基于所述关键词对应的可能度,计算所述关键词在所述目标重要度等级下的第二重要度;
重要度确定子模块,用于基于所述关键词的目标重要度等级与第二重要度,确定所述关键词的第一重要度。
15.根据权利要求14所述的装置,其中,所述可能度预测子模块,包括:
可能度预测单元,用于基于所述目标文本的局部特征,预测所述目标文本中每一字符的重要度等级为每一预设重要度等级的可能度;
第一可能度确定单元,用于从所述目标文本中每一字符对应的可能度中确定所述关键词中每一字符对应的可能度;
第二可能度确定单元,用于针对每一预设重要度等级,对所述关键词中每一字符的重要度等级为该预设重要度等级的可能度进行统计分析,将统计分析结果确定为关键词的重要度等级为每一预设重要度等级的可能度。
16.根据权利要求12-15中任一项所述的装置,其中,
所述文本特征提取模块,具体用于将所述目标文本输入预先训练的关键词提取模型中文本特征提取层,得到所述目标文本的文本特征;
所述全局特征提取模块,具体用于将所述目标文本的文本特征输入所述关键词提取模型中全局特征提取层,得到所述目标文本的全局特征;
所述局部特征提取模块,具体用于将所述目标文本的文本特征输入所述关键词提取模型中局部特征提取层,得到所述目标文本的局部特征;
所述关键词提取模块,具体用于将所述目标文本的全局特征以及局部特征输入所述关键词提取模型中关键词提取层,得到所述目标文本的关键词。
17.一种模型训练装置,包括:
信息获得模块,用于获得样本文本以及样本文本的真实关键词;
关键词确定模块,用于将所述样本文本输入预设的神经网络模型,得到所述样本文本的预测关键词,其中,所述预测关键词为:基于所述样本文本的全局特征以及局部特征预测得到的关键词,所述样本文本的全局特征为:对所述样本文本的文本特征进行全局特征提取得到的特征,所述样本文本的局部特征为:对所述样本文本的文本特征进行局部特征提取得到的特征;
模型参数调整模块,用于基于所述预测关键词与所述真实关键词之间的差异,调整所述神经网络模型的模型参数。
18.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9或10-11中任一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9或10-11中任一项所述的方法。
20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9或10-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509488.7A CN114201953A (zh) | 2021-12-10 | 2021-12-10 | 一种关键词提取、模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509488.7A CN114201953A (zh) | 2021-12-10 | 2021-12-10 | 一种关键词提取、模型训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114201953A true CN114201953A (zh) | 2022-03-18 |
Family
ID=80652340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111509488.7A Pending CN114201953A (zh) | 2021-12-10 | 2021-12-10 | 一种关键词提取、模型训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114201953A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943236A (zh) * | 2022-06-30 | 2022-08-26 | 北京金山数字娱乐科技有限公司 | 关键词提取方法及装置 |
-
2021
- 2021-12-10 CN CN202111509488.7A patent/CN114201953A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943236A (zh) * | 2022-06-30 | 2022-08-26 | 北京金山数字娱乐科技有限公司 | 关键词提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210312139A1 (en) | Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium | |
CN112560496A (zh) | 语义分析模型的训练方法、装置、电子设备及存储介质 | |
CN112270379A (zh) | 分类模型的训练方法、样本分类方法、装置和设备 | |
EP4064277B1 (en) | Method and apparatus for training speech recognition model, device and storage medium | |
CN113722493B (zh) | 文本分类的数据处理方法、设备、存储介质 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN113850080A (zh) | 一种押韵词推荐方法、装置、设备及存储介质 | |
CN112632987A (zh) | 词槽的识别方法、装置及电子设备 | |
CN115062718A (zh) | 语言模型训练方法、装置、电子设备及存储介质 | |
CN112632227A (zh) | 简历匹配方法、装置、电子设备、存储介质和程序产品 | |
CN113763937A (zh) | 语音处理模型的生成方法、装置、设备以及存储介质 | |
CN115481229A (zh) | 一种应答话术推送方法、装置、电子设备及存储介质 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN114201953A (zh) | 一种关键词提取、模型训练方法、装置、设备及存储介质 | |
CN112925912A (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN116502649A (zh) | 文本生成模型的训练方法、装置、电子设备及存储介质 | |
CN114118049B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN113361522B (zh) | 用于确定字符序列的方法、装置和电子设备 | |
CN115952258A (zh) | 政务标签库的生成方法、政务文本的标签确定方法和装置 | |
CN114416990A (zh) | 对象关系网络的构建方法、装置和电子设备 | |
CN114416941A (zh) | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |