CN114997161A - 关键词抽取方法、装置、电子设备与存储介质 - Google Patents

关键词抽取方法、装置、电子设备与存储介质 Download PDF

Info

Publication number
CN114997161A
CN114997161A CN202210564852.8A CN202210564852A CN114997161A CN 114997161 A CN114997161 A CN 114997161A CN 202210564852 A CN202210564852 A CN 202210564852A CN 114997161 A CN114997161 A CN 114997161A
Authority
CN
China
Prior art keywords
text
phrase
phrases
participle
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210564852.8A
Other languages
English (en)
Inventor
洪崴
王梓玥
王宝鑫
伍大勇
陈志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technological University Xunfei Hebei Technology Co ltd
Zhongke Xunfei Internet Beijing Information Technology Co ltd
Hebei Xunfei Institute Of Artificial Intelligence
Original Assignee
Technological University Xunfei Hebei Technology Co ltd
Zhongke Xunfei Internet Beijing Information Technology Co ltd
Hebei Xunfei Institute Of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technological University Xunfei Hebei Technology Co ltd, Zhongke Xunfei Internet Beijing Information Technology Co ltd, Hebei Xunfei Institute Of Artificial Intelligence filed Critical Technological University Xunfei Hebei Technology Co ltd
Priority to CN202210564852.8A priority Critical patent/CN114997161A/zh
Publication of CN114997161A publication Critical patent/CN114997161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种关键词抽取方法、装置、电子设备与存储介质,其中方法包括:确定待抽取的文本;基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。本发明提供的方法、装置、电子设备与存储介质,提升了关键词抽取的准确性,同时实现了基于词组粒度的关键词抽取,解决了词粒度关键词语义模糊、泛化等问题,使得提取出的关键词更加完整地保留语义,以便对文本内容的快速理解,有利于后续的推荐和检索。

Description

关键词抽取方法、装置、电子设备与存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种关键词抽取方法、装置、电子设备与存储介质。
背景技术
关键词抽取技术能够从文本中提取出最能表达文本意义的词语,以便加快相关人物对文本内容的理解。
目前,关键词抽取通常采用传统机器学习方法,即首先将文章分词后,通过词之间的相邻关系构建全文的图关系网络,再计算每个词的网络权重值,排序后获取关键词,然而,此种方式存在关键词语义模糊、泛化等问题。
发明内容
本发明提供一种关键词抽取方法、装置、电子设备与存储介质,用以解决现有技术中抽取的关键词存在语义泛化的缺陷。
本发明提供一种关键词抽取方法,包括:
确定待抽取的文本;
基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;
基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。
根据本发明提供的一种关键词抽取方法,所述基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,包括:
在所述至少一个分词为第一名词或第一名词的组合,且所述至少一个分词的出现频次在预设频次范围内的情况下,对所述至少一个分词进行词组合并,所述第一名词不包括人名和方位词。
根据本发明提供的一种关键词抽取方法,在所述文本的类型为预设类型的情况下,所述基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,还包括:
确定所述文本中的文本标题;
在所述文本标题中出现前后相邻的名词和动词的情况下,对所述前后相邻的名词和动词进行词组合并。
根据本发明提供的一种关键词抽取方法,所述基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词,包括:
基于所述各词组的语义特征,以及所述文本的语义特征,确定所述各词组与所述文本之间的语义相似度;
基于所述各词组与所述文本之间的语义相似度,从所述各词组中确定候选词组;
基于所述候选词组,确定所述文本中的关键词。
根据本发明提供的一种关键词抽取方法,所述文本的语义特征的确定步骤包括:
将所述文本输入至特征提取模型,得到所述特征提取模型中级联的至少两个特征提取层中的部分或者全部特征提取层分别输出的语义特征;
基于所述部分或者全部特征提取层分别输出的语义特征,以及所述部分或者全部特征提取层分别对应的权重,确定所述文本的语义特征,所述权重基于所述文本的长度确定。
根据本发明提供的一种关键词抽取方法,所述基于所述各词组与所述文本之间的语义相似度,从所述各词组中确定候选词组,包括:
基于所述各词组与所述文本之间的语义相似度,以及所述各词组的出现频次和/或出现位置,确定所述各词组的评分;
基于所述各词组的评分,从所述各词组中确定候选词组。
根据本发明提供的一种关键词抽取方法,所述基于所述候选词组,确定所述文本中的关键词,包括:
基于所述候选词组中至少两个词组的公共字符,确定所述文本中的关键词。
本发明还提供一种关键词抽取装置,包括:
文本确定单元,用于确定待抽取的文本;
词组合并单元,用于基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;
关键词抽取单元,用于基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述关键词抽取方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述关键词抽取方法。
本发明提供的关键词抽取方法、装置、电子设备与存储介质,通过结合文本中各分词的词性,以及各分词中至少一个分词的出现频次进行词组合并,并基于合并得到的各词组的语义特征进行关键词抽取,从而提升了关键词抽取的准确性,同时实现了基于词组粒度的关键词抽取,解决了词粒度关键词语义模糊、泛化等问题,使得提取出的关键词更加完整地保留语义,以便对文本内容的快速理解,有利于后续的推荐和检索。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的关键词抽取方法的流程示意图之一;
图2是本发明提供的词组合并方法的流程示意图;
图3是本发明提供的关键词抽取方法的流程示意图之二;
图4是本发明提供的文本的语义特征的确定流程示意图;
图5是本发明提供的候选词组的确定流程示意图;
图6是本发明提供的前缀树的示例图;
图7是本发明提供的关键词抽取方法的流程示意图之三;
图8是本发明提供的特征提取模型的结构示意图;
图9是本发明提供的关键词抽取装置的结构示意图;
图10是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
无监督方法由于其不需要数据标注及普适性,在关键词抽取领域得到了广泛应用。现有的无监督关键词抽取方法主要分为传统机器学习和深度语义匹配两种。传统机器学习方法采用构建词的图网络和词权重方式获取关键词,即首先将文章分词后,通过词之间的相邻关系构建全文的图关系网络,再计算每个词的网络权重值,排序后获取关键词。深度语义匹配方法分别将单词和文章输入至深度模型,获取单词和文章的语义向量后,再计算单词和文章的语义向量的余弦相似度,排序后获取关键词。
然而,这两种方式都是基于词粒度进行关键词抽取,会导致存在关键词语义模糊、泛化等问题,同时存在分词偏差导致语义错误的问题,例如,渔业法的分词为渔业/法,不适合拆开作为关键词。
针对上述问题,本发明提供一种关键词抽取方法。图1是本发明提供的关键词抽取方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定待抽取的文本。
此处,待抽取的文本即需要进行关键词抽取的文本。待抽取的文本具体可以是用户直接输入或者通过网络采集的文本,还可以是对用户输入的语音数据进行语音转写后得到的文本,可以是通用领域的文本,也可以是某个特定领域的文本,本发明实施例对此均不作具体限定。
步骤120,基于文本中各分词的词性,以及各分词中至少一个分词的出现频次,对至少一个分词进行词组合并,得到文本的词组;
步骤130,基于各词组的语义特征进行关键词抽取,得到文本中的关键词。
具体地,各分词的词性可以是通过对各分词进行词性标注得到的,例如名词、动词、介词、副词等,此处的名词还可以细分为地名、人名、专有名词等词性。至少一个分词的出现频次即一个分词或多个分词的组合在文本中出现的频率或次数。
为了解决词粒度关键词语义模糊、泛化等问题,本发明实施例先根据文本中各分词的词性,以及各分词中至少一个分词的出现频次,对至少一个分词进行词组合并,得到文本的词组,再对各词组进行特征提取,并根据特征提取得到的各词组的语义特征进行关键词抽取,得到文本中的关键词,从而实现词组粒度的关键词抽取。
可以理解的是,不同词性的分词在语句中所起的作用不同,例如,名词能够对表征文本的内容主题起到关键作用,而副词、介词等词性的分词对表征文本的内容主题起不到关键作用。至少一个分词的出现频次反映至少一个分词是否频繁出现,出现频次越高,则说明至少一个分词越能代表该文本的内容主题。因此,结合文本中各分词的词性,以及各分词中至少一个分词的出现频次进行词组合并,可以保证合并得到的词组的关键程度,能够代表文本的内容主题,进而可以提升关键词抽取的准确性。
例如,至少一个分词为“渔业”和“资源”的组合,“渔业”和“资源”的词性均为名词,“渔业”和“资源”的组合在文本中的出现频次为2次,则可以将“渔业”和“资源”合并为文本的词组“渔业资源”。
另外,在根据各词组的语义特征进行关键词抽取时,可以是根据语义特征所包含的词组本身的语义信息及其上下文信息,对各词组进行关键程度评估,也可以是根据各词组的语义特征与文本的语义特征之间的相似度,对各词组进行关键程度评估,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过结合文本中各分词的词性,以及各分词中至少一个分词的出现频次进行词组合并,并基于合并得到的各词组的语义特征进行关键词抽取,从而提升了关键词抽取的准确性,同时实现了基于词组粒度的关键词抽取,解决了词粒度关键词语义模糊、泛化等问题,使得提取出的关键词更加完整地保留语义,以便对文本内容的快速理解,有利于后续的推荐和检索。
基于上述实施例,步骤120中,基于文本中各分词的词性,以及各分词中至少一个分词的出现频次,对至少一个分词进行词组合并,包括:
在至少一个分词为第一名词或第一名词的组合,且至少一个分词的出现频次在预设频次范围内的情况下,对至少一个分词进行词组合并,第一名词不包括人名和方位词。
具体地,考虑到文本的关键词通常为名词,而名词中的人名和方位词并不能表示文本的主题内容,对此,本发明实施例将不包括人名和方位词的名词称为第一名词,在至少一个分词为第一名词或第一名词的组合,且至少一个分词的出现频次在预设频次范围内的情况下,对至少一个分词进行词组合并,预设频次范围即预先设置的频次范围。
例如,预设频次范围为2-4次,至少一个分词为“责任”和“意识”的组合,“责任”和“意识”均属于第一名词,即满足至少一个分词为第一名词的组合的情况,如果“责任”和“意识”的组合在文本中的出现频次为3次,则可以将“责任”和“意识”合并为词组“责任意识”;又例如,至少一个分词为“上班族”,“上班族”属于第一名词,如果“上班族”在文本中的出现频次为2次,则可以将“上班族”单独合并为词组。
此处,预设频次范围可以仅限制最低的出现频次,也可以同时限制最低和最高的出现频次,针对不同类型的文本,可以设置相同的预设频次范围,也可以设置不同的预设频次范围,本发明实施例对此均不作具体限定。
进一步地,还可以设置在至少一个分词为缩写词或缩写词的组合,且至少一个分词的出现频次在预先设置的频次范围内的情况下,对至少一个分词进行词组合并,例如,至少一个分词为“环保”,“环保”是环境保护的缩写词,如果“环保”在文本中的出现频次在频次范围内,则可以将“环保”单独合并为词组。
另外,考虑到词组长度不能过长,在进行词组合并时,还需要满足合并后的词组的长度在m-n(例如,1-9字)之间的条件。
基于上述任一实施例,图2是本发明提供的词组合并方法的流程示意图,如图2所示,在文本的类型为预设类型的情况下,步骤120中,基于文本中各分词的词性,以及各分词中至少一个分词的出现频次,对至少一个分词进行词组合并,还包括:
步骤121,确定文本中的文本标题;
步骤122,在文本标题中出现前后相邻的名词和动词的情况下,对前后相邻的名词和动词进行词组合并。
具体地,考虑到部分类型的文本除了文本本身的内容存在关键信息之外,文本的标题也会存在关键信息,对此,本发明实施例在文本的类型为预设类型的情况下,在执行词组合并时,除了对文本内容中的分词进行词组合并外,还确定文本中的文本标题,并对文本标题进行分词和词性标注,在文本标题中出现前后相邻的名词和动词的情况下,对前后相邻的名词和动词进行词组合并。此处,预设类型即标题中存在关键信息的文本所属的类型,例如,建议议案类型等。
可以理解的是,由于文本标题通常较短,前后相邻的名词和动词在文本标题中的出现频次满足至少一次,即可对其进行词组合并。例如,文本标题中出现前后相邻的“水污染”(名词)和“防治”(动词),则可以将“水污染”和“防治”合并为词组“水污染防治”。
基于上述任一实施例,考虑到重要讲话等部分类型文本的内容相对随意且包含更多的新词,对此,本发明实施例针对此类文本,还可以设置在至少一个分词为外来词、外来词的组合、四字词语、四字词语的组合、或者外来词和四字词语的组合,且至少一个分词的出现频次在预先设置的频次范围内的情况下,对至少一个分词进行词组合并,此处的外来词即词表里没有出现的分词。
例如,至少一个分词为“以史为鉴”,“以史为鉴”属于四字词语,如果“以史为鉴”在文本中的出现频次在频次范围内,则可以将“以史为鉴”单独合并为词组。
基于上述任一实施例,图3是本发明提供的关键词抽取方法的流程示意图之二,如图3所示,步骤130包括:
步骤131,基于各词组的语义特征,以及文本的语义特征,确定各词组与文本之间的语义相似度;
步骤132,基于各词组与文本之间的语义相似度,从各词组中确定候选词组;
步骤133,基于候选词组,确定文本中的关键词。
具体地,现有的构建图网络的关键词抽取方法没有考虑文章的语义信息等重要信息,抽取到的关键词往往是文章中出现频率较高词,不能很好表示文章的关键内容,针对这一问题,本发明实施例结合各词组的语义特征与文本的语义特征,分别计算各词组的语义特征与文本的语义特征的相似度,并将其作为各词组与文本之间的语义相似度,随即根据各词组与文本之间的语义相似度,从各词组中选取出候选词组,最后根据选取的候选词组,确定文本中的关键词。
可以理解的是,词组与文本之间的语义相似度越高,该词组就越能代表文本的内容,该词组是关键词的概率也就越大。
此处,可以仅根据各词组与文本之间的语义相似度进行候选词组的选取,也可以结合词频、位置等信息进行候选词组的选取,本发明实施例对此不作具体限定。在选取出候选词组之后,可以直接将候选词组作为关键词,也可以对候选词组进行相同词缀拆分等后处理,再根据后处理的结果确定关键词,本发明实施例对此也不作具体限定。
基于上述任一实施例,图4是本发明提供的文本的语义特征的确定流程示意图,如图4所示,文本的语义特征的确定步骤包括:
步骤410,将文本输入至特征提取模型,得到特征提取模型中级联的至少两个特征提取层中的部分或者全部特征提取层分别输出的语义特征;
步骤420,基于部分或者全部特征提取层分别输出的语义特征,以及部分或者全部特征提取层分别对应的权重,确定文本的语义特征,权重基于文本的长度确定。
具体地,步骤131中文本的语义特征可以通过如下方式得到:首先,将文本输入到特征提取模型中,得到特征提取模型中级联的至少两个特征提取层中的部分或者全部特征提取层分别输出的语义特征;随即,根据部分或者全部特征提取层分别输出的语义特征,以及部分或者全部特征提取层分别对应的权重,进行加权融合,从而得到文本的语义特征。
例如,特征提取模型包括级联的6个特征提取层,在确定文本的语义特征时,可以应用全部6个特征提取层分别输出的语义特征,也可以应用第3、5和6个特征提取层分别输出的语义特征、或者第4、5和6个特征提取层分别输出的语义特征等。此处,本发明实施例对特征提取模型所采用的神经网络不作具体限定。
考虑到特征提取层越靠近输出层,其所输出的语义特征包含的语义信息越抽象,越能代表文本整体的语义,对此,本发明实施例在加权融合的过程中,可以设置文本长度越长,对于越靠近输出层的特征提取层,其所对应的权重将会越大,以使加权融合时更倾向于融合文本整体的语义,对应地,文本长度越短,对于越靠近输出层的特征提取层,其所对应的权重将会越小,以使加权融合时更倾向于融合句子粒度的语义,所得到的文本的语义特征包含的语义信息也会更精细。
进一步地,可以应用特征提取模型的最后N个特征提取层分别输出的语义特征,进行加权融合。以N取3为例,如果文本的长度超过预设长度阈值,则可以将最后一个特征提取层对应的权重设置为较大的值,而如果文本的长度不超过预设长度阈值,则可以将最后一个特征提取层对应的权重设置为较小的值,例如,预设长度阈值为800字,如果文本的长度超过800字,最后三个特征提取层分别对应的权重可以是0.1、0.1、0.8,如果文本的长度不超过800字,最后三个特征提取层分别对应的权重可以是0.5、0.5、0。
基于上述任一实施例,各词组的语义特征也可以通过步骤410中的特征提取模型得到,具体过程可以是,将文本输入到特征提取模型中,由特征提取模型中的第一个特征提取层得到各分词的语义特征,再对组成每个词组的分词的语义特征进行加权融合,从而获得每个词组的语义特征。
在加权融合过程中,对于在模型的词表内的分词,设置其对应的词权重值不大于1,对于超出词表外的分词(通常为行业内专有词汇,例如,股本额、保障费等,属于比较重要的词),设置其对应的词权重值为1。
基于上述任一实施例,图5是本发明提供的候选词组的确定流程示意图,如图5所示,步骤132包括:
步骤1321,基于各词组与文本之间的语义相似度,以及各词组的出现频次和/或出现位置,确定各词组的评分;
步骤1322,基于各词组的评分,从各词组中确定候选词组。
具体地,除考虑各词组与文本之间的语义相似度外,还可以同时兼顾词组在文本内的特征,对各词组进行关键程度评估,由此得到各词组的评分,此处的词组在文本内的特征可以仅包括词组的出现位置,也可以仅包括词组的出现频次,还可以同时包括词组的出现位置和出现频次。
需要说明的是,关键词出现在文本前面的概率较大,例如,摘要部分,因此,词组在文本中的出现位置越靠前,是文本的关键词的概率就越大,在确定评分时兼顾词组的出现位置,可以提高提取的关键词的准确性。另外,词组在文本中的出现频次越多,是文本的关键词的概率也会越大,在确定评分时兼顾词组的出现频次,也可以提高提取的关键词的准确性。
在确定了各词组的评分之后,可以从各词组中选取候选词组,此处的选取方式具体可以是根据词组的评分进行排序,选取排序在前的预设数量的词组作为候选词组,也可以是选取评分高于预设阈值的词组作为候选词组,本发明实施例对此不作具体限定。
进一步地,可以根据各词组的出现频次、出现位置,分别为各词组设置位置权重和频次权重,其中,位置权重的计算公式可以是:
P(NPi)=1/(u+Pi)
W(NPi)=softmax(P(NPi))
此处,Pi表示词组在文本中的出现位置,μ为超参数,softmax表示激活函数。可以理解的是,词组在文本中的出现位置越靠前,Pi越小,位置权重就会越高。
频次权重的计算公式可以是:
N(NPi)=1+log2n
此处,n表示词组在文本中的出现频次。
各词组的评分的计算公式可以是:
Score(NPi)=N(NPi)*W(NPi)*cos(VNPi,Vd)
此处,VNPi表示词组的语义特征,Vd表示文本的语义特征,cos(VNPi,Vd)表示各词组与文本之间的语义相似度,可以由余弦相似度算法得到。
另外,如果任一词组出现多次,可以将Pi表示词组第一次出现的位置,计算该词组的评分,也可以针对每一次出现的位置,计算对应的评分,再取所有评分的平均值作为该词组最终的评分,本发明实施例对此不作具体限定。
基于上述任一实施例,步骤133包括:
基于候选词组中至少两个词组的公共字符,确定文本中的关键词。
具体地,为了解决抽取的候选词组中部分词之间存在语义相近的问题,本发明实施例在获取到候选词组之后,根据候选词组中至少两个词组的公共字符,确定文本中的关键词,此处的公共字符即至少两个词组包含的相同字符,从而可以避免各个关键词之间公共字符的长度太长,过于冗余的问题。
例如,需要选取的关键词的数量为5个,候选词组可以包含20个词组,根据词组与文本之间的语义相似度可以对这20个词组进行排序,若前2个词组为气象灾害发生地和气象灾害特点,则可以将这2个词组的公共字符即气象灾害确定为第1个关键词,接着若第3个词组没有和其他词组存在公共字符,则可以将第3个词组直接确定为第2个关键词,以此类推,直到选取到5个关键词为止;
特殊地,如果排序在前的5个词组均不包含公共字符,则可以直接将这5个词组确定为文本中的关键词。
进一步地,可以通过构建前缀树的方式进行关键词的确定,图6是本发明提供的前缀树的示例图,如图6所示,候选词组依次包括气象灾害发生地,气象灾害特点,气象灾害历史,气象灾害级别,气象预报和气象观测站,可以对候选词组中的所有词组根据先前分词结果进行词组-分词的拆分,再按分词组成词组的顺序构建候选词组的前缀树,由于选取第三级的分词的语义范围较窄,而单独第一级的分词的语义范围又较宽,可以将气象灾害、气象预报和气象观测站确定为关键词,即相当于设置公共字符的长度只有满足大于2字的情况下,才将公共字符直接作为关键词。
可以理解的是,候选词组中所包含的词组的数量应大于或等于需要选取的关键词的数量,通过此种方式选取的关键词可以涵盖更多数量的词组的语义范围,语义覆盖度更广,可以更充分全面地表示文本的关键内容,缓解了词义相近、单一等问题。
基于上述任一实施例,本发明提供一种基于词性队列和语义融合的关键词抽取方法。公文领域的文本主要包含建议议案、政策文件、法律法规、重要讲话等多个类型,以公文领域的文本为例,图7是本发明提供的关键词抽取方法的流程示意图之三,如图7所示,该方法的具体步骤如下:
S1、对文本进行分词,和词性标注:
文本的数据形式如下:
[{
“content”:文本内容,
“department”:发布文本的所属部门,
“docId”:文本id,
“local”:发布文本的所属地,
“title”:文本标题,
“type”:文本所属类型
}]
首先对content字段中的文本内容进行分词并进行词性标注,主要词性包括名词(n)、地名(ns)、专有名词(nz)、标点(wp)、连词(c)、动词(v)、介词(p)、副词(d)、量词(q)、人名(nh)、数词(m)、缩写词(j)、外来词(ws)、四字词语(i)>等;再对文本内容进行过滤无意义词,包括常见的自然语言停用词(例如:的,这个…),行业内高频但意义不大的词(例如:美好未来,相关人士…),并过滤department字段中的词(例如:综合管理部,通讯部…)。
S2、根据词性队列将分词合并为词组:
考虑到词粒度的关键词往往语义单一,同时存在分词偏差导致语义缺失的问题,例如,渔业法的分词为渔业/法,在公文领域不适合拆开作为关键词。因此,需要将分词合并为词组以解决上述问题,本发明实施例通过构建词性队列的方式合并词组,即根据各分词的词性制定合并规则。词性队列由一个或多个规则组成,每个规则格式为<规则内容>,单个规则的格式类似正则,符号|表示逻辑或,符号+表示匹配1个或多个,符号{n,m}表示匹配n到m次,因此最终的词性队列的格式为[<规则1>|<规则2>|……|<规则n>]。
通过多次尝试及观察考虑,对所有类型文本都可采用通用词性队列:[<n(第二名词)|ns(地名)|nz(专有名词){a,b}>|<j(缩写词){c,d}>]。通用词性队列包括2个规则,其中的规则1,即<n(第二名词)|ns(地名)|nz(专有名词){a,b}>,表示第二名词、地名、专有名词单独或者组合的出现频次在a-b次之间,此处的第二名词即除了地名、人名、专有名词和方位词之外的名词,因此,规则1即为第一名词或第一名词的组合的出现频次需要满足的预设频次范围,例如,{a,b}为{1,3},渔业(n)/资源(n)满足第二名词+第二名词出现2次的规则即可合并为“渔业资源”。
规则2,即<j(缩写词){c,d}>,表示缩写词或缩写词的组合的出现频次在a-b次之间,例如,{c,d}为{2,4},环保是环境保护的缩写词(j),环保(j)满足出现3次的规则即可单独合并为词组。
基于此,又考虑到type字段包含多种类型,不同类型的文本语料语言风格、字数等特点都不相同,法律法规和政策文件类型的文本字数相对偏多,内容全面,且语言严谨简练,富于逻辑性,建议议案类型的文本标题同时包含重要信息,重要讲话类型的文本相对偏短,更加注重文彩,偏重口语化,用词相对更加与时俱进,因此需要根据type指定相应的词性队列。
对建议议案类型文本的内容采用通用词性队列的同时,对title字段的文本标题采取[<n(第二名词)v(动词)>]的词性队列合并词组,即步骤122中的名词可以是第二名词,例如,水污染(n)/防治(v)满足第二名词+动词出现1次的规则即可合并为“水污染防治”。
重要讲话类型文本的内容相对随意且包含更多的新词,分词常常出现偏差,因此在通用词性队列的基础上添加[<ws(外来词)|i(四字词语)>]。由于重要讲话类型的文本相对偏短,外来词、四字词语单独或组合在文本中的出现频次满足至少一次,即可对其进行词组合并。例如,以史为鉴(i)满足四字词语出现1次的规则即可单独合并为词组。
制定文本的type字段对应的词性队列,再顺序遍历文本内容中过滤完的所有可用分词,对于建议议案类型的文本还额外遍历文本标题中的所有分词,观察每个分词和其的前后分词组合的词性是否符合制定的词性队列,如果符合词性队列里的规则且词组长度在m-n(例如,1-9字)之间,则合并为词组,加入到词组列表,参与后续的计算步骤。此处,词组列表可以表示文本的主要内容,加速对文本内容的理解。
S3、将文本输入至特征提取模型,获取各词组的语义特征以及文本的语义特征:
现有的构建图网络的关键词抽取方法没有考虑文章的语义信息、词位置等重要信息,抽取到的关键词往往是文章中出现频率较高词,不能很好表示文章的关键内容,对此,本发明实施例结合文本的语义特征,得到各词组与文本之间的语义相似度,在此之外,还同时兼顾词组的位置信息和词频信息,对各词组进行关键程度评估,由此得到各词组的评分。
图8是本发明提供的特征提取模型的结构示意图,如图8所示,将文本根据词表编码后输入至特征提取模型中级联的至少两个特征提取层(即图8中的特征提取层1、特征提取层2、…、特征提取层N),分别获取各词组的语义特征VNPi和文本的语义特征Vd
其中,由特征提取层1中两行LSTM(Long Short Term Memory,长短期记忆网络)顺序获取各分词对应的语义向量VPi,再对组成各词组的分词的语义向量VPi进行加权,获得各词组的语义特征VNPi,即图中特征提取层1最终输出的语义特征,在加权融合过程中,对于在模型的词表内的分词,设置其对应的词权重值不大于1,对于oov(out of vocabulary,超出词表外的词)的分词,设置其对应的词权重值为1。
文本语义特征由最后三个特征提取层(即特征提取层N-1、特征提取层N-2、特征提取层N)分别输出的语义特征加权融合获得,在加权融合过程中,根据文本长度的不同为最后三个特征提取层的输出设定不同权重,例如,重要讲话类型的文本通常较短,可以设置最后一个特征提取层对应的权重为较小的值,以使加权融合更偏重于句子的语义信息。
在得到各词组的语义特征VNPi和文本的语义特征Vd之后,计算二者之间的余弦相似度cos(VNPi,Vd),并将其作为各词组与文本之间的语义相似度。
将先出现的词组赋予更高的位置权重W(NPi),并计算词组的频次权重N(NPi),结合余弦相似度cos(VNPi,Vd),得到各词组的评分core(NPi)。最终根据词组score排序后,选取前面所有score大于预设阈值的词组加入候选词组列表,例如,预设阈值取0.8。
S4、候选词组的词缀拆分:
公文领域的文本(主要是建议议案类型的文本)内容通常围绕某一事件多角度分析、提议,段落间所讲内容相差不大,深度语义匹配方法筛选出的候选词组中多数词通常拥有相同的词根,如果按候选词组顺序选取前k个词作为关键词,则会存在词义相近问题,不能全面的表示文章内容,例如一篇治理气象灾害的建议议案,抽取的候选词组中存在大量以气象为词根的词组,虽都可表示文章内容,但词组之间相对语义相近,略显冗余。
因此,本发明实施例考虑对候选词组中的所有词组根据先前分词结果进行词组-分词的拆分,再按分词组成词组的顺序构建候选词组的前缀树。选取公共字符的长度至少大于2字的组合进行截断,作为关键词,例如,气象灾害发生地,气象灾害特点,气象灾害历史,气象灾害级别,可以得到关键词气象灾害,再补充后续的新词组(气象预报和气象观测站)加入关键词列表,直到选取到预设个数的关键词为止。
截断后的词组包含的词义信息全面,同时补充新词组,可以更充分全面地表示文本的关键内容,缓解了词义相近、单一等问题。选取的关键词的个数根据文本的长度而定,选取公式如下:
Figure BDA0003657490130000181
此处,h表示所选取的关键词的最大个数(例如可以取5),l表示文本的长度。可以理解的是,由于关键词的个数为整数,当k为小数时,可以对其进行四舍五入、向下取整等取整操作,最终得到关键词的个数。
本发明实施例提供的方法,为解决词粒度关键词语义泛化的问题,先将分词合并词组,在抽取关键词过程中引入文本的语义信息,同时兼顾词组的位置、频次等信息,以此获取各候选词组,为缓解词组语义相近的问题,在获取候选词组后,对候选词组做后处理,进而完成对文本内容的关键词抽取。对公文领域的文本内容进行关键词抽取,通过提取的关键词可快速确立内容主题,以便加快相关人物对公文领域的文本内容的理解,节省时间,提高办事效率,同时可进一步应用于后续的推荐和检索。
下面对本发明提供的关键词抽取装置进行描述,下文描述的关键词抽取装置与上文描述的关键词抽取方法可相互对应参照。
基于上述任一实施例,本发明提供一种关键词抽取装置。图9是本发明提供的关键词抽取装置的结构示意图,如图9所示,该装置包括:
文本确定单元910,用于确定待抽取的文本;
词组合并单元920,用于基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;
关键词抽取单元930,用于基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。
本发明实施例提供的装置,通过结合文本中各分词的词性,以及各分词中至少一个分词的出现频次进行词组合并,并基于合并得到的各词组的语义特征进行关键词抽取,从而提升了关键词抽取的准确性,同时实现了基于词组粒度的关键词抽取,解决了词粒度关键词语义模糊、泛化等问题,使得提取出的关键词更加完整地保留语义,以便对文本内容的快速理解,有利于后续的推荐和检索。
基于上述任一实施例,基于文本中各分词的词性,以及各分词中至少一个分词的出现频次,对至少一个分词进行词组合并,包括:
在至少一个分词为第一名词或第一名词的组合,且至少一个分词的出现频次在预设频次范围内的情况下,对至少一个分词进行词组合并,第一名词不包括人名和方位词。
基于上述任一实施例,在文本的类型为预设类型的情况下,基于文本中各分词的词性,以及各分词中至少一个分词的出现频次,对至少一个分词进行词组合并,还包括:
确定文本中的文本标题;
在文本标题中出现前后相邻的名词和动词的情况下,对前后相邻的名词和动词进行词组合并。
基于上述任一实施例,关键词抽取单元930包括:
相似度确定子单元,用于基于各词组的语义特征,以及文本的语义特征,确定各词组与文本之间的语义相似度;
词组确定子单元,用于基于各词组与文本之间的语义相似度,从各词组中确定候选词组;
关键词确定子单元,用于基于候选词组,确定文本中的关键词。
基于上述任一实施例,文本的语义特征的确定步骤包括:
将文本输入至特征提取模型,得到特征提取模型中级联的至少两个特征提取层中的部分或者全部特征提取层分别输出的语义特征;
基于部分或者全部特征提取层分别输出的语义特征,以及部分或者全部特征提取层分别对应的权重,确定文本的语义特征,权重基于文本的长度确定。
基于上述任一实施例,词组确定子单元具体用于:
基于各词组与文本之间的语义相似度,以及各词组的出现频次和/或出现位置,确定各词组的评分;
基于各词组的评分,从各词组中确定候选词组。
基于上述任一实施例,关键词确定子单元具体用于:
基于候选词组中至少两个词组的公共字符,确定文本中的关键词。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行关键词抽取方法,该方法包括:确定待抽取的文本;基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的关键词抽取方法,该方法包括:确定待抽取的文本;基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的关键词抽取方法,该方法包括:确定待抽取的文本;基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种关键词抽取方法,其特征在于,包括:
确定待抽取的文本;
基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;
基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。
2.根据权利要求1所述的关键词抽取方法,其特征在于,所述基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,包括:
在所述至少一个分词为第一名词或第一名词的组合,且所述至少一个分词的出现频次在预设频次范围内的情况下,对所述至少一个分词进行词组合并,所述第一名词不包括人名和方位词。
3.根据权利要求2所述的关键词抽取方法,其特征在于,在所述文本的类型为预设类型的情况下,所述基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,还包括:
确定所述文本中的文本标题;
在所述文本标题中出现前后相邻的名词和动词的情况下,对所述前后相邻的名词和动词进行词组合并。
4.根据权利要求1至3中任一项所述的关键词抽取方法,其特征在于,所述基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词,包括:
基于所述各词组的语义特征,以及所述文本的语义特征,确定所述各词组与所述文本之间的语义相似度;
基于所述各词组与所述文本之间的语义相似度,从所述各词组中确定候选词组;
基于所述候选词组,确定所述文本中的关键词。
5.根据权利要求4所述的关键词抽取方法,其特征在于,所述文本的语义特征的确定步骤包括:
将所述文本输入至特征提取模型,得到所述特征提取模型中级联的至少两个特征提取层中的部分或者全部特征提取层分别输出的语义特征;
基于所述部分或者全部特征提取层分别输出的语义特征,以及所述部分或者全部特征提取层分别对应的权重,确定所述文本的语义特征,所述权重基于所述文本的长度确定。
6.根据权利要求4所述的关键词抽取方法,其特征在于,所述基于所述各词组与所述文本之间的语义相似度,从所述各词组中确定候选词组,包括:
基于所述各词组与所述文本之间的语义相似度,以及所述各词组的出现频次和/或出现位置,确定所述各词组的评分;
基于所述各词组的评分,从所述各词组中确定候选词组。
7.根据权利要求4所述的关键词抽取方法,其特征在于,所述基于所述候选词组,确定所述文本中的关键词,包括:
基于所述候选词组中至少两个词组的公共字符,确定所述文本中的关键词。
8.一种关键词抽取装置,其特征在于,包括:
文本确定单元,用于确定待抽取的文本;
词组合并单元,用于基于所述文本中各分词的词性,以及所述各分词中至少一个分词的出现频次,对所述至少一个分词进行词组合并,得到所述文本的词组;
关键词抽取单元,用于基于各词组的语义特征进行关键词抽取,得到所述文本中的关键词。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述关键词抽取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述关键词抽取方法。
CN202210564852.8A 2022-05-23 2022-05-23 关键词抽取方法、装置、电子设备与存储介质 Pending CN114997161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210564852.8A CN114997161A (zh) 2022-05-23 2022-05-23 关键词抽取方法、装置、电子设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210564852.8A CN114997161A (zh) 2022-05-23 2022-05-23 关键词抽取方法、装置、电子设备与存储介质

Publications (1)

Publication Number Publication Date
CN114997161A true CN114997161A (zh) 2022-09-02

Family

ID=83027718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210564852.8A Pending CN114997161A (zh) 2022-05-23 2022-05-23 关键词抽取方法、装置、电子设备与存储介质

Country Status (1)

Country Link
CN (1) CN114997161A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308635A (zh) * 2023-02-23 2023-06-23 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308635A (zh) * 2023-02-23 2023-06-23 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质
CN116308635B (zh) * 2023-02-23 2023-09-29 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN112131863B (zh) 一种评论观点主题抽取方法、电子设备及存储介质
JP3682529B2 (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
CN108073571B (zh) 一种多语言文本质量评估方法及***、智能文本处理***
CN113569011B (zh) 文本匹配模型的训练方法、装置、设备及存储介质
CN111859961B (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN111241824B (zh) 一种用于中文隐喻信息识别的方法
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111966810A (zh) 一种用于问答***的问答对排序方法
Nigam et al. Machine learning based approach to sentiment analysis
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN115238040A (zh) 一种钢铁材料学知识图谱构建方法及***
Gupta Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents
CN114997161A (zh) 关键词抽取方法、装置、电子设备与存储介质
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
Dwivedi et al. Examining the emotional tone in politically polarized Speeches in India: An In-Depth analysis of two contrasting perspectives
CN112182332A (zh) 一种基于爬虫采集的情感分类方法及***
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN114491001B (zh) 一种军事领域下的实体搜索方法
CN115270763A (zh) 一种基于多数据库的风险控制方法
Jing et al. Graph-of-Tweets: A Graph Merging Approach to Sub-event Identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 065001 608-609, Xinya R & D building, No.106, No.1 Road, Langfang Economic and Technological Development Zone, Hebei Province

Applicant after: Hebei Xunfei Institute of Artificial Intelligence

Applicant after: Technological University Xunfei Hebei Technology Co.,Ltd.

Applicant after: iFLYTEK (Beijing) Co.,Ltd.

Address before: 065001 608-609, Xinya R & D building, No.106, No.1 Road, Langfang Economic and Technological Development Zone, Hebei Province

Applicant before: Hebei Xunfei Institute of Artificial Intelligence

Applicant before: Technological University Xunfei Hebei Technology Co.,Ltd.

Applicant before: Zhongke Xunfei Internet (Beijing) Information Technology Co.,Ltd.