CN111767713A - 关键词的提取方法、装置、电子设备及存储介质 - Google Patents

关键词的提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111767713A
CN111767713A CN202010388774.1A CN202010388774A CN111767713A CN 111767713 A CN111767713 A CN 111767713A CN 202010388774 A CN202010388774 A CN 202010388774A CN 111767713 A CN111767713 A CN 111767713A
Authority
CN
China
Prior art keywords
word
target text
word segmentation
participle
wonderful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010388774.1A
Other languages
English (en)
Other versions
CN111767713B (zh
Inventor
王文超
阳任科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010388774.1A priority Critical patent/CN111767713B/zh
Publication of CN111767713A publication Critical patent/CN111767713A/zh
Application granted granted Critical
Publication of CN111767713B publication Critical patent/CN111767713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种关键词的提取方法、装置、电子设备及存储介质,属于计算机技术领域。所述方法包括:获取目标文本;对所述目标文本进行分词,得到所述目标文本对应的多个分词;针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度;基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数;基于各分词的精彩度和逆文本频率指数,从所述各分词中筛选关键词。采用本申请,可以提高确定关键词的准确度。

Description

关键词的提取方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种关键词的提取方法、装置、电子设备及存储介质。
背景技术
为了便于用户能够快速获取剧本所要传达的信息,经常需要从剧本中提取关键词,然后将该关键词作为该剧本的标签,以方便用户便捷高效的获取剧本所要传达的主要信息。
目前,常用的抽取关键词的算法有TextRank、tf-idf等,这些算法均是基于统计方法来抽取的,即抽取出现频率较高的词作为关键词,然而,出现频率较高的词可能并不能够反映与剧本中精彩事件相关的信息,比如一些动作或者事物,因此,确定关键词的准确度较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种关键词的提取方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种关键词的提取方法,所述方法包括:
获取目标文本;
对所述目标文本进行分词,得到所述目标文本对应的多个分词;
针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度;
基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数;
基于各分词的精彩度和逆文本频率指数,从所述各分词中筛选关键词。
可选的,所述基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度,包括:
获取预先存储的各精彩主题词、以及每个精彩主题词的权重;
针对每个精彩主题词,基于预设的语义相似度算法,计算该分词与该精彩主题词的语义相似度,并计算所述语义相似度与该精彩主题词的权重的乘积;
计算每个精彩主题词对应的乘积的和值,将所述和值作为该分词对应的精彩度。
可选的,所述基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数,包括:
确定所述目标文本所属的目标文本集,所述目标文本集中包含多个文本;
在所述目标文本集中,统计包含该分词的文本的数目;
基于包含该分词的文本的数目和所述目标文本集的总文本数,计算该分词的逆文本频率指数。
可选的,所述基于各分词的精彩度和逆文本频率指数,从所述各分词中筛选关键词,包括:
针对每个分词,计算该分词的精彩度和逆文本频率指数的乘积,作为该分词的关键度;
在各分词中,确定满足预设关键度条件的分词,作为所述目标文本的关键词。
可选的,所述在各分词中,确定满足预设关键度条件的分词,作为所述目标文本的关键词,包括:
在各分词中,确定关键度大于预设阈值的分词,作为所述目标文本的关键词;或者,
按照关键度由大到小的顺序对所述分词进行排序,得到分词序列,将所述分词序列的前预设数目个分词作为所述目标文本的关键词。
可选的,所述获取目标文本之前,还包括:
获取精彩语料集,所述精彩语料集包含预先选取的多个精彩文本;
对所述多个精彩文本进行分词,并将得到的分词输入至预设的主题词抽取模型,输出多个精彩主题词、以及每个精彩主题词的权重。
第二方面,本申请提供了一种关键词的提取装置,所述装置包括:
第一获取模块,用于获取目标文本;
分词模块,用于对所述目标文本进行分词,得到所述目标文本对应的多个分词;
第一计算模块,用于针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度;
第二计算模块,用于基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数;
筛选模块,用于基于各分词的精彩度和逆文本频率指数,从所述各分词中筛选关键词。
可选的,所述第一计算模块,具体用于:
获取预先存储的各精彩主题词、以及每个精彩主题词的权重;
针对每个精彩主题词,基于预设的语义相似度算法,计算该分词与该精彩主题词的语义相似度,并计算所述语义相似度与该精彩主题词的权重的乘积;
计算每个精彩主题词对应的乘积的和值,将所述和值作为该分词对应的精彩度。
可选的,所述第二计算模块,具体用于:
确定所述目标文本所属的目标文本集,所述目标文本集中包含多个文本;
在所述目标文本集中,统计包含该分词的文本的数目;
基于包含该分词的文本的数目和所述目标文本集的总文本数,计算该分词的逆文本频率指数。
可选的,所述筛选模块,具体用于:
针对每个分词,计算该分词的精彩度和逆文本频率指数的乘积,作为该分词的关键度;
在各分词中,确定满足预设关键度条件的分词,作为所述目标文本的关键词。
可选的,所述筛选模块,具体用于:
在各分词中,确定关键度大于预设阈值的分词,作为所述目标文本的关键词;或者,
按照关键度由大到小的顺序对所述分词进行排序,得到分词序列,将所述分词序列的前预设数目个分词作为所述目标文本的关键词。
可选的,所述装置还包括:
第二获取模块,用于获取精彩语料集,所述精彩语料集包含预先选取的多个精彩文本;
抽取模块,用于对所述多个精彩文本进行分词,并将得到的分词输入至预设的主题词抽取模型,输出多个精彩主题词、以及每个精彩主题词的权重。
第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,可以获取目标文本,然后对目标文本进行分词,得到目标文本对应的多个分词。针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度,基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数,基于各分词的精彩度和逆文本频率指数,从各分词中筛选关键词。本方案中,综合考虑了精彩度和逆文本频率指数来计算关键度,进而基于关键度从分词中选择关键词,可选择出区分能力强、且精彩度较高的关键词,提高了确定关键词的准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种关键词的提取方法的流程图;
图2为本申请实施例提供的一种精彩度的计算方法的流程图;
图3为本申请实施例提供的一种逆文本频率指数的计算方法的流程图;
图4为本申请实施例提供的一种关键词的提取示例的方法流程图;
图5为本申请实施例提供的一种关键词的提取装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的一种关键词的提取方法,该方法可以应用于电子设备。其中,电子设备可以是具有数据处理和存储功能的设备。
下面将结合具体实施方式,对本申请实施例提供的一种关键词的提取进行详细的说明,如图1所示,具体步骤如下:
步骤101,获取目标文本。
本申请实施例中,电子设备可以获取目标文本。其中,目标文本是需要进行关键词提取的文本。例如,剧本通常包含多个场景片段,则每个场景片段即可作为一个目标文本,以便提取出针对该场景片段的关键词。又如,目标文本可以是用户发布的某篇微博的文字内容。
步骤102,对目标文本进行分词,得到目标文本对应的多个分词。
本申请实施例中,电子设备中可以预先存储有分词算法。电子设备获取到目标文本后,可以通过预设的分词算法,对目标文本进行分词,得到目标文本对应的多个分词。其中,分词算可以是jieba分词算法,其他用于分词的算法均可以应用于本申请中,本申请实施例不做限定。
步骤103,针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度。
本申请实施例中,电子设备中可以存储有主题词集合,主题词集合包含多个精彩主题词。这些精彩主题词是从预先选取的精彩文本中抽取出的,其中,精彩文本可以由技术人员预先选定,例如,精彩文本可以是剧本中用于描述精彩事件的文字部分。因此,从精彩文本中抽取出的精彩主题词是与精彩事件相关的词语。精彩主题词的抽取过程后续会进行详细说明。
针对每个分词,电子设备可以分别计算该分词与每个精彩主题词的语义相似度,进而根据计算出的语义相似度确定该分词的精彩度。若该分词与各精彩主题词的语义相似度越高,则该分词的精彩度越高,反之,若该分词与各精彩主题词的语义相似度越低,则该分词的精彩度越低。精彩度的具体计算过程后续会进行详细说明。
步骤104,基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数。
本申请实施例中,电子设备中还可以存储有逆文本频率指数算法,电子设备可以基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数。其中,步骤103和步骤104的执行过程可以不区分先后顺序。
步骤105,基于各分词的精彩度和逆文本频率指数,从各分词中筛选关键词。
本申请实施例中,电子设备可以基于各分词的精彩度和逆文本频率指数,判断各分词是否满足筛选条件,从而将满足筛选条件的分词作为目标文本的关键词。
可选的,步骤104的具体处理过程可以为:针对每个分词,计算该分词的精彩度和逆文本频率指数的乘积,作为该分词的关键度;在各分词中,确定满足预设关键度条件的分词,作为所述目标文本的关键词。
本申请实施例中,电子设备可以将精彩度和逆文本频率指数相乘,得到的乘积即为该分词的关键度。该关键度可以反映该分词的关键程度,分词的关键度越高,则该分词反映精彩事件的可能性越大。然后,电子设备可以在各分词中,确定满足预设关键度条件的分词,作为目标文本的关键词。
在一种实现方式中,可以在各分词中,确定关键度大于预设阈值的分词,作为目标文本的关键词。在另一种实现方式中,可以按照关键度由大到小的顺序对分词进行排序,得到分词序列,将分词序列的前预设数目个分词作为目标文本的关键词。其中,预设阈值和预设数目均可以根据实际需求确定,本申请实施例不做限定。
可选的,如图2所示,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度的具体过程包括以下步骤。
步骤201,获取预先存储的各精彩主题词、以及每个精彩主题词的权重。
本申请实施例中,电子设备中可以存储有主题词集合,主题词集合包含多个精彩主题词,并且,电子设备还可以存储有每个精彩主题词的权重。其中,精彩主题词和权重的确定过程后续会进行详细说明。
步骤202,针对每个精彩主题词,基于预设的语义相似度算法,计算该分词与该精彩主题词的语义相似度,并计算语义相似度与该精彩主题词的权重的乘积。
本申请实施例中,针对每个精彩主题词,电子设备可以先计算该分词和该精彩主题词的词向量,例如,可通过one-hot(独热)、word2vec(word to vector,字到向量)、GloVe(Global Vectors for Word Representation,单词表示的全局向量)、fastText(快速文本)、BERT(Bidirectional Encoder Representations from Transformers,来自变压器的双向编码器表示)、XLNet(XL网络)等算法计算词向量,本申请实施例不做限定。电子设备可以计算该分词的词向量与该精彩主题词的词向量之间的距离,将该距离作为该分词与该精彩主题词的语义相似度。例如,可通过余弦相似度、欧式距离、曼哈顿距离、明可夫斯基距离、Jaccard相似系数、皮尔森相关系数等算法计算距离,本申请实施例不做限定。
步骤203,计算每个精彩主题词对应的乘积的和值,将和值作为该分词对应的精彩度。
本申请实施例中,通过步骤201和步骤202,可计算出主题词集合中每个精彩主题词对应的乘积。电子设备可以计算各精彩主题词对应的乘积的和值,该和值即为该分词对应的精彩度。
具体的,针对目标文本j中的分词i,精彩度的计算公式如下:
Figure BDA0002484850520000081
其中,|D|为主题词集合的总词数,correlationi,k为分词i与精彩词库中第k个精彩主题词的语义相似度,weightk为第k个精彩主题词的权重。
例如,主题词集合包含精彩主题词A和精彩主题词B,其中,精彩主题词A的权重为0.3,分词M与精彩主题词A的语义相似度为0.6,精彩主题词B的权重为0.8,分词M与精彩主题词A的语义相似度为0.7,则可以确定分词M的精彩度为0.3*0.6+0.8*0.7=0.74。
可选的,如图3所示,基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数的过程包括以下步骤。
步骤301,确定目标文本所属的目标文本集。
其中,目标文本集中包含多个文本。
本申请实施例中,目标文本可以是某个完整文本(即目标文本集)的一部分。例如,剧本通常包含多个场景片段,则每个场景片段即可作为一个目标文本,整个剧本为一个文本集。又如,目标文本可以是用户发布的某篇微博的文字内容,该用户发布的全部微博内容为文本集。
步骤302,在目标文本集中,统计包含该分词的文本的数目。
本申请实施例中,电子设备可以分别判断目标文本集包含的各文本,中是否包含该分词,进而可以统计包含该分词的文本的数目。
步骤303,基于包含该分词的文本的数目和目标文本集的总文本数,计算该分词的逆文本频率指数。
本申请实施例中,电子设备还可以获取目标文本集的总文本数。然后,基于预设的逆文本频率指数计算公式、包含该分词的文本的数目和目标文本集的总文本数,计算该分词的逆文本频率指数。逆文本频率指数可以反映分词的区分能力,分词的区分能力越强,逆文本频率指数越大。本申请实施例中通过分词的精彩度和逆文本频率指数筛选关键词,可以筛选出精彩程度高、并且区分能力强的分词作为关键词,尤其是在剧本中的各场景抽取关键词的应用场景下,可以筛选出场景区分能力强、并且精彩程度高的关键词,从而提高提取关键词的准确度。
在针对剧本中的各场景抽取关键词的应用场景下,计算出的结果可理解为逆场景频率指数(Inverse Scene Frequency,ISF),场景片段中分词i的逆场景频率指数计算公式可以如下:
Figure BDA0002484850520000091
其中,isf为逆场景频率指数,|S|为剧本包含的总场景数,ti为分词,sj表示包含ti的场景片段,|j:ti∈sj|为包含分词ti的场景片段的数目。
相应的,精彩度wcd-isf的计算公式为
wcd-isfi,j=wcdi,j*isfi
可选的,精彩主题词及其权重的抽取过程具体可以为:获取精彩语料集,精彩语料集包含预先选取的多个精彩文本;对多个精彩文本进行分词,并将得到的分词输入至预设的主题词抽取模型,输出多个精彩主题词、以及每个精彩主题词的权重。
本申请实施例中,电子设备可以获取精彩语料集,精彩语料集包含技术人员预先选取的多个精彩文本。然后,电子设备分别对每个精彩文本进行分词,得到每个精彩文本对应的分词集合,进而确定各精彩文本对应的分词集合的并集,得到总的分词集合(可称为目标分词集合)。电子设备可以将目标分词集合中的分词输入至预设的主题词抽取模型,主题词抽取模型则会输出多个精彩主题词、以及每个精彩主题词的权重。其中,主题词抽取模型可以采用LDA(Latent Dirichlet Allocation,隐狄利克雷分布)模型、LSI(LatentSemantic Indexing,潜在语义索引)模型或PLST(Probabilistic LST,概率性潜在语义索引)模型等,本申请实施例不做限定。
本申请实施例中,可以获取目标文本,然后对目标文本进行分词,得到目标文本对应的多个分词。针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度,基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数,基于各分词的精彩度和逆文本频率指数,从各分词中筛选关键词。本方案中,综合考虑了精彩度和逆文本频率指数来计算关键度,进而基于关键度从分词中选择关键词,可选择出区分能力强、且精彩度较高的关键词,提高了确定关键词的准确度。
在针对剧本中的各场景抽取关键词的应用场景下,基于本申请提出基于精彩度和逆场景频率的场景关键词抽取方法,能够得到与剧本精彩片段相关的场景特有词,更容易反映出场景的精彩片段,帮助剧本管理人员更好了解剧本场景概况。
本申请实施例还提供了一种关键词的提取示例,如图4所示,具体步骤如下。
步骤401,获取剧本中的目标场景片段。
步骤402,通过预设的分词算法,对目标场景片段进行分词,得到目标场景片段对应的多个分词。
步骤403,获取预先存储的各精彩主题词、以及每个精彩主题词的权重。
步骤404,针对每个精彩主题词,基于预设的语义相似度算法,计算该分词与该精彩主题词的语义相似度,并计算语义相似度与该精彩主题词的权重的乘积。
步骤405,计算每个主题词对应的乘积的和值,将和值作为该分词对应的精彩度。
步骤406,在剧本中,统计包含该分词的场景片段的数目。
步骤407,基于包含该分词的场景片段的数目和剧本的总场景片段数,计算该分词的逆场景频率指数。
步骤408,计算精彩度和逆场景频率指数的乘积,作为该分词的关键度。
步骤409,按照关键度由大到小的顺序对分词进行排序,得到分词序列,将分词序列的前预设数目个分词作为目标场景片段的关键词。
其中,步骤403~405的处理过程,与步骤406~407的处理过程不区分先后顺序。
基于相同的技术构思,本申请实施例还提供了一种关键词的提取装置,如图5所示,所述装置包括:
第一获取模块510,用于获取目标文本;
分词模块520,用于对所述目标文本进行分词,得到所述目标文本对应的多个分词;
第一计算模块530,用于针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度;
第二计算模块540,用于基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数;
筛选模块550,用于基于各分词的精彩度和逆文本频率指数,从所述各分词中筛选关键词。
可选的,所述第一计算模块530,具体用于:
获取预先存储的各精彩主题词、以及每个精彩主题词的权重;
针对每个精彩主题词,基于预设的语义相似度算法,计算该分词与该精彩主题词的语义相似度,并计算所述语义相似度与该精彩主题词的权重的乘积;
计算每个精彩主题词对应的乘积的和值,将所述和值作为该分词对应的精彩度。
可选的,所述第二计算模块540,具体用于:
确定所述目标文本所属的目标文本集,所述目标文本集中包含多个文本;
在所述目标文本集中,统计包含该分词的文本的数目;
基于包含该分词的文本的数目和所述目标文本集的总文本数,计算该分词的逆文本频率指数。
可选的,所述筛选模块550,具体用于:
针对每个分词,计算该分词的精彩度和逆文本频率指数的乘积,作为该分词的关键度;
在各分词中,确定满足预设关键度条件的分词,作为所述目标文本的关键词。
可选的,所述筛选模块550,具体用于:
在各分词中,确定关键度大于预设阈值的分词,作为所述目标文本的关键词;或者,
按照关键度由大到小的顺序对所述分词进行排序,得到分词序列,将所述分词序列的前预设数目个分词作为所述目标文本的关键词。
可选的,所述装置还包括:
第二获取模块,用于获取精彩语料集,所述精彩语料集包含预先选取的多个精彩文本;
抽取模块,用于对所述多个精彩文本进行分词,并将得到的分词输入至预设的主题词抽取模型,输出多个精彩主题词、以及每个精彩主题词的权重。
本申请实施例中,可以获取目标文本,然后对目标文本进行分词,得到目标文本对应的多个分词。针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度,基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数,基于各分词的精彩度和逆文本频率指数,从各分词中筛选关键词。本方案中,综合考虑了精彩度和逆文本频率指数来计算关键度,进而基于关键度从分词中选择关键词,可选择出区分能力强、且精彩度较高的关键词,提高了确定关键词的准确度。
本申请实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述关键词的提取方法。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述关键词的提取方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述关键词的提取方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种关键词的提取方法,其特征在于,所述方法包括:
获取目标文本;
对所述目标文本进行分词,得到所述目标文本对应的多个分词;
针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度;
基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数;
基于各分词的精彩度和逆文本频率指数,从所述各分词中筛选关键词。
2.根据权利要求1所述的方法,其特征在于,所述基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度,包括:
获取预先存储的各精彩主题词、以及每个精彩主题词的权重;
针对每个精彩主题词,基于预设的语义相似度算法,计算该分词与该精彩主题词的语义相似度,并计算所述语义相似度与该精彩主题词的权重的乘积;
计算每个精彩主题词对应的乘积的和值,将所述和值作为该分词对应的精彩度。
3.根据权利要求1所述的方法,其特征在于,所述基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数,包括:
确定所述目标文本所属的目标文本集,所述目标文本集中包含多个文本;
在所述目标文本集中,统计包含该分词的文本的数目;
基于包含该分词的文本的数目和所述目标文本集的总文本数,计算该分词的逆文本频率指数。
4.根据权利要求1所述的方法,其特征在于,所述基于各分词的精彩度和逆文本频率指数,从所述各分词中筛选关键词,包括:
针对每个分词,计算该分词的精彩度和逆文本频率指数的乘积,作为该分词的关键度;
在各分词中,确定满足预设关键度条件的分词,作为所述目标文本的关键词。
5.根据权利要求4所述的方法,其特征在于,所述在各分词中,确定满足预设关键度条件的分词,作为所述目标文本的关键词,包括:
在各分词中,确定关键度大于预设阈值的分词,作为所述目标文本的关键词;或者,
按照关键度由大到小的顺序对所述分词进行排序,得到分词序列,将所述分词序列的前预设数目个分词作为所述目标文本的关键词。
6.根据权利要求1所述的方法,其特征在于,所述获取目标文本之前,还包括:
获取精彩语料集,所述精彩语料集包含预先选取的多个精彩文本;
对所述多个精彩文本进行分词,并将得到的分词输入至预设的主题词抽取模型,输出多个精彩主题词、以及每个精彩主题词的权重。
7.一种关键词的提取装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标文本;
分词模块,用于对所述目标文本进行分词,得到所述目标文本对应的多个分词;
第一计算模块,用于针对每个分词,基于该分词与预先存储的各精彩主题词的语义相似度,计算该分词的精彩度;
第二计算模块,用于基于预设的逆文本频率指数算法,计算该分词的逆文本频率指数;
筛选模块,用于基于各分词的精彩度和逆文本频率指数,从所述各分词中筛选关键词。
8.根据权利要求7所述的装置,其特征在于,所述第一计算模块,具体用于:
获取预先存储的各精彩主题词、以及每个精彩主题词的权重;
针对每个精彩主题词,基于预设的语义相似度算法,计算该分词与该精彩主题词的语义相似度,并计算所述语义相似度与该精彩主题词的权重的乘积;
计算每个精彩主题词对应的乘积的和值,将所述和值作为该分词对应的精彩度。
9.根据权利要求7所述的装置,其特征在于,所述第二计算模块,具体用于:
确定所述目标文本所属的目标文本集,所述目标文本集中包含多个文本;
在所述目标文本集中,统计包含该分词的文本的数目;
基于包含该分词的文本的数目和所述目标文本集的总文本数,计算该分词的逆文本频率指数。
10.根据权利要求7所述的装置,其特征在于,所述筛选模块,具体用于:
针对每个分词,计算该分词的精彩度和逆文本频率指数的乘积,作为该分词的关键度;
在各分词中,确定满足预设关键度条件的分词,作为所述目标文本的关键词。
11.根据权利要求10所述的装置,其特征在于,所述筛选模块,具体用于:
在各分词中,确定关键度大于预设阈值的分词,作为所述目标文本的关键词;或者,
按照关键度由大到小的顺序对所述分词进行排序,得到分词序列,将所述分词序列的前预设数目个分词作为所述目标文本的关键词。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取精彩语料集,所述精彩语料集包含预先选取的多个精彩文本;
抽取模块,用于对所述多个精彩文本进行分词,并将得到的分词输入至预设的主题词抽取模型,输出多个精彩主题词、以及每个精彩主题词的权重。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~6任一所述的方法步骤。
CN202010388774.1A 2020-05-09 2020-05-09 关键词的提取方法、装置、电子设备及存储介质 Active CN111767713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010388774.1A CN111767713B (zh) 2020-05-09 2020-05-09 关键词的提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010388774.1A CN111767713B (zh) 2020-05-09 2020-05-09 关键词的提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111767713A true CN111767713A (zh) 2020-10-13
CN111767713B CN111767713B (zh) 2023-07-21

Family

ID=72719213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010388774.1A Active CN111767713B (zh) 2020-05-09 2020-05-09 关键词的提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111767713B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN113297367A (zh) * 2021-06-29 2021-08-24 中国平安人寿保险股份有限公司 用户对话衔接语生成的方法及相关设备
CN113743112A (zh) * 2021-08-24 2021-12-03 北京百度网讯科技有限公司 关键词的提取方法、装置、电子设备及可读存储介质
CN114331766A (zh) * 2022-01-05 2022-04-12 中国科学技术信息研究所 专利技术核心度的确定方法、装置、电子设备及存储介质
CN117272353A (zh) * 2023-11-22 2023-12-22 陕西昕晟链云信息科技有限公司 一种数据加密存储保护***及方法
CN117494726A (zh) * 2023-12-29 2024-02-02 成都航空职业技术学院 一种情报关键词提取方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
KR20170120389A (ko) * 2016-04-21 2017-10-31 (주)원제로소프트 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
US20180181988A1 (en) * 2016-12-26 2018-06-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information
CN108334533A (zh) * 2017-10-20 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
US20180300335A1 (en) * 2014-11-19 2018-10-18 Google Inc. Methods, systems, and media for presenting related media content items
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
CN110874530A (zh) * 2019-10-30 2020-03-10 深圳价值在线信息科技股份有限公司 关键词提取方法、装置、终端设备及存储介质
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
US20180300335A1 (en) * 2014-11-19 2018-10-18 Google Inc. Methods, systems, and media for presenting related media content items
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
KR20170120389A (ko) * 2016-04-21 2017-10-31 (주)원제로소프트 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
US20180181988A1 (en) * 2016-12-26 2018-06-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108334533A (zh) * 2017-10-20 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置
CN110874530A (zh) * 2019-10-30 2020-03-10 深圳价值在线信息科技股份有限公司 关键词提取方法、装置、终端设备及存储介质
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜永清;赵宪佳;: "基于文本的关键词提取方法研究与实现", 信息与电脑(理论版), no. 05 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN112464656B (zh) * 2020-11-30 2024-02-13 中国科学技术大学 关键词抽取方法、装置、电子设备和存储介质
CN113297367A (zh) * 2021-06-29 2021-08-24 中国平安人寿保险股份有限公司 用户对话衔接语生成的方法及相关设备
CN113743112A (zh) * 2021-08-24 2021-12-03 北京百度网讯科技有限公司 关键词的提取方法、装置、电子设备及可读存储介质
CN113743112B (zh) * 2021-08-24 2023-09-12 北京百度网讯科技有限公司 关键词的提取方法、装置、电子设备及可读存储介质
CN114331766A (zh) * 2022-01-05 2022-04-12 中国科学技术信息研究所 专利技术核心度的确定方法、装置、电子设备及存储介质
CN117272353A (zh) * 2023-11-22 2023-12-22 陕西昕晟链云信息科技有限公司 一种数据加密存储保护***及方法
CN117272353B (zh) * 2023-11-22 2024-01-30 陕西昕晟链云信息科技有限公司 一种数据加密存储保护***及方法
CN117494726A (zh) * 2023-12-29 2024-02-02 成都航空职业技术学院 一种情报关键词提取方法
CN117494726B (zh) * 2023-12-29 2024-04-12 成都航空职业技术学院 一种情报关键词提取方法

Also Published As

Publication number Publication date
CN111767713B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111767713B (zh) 关键词的提取方法、装置、电子设备及存储介质
CN112347778B (zh) 关键词抽取方法、装置、终端设备及存储介质
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN108376129B (zh) 一种纠错方法及装置
CN110390044B (zh) 一种相似网络页面的搜索方法及设备
CN110991187A (zh) 一种实体链接的方法、装置、电子设备及介质
WO2019028990A1 (zh) 代码元素的命名方法、装置、电子设备及介质
CN111708909B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN109947903B (zh) 一种成语查询方法及装置
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN112199588A (zh) 舆情文本筛选方法及装置
US20170011480A1 (en) Data analysis system, data analysis method, and data analysis program
CN111061842A (zh) 一种相似文本确定方法及装置
CN107885875B (zh) 检索词的同义变换方法、装置及服务器
CN106663123B (zh) 以评论为中心的新闻阅读器
CN109885831B (zh) 关键术语抽取方法、装置、设备及计算机可读存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN111046627B (zh) 一种中文文字显示方法及***
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器
CN117743577A (zh) 文本分类方法、装置、电子设备及存储介质
JP6172332B2 (ja) 情報処理方法及び情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant