CN111310072A - 关键词提取方法、装置和计算机可读存储介质 - Google Patents

关键词提取方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111310072A
CN111310072A CN202010055359.4A CN202010055359A CN111310072A CN 111310072 A CN111310072 A CN 111310072A CN 202010055359 A CN202010055359 A CN 202010055359A CN 111310072 A CN111310072 A CN 111310072A
Authority
CN
China
Prior art keywords
geographic position
keywords
keyword
target
weight value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010055359.4A
Other languages
English (en)
Other versions
CN111310072B (zh
Inventor
朱灵子
衡阵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010055359.4A priority Critical patent/CN111310072B/zh
Publication of CN111310072A publication Critical patent/CN111310072A/zh
Application granted granted Critical
Publication of CN111310072B publication Critical patent/CN111310072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种关键词提取方法、装置和计算机可读存储介质;获取文本的多个地理位置关键词;对多个地理位置关键词进行聚类,得到多个地理位置关键词簇;根据每个聚类后地理位置关键词与所述目标聚类中心对应的经纬度信息,计算多个聚类后地理位置关键词与目标聚类中心的距离;基于距离,设置每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;根据每个聚类后地理位置关键词与文本之间的目标匹配度,设置每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;根据第一权重值集和第二权重值集,从聚类后地理位置关键词中,确定文本的目标地理位置关键词。方案可以提高地理位置关键词提取的准确率。

Description

关键词提取方法、装置和计算机可读存储介质
技术领域
本申请涉及通信技术领域,具体涉及一种关键词提取方法、装置和计算机可读存储介质。
背景技术
随着通信技术的发展,可以通过提取文本的地理位置关键词等信息,实现该文本针对用户的实时精准投放,提高用户的点击率。
在对相关技术的研究和实践过程中,本申请的发明人发现现有文本的地理位置关键词的提取技术主要分为有监督和无监督两大类,其中,有监督方法最大的问题是需要大量的标注,成本高,而无监督方法的地理位置关键词提取的准确率与地理位置关关键词在文章中出现的次数成正比,综合以上可以得出文本的地理位置关键词提取的准确率低。
发明内容
本申请实施例提供一种关键词提取方法、装置和计算机可读存储介质,可以提高地理位置关键词提取的准确率。
本申请实施例提供了一种关键词提取方法,包括:
获取文本的多个地理位置关键词;
对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇,所述地理位置关键词簇包括目标聚类中心和所述目标聚类中心对应的多个聚类后地理位置关键词;
根据每个聚类后地理位置关键词与所述目标聚类中心对应的经纬度信息,计算所述多个聚类后地理位置关键词与所述目标聚类中心的距离;
基于所述距离,设置所述每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;
根据所述每个聚类后地理位置关键词与所述文本之间的目标匹配度,设置所述每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;
根据所述第一权重值集和所述第二权重值集,从所述聚类后地理位置关键词中,确定所述文本的目标地理位置关键词。
相应的,本申请实施例提供了一种关键词提取装置,包括:
第一获取单元,用于获取文本的多个地理位置关键词;
聚类单元,用于对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇,所述地理位置关键词簇包括目标聚类中心和所述目标聚类中心对应的多个聚类后地理位置关键词;
第一计算单元,用于根据每个聚类后地理位置关键词与所述目标聚类中心对应的经纬度信息,计算所述多个聚类后地理位置关键词与所述目标聚类中心的距离;
第一设置单元,用于基于所述距离,设置所述每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;
第二设置单元,用于根据所述每个聚类后地理位置关键词与所述文本之间的目标匹配度,设置所述每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;
第一确定单元,用于根据所述第一权重值集和所述第二权重值集,从所述聚类后地理位置关键词中,确定所述文本的目标地理位置关键词。
在一实施例中,所述聚类单元,包括:
聚类子单元,用于当所述多个地理位置关键词的数量达到预设关键词数量时,对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇。
在一实施例中,所述聚类单元,还包括:
第二计算单元,用于当所述多个地理位置关键词的数量未达到预设关键词数量时,计算所述多个地理位置关键词与所述文本之间的匹配度;
第二确定单元,用于根据所述匹配度,从所述多个地理位置关键词中确定目标地理位置关键词。
在一实施例中,所述聚类子单元还用于获取每个地理位置关键词对应的关键词经纬度信息;对所述关键词经纬度信息进行聚类,得到多个地理位置关键词簇。
在一实施例中,所述第二设置单元,包括:
切分子单元,用于对所述多个聚类后地理位置关键词进行切分,得到多个地理位置关键词单词;
确定子单元,用于确定每个地理位置关键词单词的单词权重值、以及每个地理位置关键词单词和所述文本之间的相似度值;
第一计算子单元,用于根据所述单词权重值和所述相似度值,计算每个聚类后地理位置关键词与所述文本之间的目标匹配度,得到目标匹配度集;
设置子单元,用于根据所述目标匹配度集,设置所述每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集。
在一实施例中,所述第一确定单元,包括:
第一加权子单元,用于当所述聚类中心的数量未达到预设聚类中心数量时,对所述第一权重值集对应的第一加权系数和所述第二权重值集对应的第二加权系数进行加权处理,得到第一目标权重值集,所述第一加权系数大于所述第二加权系数;
第一排序子单元,用于根据所述第一目标权重值集,对所述多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
在一实施例中,所述第一确定单元,包括:
第二加权子单元,用于当所述聚类中心的数量达到预设聚类中心数量时,对所述第一权重值集对应的第一加权系数和所述第二权重值集对应的第二加权系数进行加权处理,得到第二目标权重值集,所述第一加权系数小于所述第二加权系数;
第二排序子单元,用于根据所述第二目标权重值集,对所述多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
在一实施例中,所述第一获取单元,包括:
第一获取子单元,用于获取文本标题的原始地理位置关键词;
第二计算子单元,用于计算所述原始地理位置关键词与所述文本之间的原始匹配度;
第二获取子单元,用于当所述原始匹配度未达到所述预设匹配度时,获取所述文本的多个地理位置关键词。
在一实施例中,所述第一确定单元,还包括:
第二获取单元,用于获取所述目标地理位置关键词对应的目标地理位置;
第三确定单元,用于确定地理位置为所述目标地理位置的终端;
发送单元,用于将所述目标地理位置关键词对应的所述文本发送到所述终端中。
相应的,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行本申请实施例任一提供的关键词提取方法中的步骤。
相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适用于处理器进行加载,以执行本申请实施例任一提供的关键词提取方法中的步骤。
本申请实施例可以获取文本的多个地理位置关键词;对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇,所述地理位置关键词簇包括目标聚类中心和所述目标聚类中心对应的多个聚类后地理位置关键词;根据每个聚类后地理位置关键词与所述目标聚类中心对应的经纬度信息,计算所述多个聚类后地理位置关键词与所述目标聚类中心的距离;基于所述距离,设置所述每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;根据所述每个聚类后地理位置关键词与所述文本之间的目标匹配度,设置所述每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;根据所述第一权重值集和所述第二权重值集,从所述聚类后地理位置关键词中,确定所述文本的目标地理位置关键词。该方案可以通过获取文本的多个地理位置关键词,再对该多个地理位置关键词的实体进行聚类分析、以及计算多个聚类后地理位置关键词与该文本之间的目标匹配度,最后再根据聚类分析的结果、以及该目标匹配度确定该文本的目标地理位置关键词,可以提高地理位置关键词提取的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的关键词提取方法的场景示意图;
图2是本申请实施例提供的关键词提取方法的流程图;
图3是本申请实施例提供的关键词提取方法的空间密度分析图;
图4是本申请实施例提供的关键词提取方法的提取地理位置关键词流程图;
图5是本申请实施例提供的关键词提取方法的地理位置关键词分布图;
图6是本申请实施例提供的区块链***的结构示意图;
图7是本申请实施例提供的关键词提取方法的另一流程图;
图8是本申请实施例提供的关键词提取方法的装置图;
图9是本申请实施例提供的关键词提取方法的另一装置图;
图10是本申请实施例提供的关键词提取方法的另一装置图;
图11是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种关键词提取方法、装置、计算机设备和计算机可读存储介质。具体地,本申请实施例提供适用于计算机设备的关键词提取装置。其中,该计算机设备可以为终端或服务器等设备,该终端可以为手机、平板电脑、笔记本电脑等设备。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
参见图1,以该计算机设备为服务器为例,图中的每个黑点可以表示不同的地理位置关键词,该服务器可以获取文本的多个地理位置关键词;对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇,该地理位置关键词簇包括目标聚类中心和该目标聚类中心对应的多个聚类后地理位置关键词;根据每个聚类后地理位置关键词与该目标聚类中心对应的经纬度信息,计算该多个聚类后地理位置关键词与该目标聚类中心的距离;基于该距离,设置该每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;根据该每个聚类后地理位置关键词与该文本之间的目标匹配度,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;根据该第一权重值集和该第二权重值集,从该聚类后地理位置关键词中,确定该文本的目标地理位置关键词。
由以上可知,本申请实施例可以通过获取文本的多个地理位置关键词,再对该多个地理位置关键词的实体进行聚类分析、以及计算多个聚类后地理位置关键词与该文本之间的目标匹配度,最后再根据聚类分析的结果、以及该目标匹配度确定该文本的目标地理位置关键词,可以提高地理位置关键词提取的准确率。
以下分别进行详细说明,需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供一种关键词提取方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以关键词提取方法由服务器执行为例来进行说明,具体的,由集成在服务器中的关键词提取装置来执行。如图2所示,该关键词提取方法的具体流程可以如下:
101、获取文本的多个地理位置关键词。
其中,地理位置关键词指的是文本中出现的地理位置信息的词,比如,在一篇文章中出现了“北京”、“上海”、“深圳”等地理位置信息的词,那么所指的地理位置关键词指的就是“北京”、“上海”、“深圳”,而获取文本的多个地理位置关键词就是获取该文章中的“北京”、“上海”、“深圳”等代表地理位置的词。
在一实施例中,可以先获取文本标题的地理位置关键词,计算该文本标题的地理位置关键词与该文本之间的匹配度,如果该文本标题的地理位置关键词与该文本之间的匹配度达不到预设的匹配度,那么可以获取该文本的全部地理位置关键词,具体步骤可以包括:
获取文本标题的原始地理位置关键词;
计算该原始地理位置关键词与该文本之间的原始匹配度;
当该原始匹配度未达到该预设匹配度时,获取该文本的多个地理位置关键词。
其中,当该文本标题的地理位置关键词与该文本之间的匹配度达不到预设的匹配度时,可以获取该文本的全部地理位置关键词,也可以获取不包括该文本标题的地理位置关键词的多个地理位置关键词,即可以理解为获取该文本正文的多个地理位置关键词。
102、对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇,该地理位置关键词簇包括目标聚类中心和该目标聚类中心对应的多个聚类后地理位置关键词。
其中,地理位置关键词簇指的是将获取的多个地理位置关键词对应的经纬度进行聚类后得到的簇。
其中,可以理解的是,每个地理位置关键词簇对应有一个聚类中心,每个聚类中心周围都有多个聚类后的地理位置关键词,那么多个地理位置关键词簇可以包括多个聚类中心,还可以从多个聚类中心中确定目标聚类中心,而该目标聚类中心对应有多个聚类后地理位置关键词。
在一实施例中,在多个地理位置关键词达到预设数量时,为了得到地理位置关键词簇,可以对该多个地理位置关键词对应的经纬度信息进行聚类,具体步骤可以包括:
当该多个地理位置关键词的数量达到预设关键词数量时,对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇。
进一步的,对该多个地理位置关键词进行聚类得到多个地理位置关键词簇的详细步骤可以包括:
当该多个地理位置关键词的数量达到预设关键词数量时,获取每个地理位置关键词对应的关键词经纬度信息;
对该关键词经纬度信息进行聚类,得到多个地理位置关键词簇。
其中,可以理解的是,可以根据多个地理位置关键词查询每个地理位置关键词所在的经纬度信息,对该经纬度信息进行聚类得到聚类中心,然后每个聚类中心点的距离可以根据该经纬度信息换算成实际的距离。
例如,如图3所示,字母q、m、p对应的点可以代表多个地理位置关键词中的三个地理位置关键词,比如,q点表示多个地理位置关键词中的一个地理位置关键词,地理位置关键词q和p是由m直接密度可达的,只有核心的地理位置关键词才能使其他样本密度直达,由密度可达关系可以导出的最大地理位置关键词密度相连的样本集合,形成最终聚类的一个地理位置关键词簇,根据地理位置聚类,再对多个地理位置关键词进行空间密度分析。
在一实施例中,若该多个地理位置关键词的数量达到预设关键词数量,则可以对该多个地理位置关键词进行聚类,那么当多个地理位置关键词未达到预设关键词数量时,可以不对该多个地理位置关键词进行聚类,可以计算该多个地理位置关键词和该文本之间的匹配度,再从该多个地理位置关键词中确定所需要提取的目标地理位置关键词,具体步骤可以包括:
当该多个地理位置关键词的数量未达到预设关键词数量时,计算该多个地理位置关键词与该文本之间的匹配度;
根据该匹配度,从该多个地理位置关键词中确定目标地理位置关键词。
例如,如图4所示,提取文本的多个地理位置关键词,当该多个地理位置关键词的数量未达到预设关键词数量时,对每个地理位置关键词进行文本匹配度计算,得到多个匹配度,将匹配度系数最大的地理位置关键词提取为目标地理位置关键词。
103、根据每个聚类后地理位置关键词与该目标聚类中心对应的经纬度信息,计算该多个聚类后地理位置关键词与该目标聚类中心的距离。
其中,经纬度信息包括经纬度,可以通过获取每个聚类后地理位置关键词对应的经纬度信息、以及该聚类中心对应的经纬度信息,然后每个聚类后地理位置关键词与该目标聚类中心的距离就可以根据经纬度信息换算成实际的距离。而经纬度则是精度和纬度的组合成的一个坐标***,称为地理坐标系,是一种利用三度空间的球面来定义地球上的控件的球面坐标***,能够表示地球上的任何一个位置。
例如,根据步骤102可以知道,对该多个地理位置关键词进行聚类,可以得到多个地理位置关键词簇,每个地理位置关键词簇对应有一个聚类中心,那么就可以得到多个聚类中心,而该目标聚类中心是从该多个聚类中心中确定的聚类中心,并且可以获取每个地理位置关键词对应的经纬度信息,那么也可以获取每个聚类后地理位置关键词对应的经纬度信息。
其中,可以理解的是,该目标聚类中心对应有多个聚类后地理位置关键词,而这些聚类后地理位置关键词对应的经纬度信息也是可以获取的,那么基于该聚类后地理位置关键词对应的经纬度信息与该目标聚类中心对应的经纬度信息,可以得到每个聚类后地理置关键词与该目标聚类中心的距离。
104、基于该距离,设置该每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集。
其中,可以根据该距离,设置每个聚类后地理位置关键词对应的第一权重值,因为是存在多个聚类后地理位置关键词,所以可以得到第一权重值集,该第一权重值集中的每一个第一权重值可能都不相同,因为每个聚类后地理位置关键词到该目标聚类中心的距离可能都不相同。
例如,如图5所示,一般来说在地域垂类文章中,地理位置关键词的空间密度关系大部分是密集型的,因为地域垂类的文章大都带有强烈的地域色彩,会围绕一个核心的地点展开分析或描述,文章可能会提到多个地理位置关键词,当然,文章的地理位置关键词的空间密度还可能是离散型的。
105、根据该每个聚类后地理位置关键词与该文本之间的目标匹配度,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集。
其中,目标匹配度指的是每个聚类后地理位置关键词和该文本之间的匹配度,该目标匹配度的大小可以表示该聚类后地理位置关键词跟该文本之间关联程度的大小,比如,该目标匹配度较大,在一定程度上可以表示该地理位置关键词对应的地理位置为该文本对应的地理位置的几率就比较大。
在一实施例中,每个聚类后地理位置关键词和文本之间都可以计算出一个目标匹配度,以便在一定程度上根据该目标匹配度的大小来权衡该聚类后地理位置关键词对于该文本来说是否为所需要提取的目标地理位置关键词,具体步骤可以包括:
对该多个聚类后地理位置关键词进行切分,得到多个地理位置关键词单词;
确定每个地理位置关键词单词的单词权重值、以及每个地理位置关键词单词和该文本之间的相似度值;
根据该单词权重值和该相似度值,计算每个聚类后地理位置关键词与该文本之间的目标匹配度,得到目标匹配度集;
根据该目标匹配度集,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集。
其中,因为第二权重值是根据目标匹配度集值设置的,所以该第二权重值集中的每个第二权重值可能都不一样。
例如,目标匹配度的计算可以通过BM25算法(Best Match 25,一种文本相似度算法),具体可以先将该聚类后地理位置关键词切分为多个单词,再确定每个单词的单词权重、每个单词和该文本之间的相似度,然后,根据单词的权重和相似度计算该单词的匹配度,得到该单词对应的匹配度,再然后,将每个单词对应的匹配度的数值做一个求和,就可以得到该多个单词对应的聚类后地理位置关键词的目标匹配度,最后,可以得到多个聚类后地理位置关键词对应的目标匹配度集。
106、根据该第一权重值集和该第二权重值集,从该聚类后地理位置关键词中,确定该文本的目标地理位置关键词。
其中,目标地理位置关键词指的是该文本中多个地理位置关键词中的一个地理位置关键词,该目标地理位置关键词对应的地理位置可以是在该文本的多个地理位置关键词对应的地理位置中与该文本对应的地理位置最接近的地理位置。
在一实施例中,对第一权重值集和第二权重值集进行加权处理,以便得到该文本的目标地理位置关键词,其中,多个地理位置关键词簇包括多个聚类中心,可以根据聚类中心的数量对第一权重值集和第二权重值集进行不同的加权处理,当聚类中心的数量未达到预设聚类中心数量时,所需要进行的具体步骤可以包括:
当该聚类中心的数量未达到预设聚类中心数量时,对该第一权重值集对应的第一加权系数和该第二权重值集对应的第二加权系数进行加权处理,得到第一目标权重值集,该第一加权系数大于该第二加权系数;
根据该第一目标权重值集,对该多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
其中,可以理解为聚类中心的数量未达到预设聚类中心数量,第一加权系数就大于第二加权系数,即根据聚类后地理位置关键词与目标聚类中心设置的第一权重值对应的第一加权系数,大于根据聚类后地理位置关键词与该文本之间的目标匹配度设置的第二权重值对应的第二加权系数。
其中,可以根据该第一目标权重值集包括多个第一目标权重值,可以基于多个目标权重值的数值大小对多个第一目标权重值对应的多个聚类后地理位置关键词进行排序,最终得到目标地理位置关键词。
在一实施例中,对第一权重值集和第二权重值集进行加权处理,以便得到该文本的目标地理位置关键词,其中,多个地理位置关键词簇包括多个聚类中心,可以根据聚类中心的数量对第一权重值集和第二权重值集进行不同的加权处理,当聚类中心的数量达到预设聚类中心数量时,所需要进行的具体步骤可以包括:
当该聚类中心的数量达到预设聚类中心数量时,对该第一权重值集对应的第一加权系数和该第二权重值集对应的第三加权系数进行加权处理,得到第二目标权重值集,该第一加权系数小于该第二加权系数;
根据该第二目标权重值集,对该多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
在一实施例中,得到了目标地理位置关键词,可以根据该目标地理位置关键词对应的地理位置实现该文本针对用户的实时精准投放,提高用户的点击率,具体步骤可以包括:
获取该目标地理位置关键词对应的目标地理位置;
确定地理位置为该目标地理位置的终端;
将该目标地理位置关键词对应的该文本发送到该终端中。
例如,如图4所示,提取文本的多个地理位置关键词之后,当多个地理位置关键词的数量达到预设关键词数量时,对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇,该多个地理位置关键词簇包括多个聚类中心和多个聚类中心对应的多个聚类后地理位置关键词,其中,该多个聚类中心包括目标聚类中心、以及该目标聚类中心对应的多个聚类后地理位置信息。
其中,当聚类中心的数量未达到预设聚类中心数量时,比如,该聚类中心的数量为2、预设聚类中心的数量为3,选取目标聚类中心,比如,从多个聚类中心中选择聚类中心对应聚类后地理位置关键词数量最多的聚类中心,将该聚类后地理位置关键词数量最多的聚类中心确定为目标聚类中心,之后再计算每个聚类后地理位置关键词与对应目标聚类中心的距离、以及多个聚类后地理位置关键词和该文本的目标匹配度,分别得到第一权重值集和第二权重值集,通过加权处理,将加权总分最高的聚类后地理位置关键词确定为目标地理位置关键词,而第一权重值集对应的第一加权系数大于第二权重值集对应的第二加权系数。
其中,当聚类中心的数量达到预设聚类中心数量时,从多个聚类中心中确定目标聚类中心,再计算每个聚类后地理位置关键词与对应目标聚类中心的距离、以及多个聚类后地理位置关键词和该文本的目标匹配度,此时,而第一权重值集对应的第一加权系数小于第二权重值集对应的第二加权系数,通过进行加权处理,将加权总分最高的聚类后地理位置关键词确定为目标地理位置关键词。
在一实施例中,可以将该目标地理位置关键词存储至区块链中,以方便后续信息的提取存储,如图6所示,该计算机设备可以为分布式***中的一个节点,其中,该分布式***可以为区块链***,该区块链***可以是由多个节点通过网络通信的形式连接形成的分布式***,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算机设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点,其中,区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链***中节点提交的记录数据。
由以上可知,本实施例可以通过获取文本的多个地理位置关键词,再对该多个地理位置关键词的实体进行聚类分析、以及计算多个聚类后地理位置关键词与该文本之间的目标匹配度,最后再根据聚类分析的结果、以及该目标匹配度确定该文本的目标地理位置关键词,可以提高地理位置关键词提取的准确率。
根据上述介绍的内容,下面将举例来进一步说明本申请实施例的关键词提取方法。如图7示,一种关键词提取方法,具体流程可以如下:
201、服务器获取文本的多个地理位置关键词。
例如,可以先获取文本标题的原始地理位置关键词,然后计算该原始地理位置关键词和该文本之间的原始匹配度,如果该原始匹配度达到预设的匹配度,那么可以将该原始地理位置关键词确定为目标地理位置关键词,若是该原始匹配度未达到预设匹配度,则获取该文本的多个地理位置关键词,以从多个地理位置关键词中提取目标地理位置关键词。
其中,获取的多个地理位置关键词可以是获取包括文本标题的原始地理位置关键词,也可以是正文的多个地理位置关键词。
202、服务器对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇,该地理位置关键词簇包括目标聚类中心和该目标聚类中心对应的多个聚类后地理位置关键词。
例如,若多个地理位置关键词的数量达到预设关键词数量,则需要对该多个地理位置关键词进行聚类,可以得到多个地理位置关键词簇,比如,可以获取每个地理位置关键词对应的关键词经纬度信息,再对该关键词经纬度信息进行聚类,就可以得到多个地理位置关键词簇,其中,每个地理位置关键词簇可以对应一个聚类中心,进而可以得到多个聚类中心,还可以从多个聚类中心中确定目标聚类中心。
可选的,若多个地理位置关键词的数量未达到预设关键词数量,则计算多个地理位置关键词与该文本之间的匹配度,再根据该匹配结果就可以从多个地理位置关键词中确定该文本对应的目标地理位置关键词。
203、服务器根据每个聚类后地理位置关键词与该目标聚类中心对应的经纬度信息,计算该多个聚类后地理位置关键词与该目标聚类中心的距离。
例如,服务器可以获取每个聚类后地理位置关键词对应的经纬度信息与目标聚类中心对应的经纬度信息,然后每个聚类后地理位置关键词与该目标聚类中心的距离就可以根据经纬度信息换算成实际的距离来计算,比如,一聚类后地理位置关键词A的经纬度信息已知,而该目标聚类中心的经纬度信息也为已知的,那么该聚类后地理位置关键词A与该目标聚类中心的距离可以看做是计算两点之间的距离。
204、基于该距离,服务器设置该每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集。
例如,每个聚类后地理位置关键词与目标聚类中心的距离可能都不相同,虽然设置了每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集合,但是第一权重值集中的每个第一权重值的数值一般都是不同的,因为距离不同,设置的第一权重值就不同。
205、服务器根据该每个聚类后地理位置关键词与该文本之间的目标匹配度,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集。
例如,计算每个聚类后地理位置关键词与该文本之间的目标匹配的时候,可以将每个聚类后的地理位置关键词进行切分,每个聚类后地理位置关键词都可以得到多个聚类后地理位置关键词单词,然后,再确定每个地理位置关键词单词的单词权重、以及每个地理位置关键词单词和该文本之间的相似度值,再然后根据该单词权重和该相似度值,计算每个聚类后地理位置关键词和该文本之间的目标匹配度,比如,根据该单词权重和该相似度值可以计算出该地理位置关键词单词和该文本之间的匹配度,根据该匹配度计算该地理位置关键词和该文本之间的目标匹配度,最终可以得到多个聚类后地理位置关键词的目标匹配度集。
可选的,根据该目标匹配度集可以设置每一个聚类后地理位置关键词对应的第二权重值,显而易见的,可以得到多的聚类后地理位置关键词对应的第二权重值集。
206、服务器根据该第一权重值集和该第二权重值集,从该聚类后地理位置关键词中,确定该文本的目标地理位置关键词。
在一实施例中,当聚类中心的数量未达到预设聚类中心数量时,第一权重值集对应的第一加权系数大于第二权重值集对应的第二加权系数,当聚类中心的数量达到预设聚类中心数量时,第一权重值集对应的第一加权系数小于第二权重值集对应的第二加权系数。例如,当聚类中心的数量未达到预设聚类中心数量时,对该第一权重值集对应的第一加权系数和该第二权重值集对应的第二加权系数进行加权处理,比如,第一权重值集中的每个第一权重值与第一加权系数相乘,第二权重值集中的每个第二权重值与第二加权系数相乘,得到第一目标权重值集,根据第一目标权重值集,对多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
可选的,当该聚类中心的数量达到预设聚类中心数量时,对该第一权重值集对应的第一加权系数和该第二权重值集对应的第二加权系数进行加权处理,比如,第一权重值集中的每个第一权重值与第一加权系数相乘,第二权重值集中的每个第二权重值与第二加权系数相乘,得到第二目标权重值集,根据该第二目标权重值集,对该多个聚类后地理位置关键词进行排序,得到目标地理位置关键词,其中,基于聚类中心的数量的大小,加权系数有所区别。
在一个实施例中,可以根据目标地理位置关键词确定该目标地理位置关键词对应的地理位置,将该文本精准的投放到该地理位置对应的用户终端中。
例如,以目标地理位置关键词为核心地理位置关键词为例进行说明,存在一篇包括多个地理位置关键词的文章,提取该文章的多个地理位置关键词,通过聚类分析、以及多个地理位置关键词与该文章的匹配度,从多个地理位置关键词中确定核心地理位置关键词,比如,A大厦,同时用户B的地理位置信息也为A大厦,此时,可以将该文章精准投放到用户B的终端中,用户B点击该文章的概率较大。该方案可以提高目标地理位置关键词的精准提取,进而可以将该文章精准投放放对应的用户终端中,提升了文章的整体点击率,进而提高产品日活跃用户数量。
由以上可知,本实施例可以通过获取文本的多个地理位置关键词,再对该多个地理位置关键词的实体进行聚类分析、以及计算多个聚类后地理位置关键词与该文本之间的目标匹配度,最后再根据聚类分析的结果、以及该目标匹配度确定该文本的目标地理位置关键词,可以提高地理位置关键词提取的准确率。
为了更好地实施以上方法,相应的,本申请实施例还提供一种关键词提取装置,其中,该关键词提取装置具体可以集成在服务器中。
例如,如图8所示,该关键词提取装置可以包括第一获取单元301、聚类单元302、第一计算单元303、第一设置单元304、第二设置单元305和第一确定单元306,如下:
(1)第一获取单元301;
第一获取单元301,用于获取文本的多个地理位置关键词。
在一实施例中,该第一获取单元301,包括:
第一获取子单元3011,用于获取文本标题的原始地理位置关键词;
第二计算子单元3012,用于计算该原始地理位置关键词与该文本之间的原始匹配度;
第二获取子单元3013,用于当该原始匹配度未达到该预设匹配度时,获取该文本的多个地理位置关键词。
(2)聚类单元302;
聚类单元302,用于对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇,该地理位置关键词簇包括目标聚类中心和该目标聚类中心对应的多个聚类后地理位置关键词。
在一实施例中,该聚类单元302,包括:
聚类子单元3021,用于当该多个地理位置关键词的数量达到预设关键词数量时,对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇。
在一实施例中,该聚类子3021单元还用于获取每个地理位置关键词对应的关键词经纬度信息;对该关键词经纬度信息进行聚类,得到多个地理位置关键词簇。
(3)第一计算单元303;
第一计算单元303,用于根据每个聚类后地理位置关键词与该目标聚类中心对应的经纬度信息,计算该多个聚类后地理位置关键词与该目标聚类中心的距离。
(4)第一设置单元304;
第一设置单元304,用于基于该距离,设置该每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集。
(5)第二设置单元305;
第二设置单元305,用于根据该每个聚类后地理位置关键词与该文本之间的目标匹配度,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集。
在一实施例中,该第二设置单元305,包括:
切分子单元3051,用于对该多个聚类后地理位置关键词进行切分,得到多个地理位置关键词单词;
确定子单元3052,用于确定每个地理位置关键词单词的单词权重值、以及每个地理位置关键词单词和该文本之间的相似度值;
第一计算子单元3053,用于根据该单词权重值和该相似度值,计算每个聚类后地理位置关键词与该文本之间的目标匹配度,得到目标匹配度集;
设置子单元3054,用于根据该目标匹配度集,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集。
(6)第一确定单元306;
第一确定单元306,用于根据该第一权重值集和该第二权重值集,从该聚类后地理位置关键词中,确定该文本的目标地理位置关键词。
在一实施例中,该第一确定单元306,包括:
第一加权子单元3061,用于当该聚类中心的数量未达到预设聚类中心数量时,对该第一权重值集对应的第一加权系数和该第二权重值集对应的第二加权系数进行加权处理,得到第一目标权重值集,该第一加权系数大于该第二加权系数;
第一排序子单元3062,用于根据该第一目标权重值集,对该多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
在一实施例中,该第一确定单元306,包括:
第二加权子单元3063,用于当该聚类中心的数量达到预设聚类中心数量时,对该第一权重值集对应的第三加权系数和该第二权重值集对应的第四加权系数进行加权处理,得到第二目标权重值集,该第三加权系数小于该第四加权系数;
第二排序子单元3064,用于根据该第二目标权重值集,对该多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
在一实施例中,如图9所示,该聚类单元302,还包括:
第二计算单元307,用于当该多个地理位置关键词的数量未达到预设关键词数量时,计算该多个地理位置关键词与该文本之间的匹配度;
第二确定单元308,用于根据该匹配度,从该多个地理位置关键词中确定目标地理位置关键词。
在一实施例中,如图10所示,该第一确定单元306,还包括:
第二获取单元309,用于获取该目标地理位置关键词对应的目标地理位置;
第三确定单元3010,用于确定地理位置为该目标地理位置的终端;
发送单元311,用于将该目标地理位置关键词对应的该文本发送到该终端中。
由以上可知,本申请实施例的关键词提取装置中第一获取单元301获取文本的多个地理位置关键词;然后,由聚类单元302对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇,该地理位置关键词簇包括目标聚类中心和该目标聚类中心对应的多个聚类后地理位置关键词;由第一计算单元303根据每个聚类后地理位置关键词与该目标聚类中心对应的经纬度信息,计算该多个聚类后地理位置关键词与该目标聚类中心的距离;由第一设置单元303基于该距离,设置该每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;由第二设置单元304根据该每个聚类后地理位置关键词与该文本之间的目标匹配度,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;由第一确定单元305根据该第一权重值集和该第二权重值集,从该聚类后地理位置关键词中,确定该文本的目标地理位置关键词。该方案可以通过获取文本的多个地理位置关键词,再对该多个地理位置关键词的实体进行聚类分析、以及计算多个聚类后地理位置关键词与该文本之间的目标匹配度,最后再根据聚类分析的结果、以及该目标匹配度确定该文本的目标地理位置关键词,可以提高地理位置关键词提取的准确率。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为为实施例优选循序的限定。
相应的,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器等设备,如图11所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图11中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取文本的多个地理位置关键词;对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇,该地理位置关键词簇包括目标聚类中心和该目标聚类中心对应的多个聚类后地理位置关键词;根据每个聚类后地理位置关键词与该目标聚类中心对应的经纬度信息,计算该多个聚类后地理位置关键词与该目标聚类中心的距离;基于该距离,设置该每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;根据该每个聚类后地理位置关键词与该文本之间的目标匹配度,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;根据该第一权重值集和该第二权重值集,从该聚类后地理位置关键词中,确定该文本的目标地理位置关键词。
以上个操作的具体实施例可参见前面的实施例,在此不再赘述。
在一实施例中,如图6所示,该计算机设备可以是分布式***中的一个节点,其中,该分布式***可以为区块链***,该区块链***可以是由多个节点通过网络通信的形式连接形成的分布式***。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算机设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点。
由以上可知,本实施例可以通过获取文本的多个地理位置关键词,再对该多个地理位置关键词的实体进行聚类分析、以及计算多个聚类后地理位置关键词与该文本之间的目标匹配度,最后再根据聚类分析的结果、以及该目标匹配度确定该文本的目标地理位置关键词,可以提高地理位置关键词提取的准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种关键词提取方法中的步骤。例如,该指令可以执行如下步骤:
获取文本的多个地理位置关键词;对该多个地理位置关键词进行聚类,得到多个地理位置关键词簇,该地理位置关键词簇包括目标聚类中心和该目标聚类中心对应的多个聚类后地理位置关键词;根据每个聚类后地理位置关键词与该目标聚类中心对应的经纬度信息,计算该多个聚类后地理位置关键词与该目标聚类中心的距离;基于该距离,设置该每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;根据该每个聚类后地理位置关键词与该文本之间的目标匹配度,设置该每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;根据该第一权重值集和该第二权重值集,从该聚类后地理位置关键词中,确定该文本的目标地理位置关键词。
以上各个操作的具体实施方式可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种关键词提取方法中的步骤,因此,可以实现本申请实施例所提供的任一种关键词提取方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种关键词提取方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种关键词提取方法,其特征在于,包括:
获取文本的多个地理位置关键词;
对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇,所述地理位置关键词簇包括目标聚类中心和所述目标聚类中心对应的多个聚类后地理位置关键词;
根据每个聚类后地理位置关键词与所述目标聚类中心对应的经纬度信息,计算所述多个聚类后地理位置关键词与所述目标聚类中心的距离;
基于所述距离,设置所述每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;
根据所述每个聚类后地理位置关键词与所述文本之间的目标匹配度,设置所述每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;
根据所述第一权重值集和所述第二权重值集,从所述聚类后地理位置关键词中,确定所述文本的目标地理位置关键词。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇,包括:
当所述多个地理位置关键词的数量达到预设关键词数量时,对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇之后,所述方法还包括:
当所述多个地理位置关键词的数量未达到预设关键词数量时,计算所述多个地理位置关键词与所述文本之间的匹配度;
根据所述匹配度,从所述多个地理位置关键词中确定目标地理位置关键词。
4.根据权利要求2所述的方法,其特征在于,所述当所述多个地理位置关键词的数量达到预设关键词数量时,对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇,包括:
当所述多个地理位置关键词的数量达到预设关键词数量时,获取每个地理位置关键词对应的关键词经纬度信息;
对所述关键词经纬度信息进行聚类,得到多个地理位置关键词簇。
5.根据权利要求1所述的方法,其特征在于,所述根据所述每个聚类后地理位置关键词与所述文本之间的目标匹配度,设置所述每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集,包括:
对所述多个聚类后地理位置关键词进行切分,得到多个地理位置关键词单词;
确定每个地理位置关键词单词的单词权重值、以及每个地理位置关键词单词和所述文本之间的相似度值;
根据所述单词权重值和所述相似度值,计算每个聚类后地理位置关键词与所述文本之间的目标匹配度,得到目标匹配度集;
根据所述目标匹配度集,设置所述每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集。
6.根据权利要求1所述的方法,其特征在于,所述多个地理位置关键词簇包括多个聚类中心;
所述根据所述第一权重值集和所述第二权重值集,从所述聚类后地理位置关键词中,确定所述文本的目标地理位置关键词,包括:
当所述聚类中心的数量未达到预设聚类中心数量时,对所述第一权重值集对应的第一加权系数和所述第二权重值集对应的第二加权系数进行加权处理,得到第一目标权重值集,所述第一加权系数大于所述第二加权系数;
根据所述第一目标权重值集,对所述多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
7.根据权利要求1所述的方法,其特征在于,所述多个地理位置关键词簇包括多个聚类中心;
所述根据所述第一权重值集和所述第二权重值集,从所述聚类后地理位置关键词中,确定所述文本的目标地理位置关键词,包括:
当所述聚类中心的数量达到预设聚类中心数量时,对所述第一权重值集对应的第一加权系数和所述第二权重值集对应的第二加权系数进行加权处理,得到第二目标权重值集,所述第一加权系数小于所述第二加权系数;
根据所述第二目标权重值集,对所述多个聚类后地理位置关键词进行排序,得到目标地理位置关键词。
8.根据权利要求1所述的方法,其特征在于,所述获取文本的多个地理位置关键词,包括:
获取文本标题的原始地理位置关键词;
计算所述原始地理位置关键词与所述文本之间的原始匹配度;
当所述原始匹配度未达到所述预设匹配度时,获取所述文本的多个地理位置关键词。
9.根据权利要求1所述的方法,其特征在于,所述根据所述第一权重值集和所述第二权重值集,从所述聚类后地理位置关键词中,确定所述文本的目标地理位置关键词之后,所述方法还包括:
获取所述目标地理位置关键词对应的目标地理位置;
确定地理位置为所述目标地理位置的终端;
将所述目标地理位置关键词对应的所述文本发送到所述终端中。
10.一种文本的关键词提取装置,其特征在于,包括:
第一获取单元,用于获取文本的多个地理位置关键词;
聚类单元,用于对所述多个地理位置关键词进行聚类,得到多个地理位置关键词簇,所述地理位置关键词簇包括目标聚类中心和所述目标聚类中心对应的多个聚类后地理位置关键词;
第一计算单元,用于根据每个聚类后地理位置关键词与所述目标聚类中心对应的经纬度信息,计算所述多个聚类后地理位置关键词与所述目标聚类中心的距离;
第一设置单元,用于基于所述距离,设置所述每个聚类后地理位置关键词对应的第一权重值,得到第一权重值集;
第二设置单元,用于根据所述每个聚类后地理位置关键词与所述文本之间的目标匹配度,设置所述每个聚类后地理位置关键词对应的第二权重值,得到第二权重值集;
第一确定单元,用于根据所述第一权重值集和所述第二权重值集,从所述聚类后地理位置关键词中,确定所述文本的目标地理位置关键词。
CN202010055359.4A 2020-01-17 2020-01-17 关键词提取方法、装置和计算机可读存储介质 Active CN111310072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010055359.4A CN111310072B (zh) 2020-01-17 2020-01-17 关键词提取方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010055359.4A CN111310072B (zh) 2020-01-17 2020-01-17 关键词提取方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111310072A true CN111310072A (zh) 2020-06-19
CN111310072B CN111310072B (zh) 2021-10-26

Family

ID=71156471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010055359.4A Active CN111310072B (zh) 2020-01-17 2020-01-17 关键词提取方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111310072B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842977A (zh) * 2022-06-30 2022-08-02 北京超数时代科技有限公司 一种基于医疗大数据及人工智能的医疗决策***
CN115757565A (zh) * 2023-01-09 2023-03-07 无锡容智技术有限公司 一种文本数据的地理位置定位方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN103955505A (zh) * 2014-04-24 2014-07-30 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及***
US20150046152A1 (en) * 2013-08-08 2015-02-12 Quryon, Inc. Determining concept blocks based on context
CN104834721A (zh) * 2015-05-12 2015-08-12 百度在线网络技术(北京)有限公司 基于位置的搜索处理方法及装置
CN105468632A (zh) * 2014-09-05 2016-04-06 高德软件有限公司 一种地理编码方法及装置
CN107102986A (zh) * 2017-04-23 2017-08-29 四川用联信息技术有限公司 文档中多主题的关键词提取技术
CN108399267A (zh) * 2018-03-27 2018-08-14 东北大学 一种基于簇语义特征分析的反馈式聚类方法
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN110472158A (zh) * 2018-05-11 2019-11-19 北京搜狗科技发展有限公司 一种搜索条目的排序方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
US20150046152A1 (en) * 2013-08-08 2015-02-12 Quryon, Inc. Determining concept blocks based on context
CN103955505A (zh) * 2014-04-24 2014-07-30 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及***
CN105468632A (zh) * 2014-09-05 2016-04-06 高德软件有限公司 一种地理编码方法及装置
CN104834721A (zh) * 2015-05-12 2015-08-12 百度在线网络技术(北京)有限公司 基于位置的搜索处理方法及装置
CN107102986A (zh) * 2017-04-23 2017-08-29 四川用联信息技术有限公司 文档中多主题的关键词提取技术
CN108399267A (zh) * 2018-03-27 2018-08-14 东北大学 一种基于簇语义特征分析的反馈式聚类方法
CN110472158A (zh) * 2018-05-11 2019-11-19 北京搜狗科技发展有限公司 一种搜索条目的排序方法和装置
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许梦馨: "基于复杂网络的文本关键词提取分析平台", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842977A (zh) * 2022-06-30 2022-08-02 北京超数时代科技有限公司 一种基于医疗大数据及人工智能的医疗决策***
CN114842977B (zh) * 2022-06-30 2022-10-21 北京超数时代科技有限公司 一种基于医疗大数据及人工智能的医疗决策***
CN115757565A (zh) * 2023-01-09 2023-03-07 无锡容智技术有限公司 一种文本数据的地理位置定位方法和装置

Also Published As

Publication number Publication date
CN111310072B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN111885399B (zh) 内容分发方法、装置、电子设备以及存储介质
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN111339443B (zh) 用户标签确定方法、装置、计算机设备及存储介质
CN111475729A (zh) 搜索内容推荐方法及装置
CN110209810B (zh) 相似文本识别方法以及装置
CN112052387B (zh) 一种内容推荐方法、装置和计算机可读存储介质
CN110598065A (zh) 一种数据挖掘方法、装置和计算机可读存储介质
CN111611801B (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN111310072B (zh) 关键词提取方法、装置和计算机可读存储介质
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN111382190A (zh) 一种基于智能的对象推荐方法、装置和存储介质
CN111325204A (zh) 目标检测方法、装置、电子设备以及存储介质
CN111652331A (zh) 一种图像识别方法、装置和计算机可读存储介质
CN111538859B (zh) 一种动态更新视频标签的方法、装置及电子设备
CN110866249A (zh) 一种动态检测恶意代码的方法、装置及电子设备
CN110245310A (zh) 一种对象的行为分析方法、装置及存储介质
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113326363B (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
CN113407738A (zh) 一种相似文本检索方法、装置、电子设备和存储介质
CN112052399A (zh) 一种数据处理方法、装置和计算机可读存储介质
CN113962417A (zh) 一种视频处理方法、装置、电子设备和存储介质
CN114267440B (zh) 医疗订单信息处理方法、装置和计算机可读存储介质
CN111767419A (zh) 图片搜索方法、装置、设备及计算机可读存储介质
CN114329026A (zh) 图像检索方法、装置、电子设备和计算机可读存储介质
CN113244629B (zh) 流失帐号的召回方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024404

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant